Vollständige Audiozusammenfassung Vollständiges Audio-Transkript Themenzusammenfassung Inhaltsmoderation Audio-Standardausgabe

Audio

Das Feature Amazon Bedrock Data Automation (BDA) bietet eine Reihe von Standardausgaben zur Verarbeitung und Generierung von Erkenntnissen aus Audiodateien. Im Folgenden finden Sie einen detaillierten Überblick über die einzelnen Operationstypen:

Vollständige Audiozusammenfassung

Die vollständige Audiozusammenfassung generiert eine allgemeine Zusammenfassung der gesamten Audiodatei. Dabei werden die wichtigsten Themen, Ereignisse und Informationen aus der gesamten Audiodatei kurz und präzise zusammengefasst.

Vollständiges Audio-Transkript

Das Feature des vollständigen Audio-Transkripts bietet eine vollständige textliche Darstellung aller gesprochenen Inhalte der Audio-Datei. Dabei kommt eine fortschrittliche Spracherkennungstechnologie zum Einsatz, um Dialoge, Erzählungen und andere Audioelemente präzise zu transkribieren. Die Transkription beinhaltet Zeitstempel, sodass in Audioinhalten, die aus gesprochenen Wörtern bestehen, ganz einfach navigiert und gesucht werden kann.

Sprecher- und Kanalkennzeichnung

Für das generierte Transkript können Sie die and/or Kanallautsprecherbeschriftung aktivieren. Dadurch wird jedem Kanal oder Sprecher eine Nummer zugewiesen und dann im Protokoll angegeben, wenn ein Kanal verwendet wird und ein bestimmter Sprecher spricht. Diese Kennzeichnung erscheint in der Antwort als „spk_“, gefolgt von einer eindeutigen Nummer für jeden Sprecher (bis 30 möglich). Der erste Sprecher wäre „spk_0", gefolgt von „spk_1" usw. Audiokanäle werden auf ähnliche Weise angezeigt, wobei der erste Kanal mit „ch_0" gekennzeichnet ist. Es können jedoch nur maximal zwei Kanäle gekennzeichnet werden.

Themenzusammenfassung

Die Funktion zur Zusammenfassung der Audiothemen unterteilt die Audiodatei in Abschnitte, die als Themen bezeichnet werden, und fasst diese zwecks Bereitstellung der wichtigsten Informationen zusammen. Diese Themen werden mit Zeitstempeln versehen, damit sie innerhalb der Audiodatei leichter gefunden werden können. Dieses Feature ist standardmäßig nicht aktiviert.

Inhaltsmoderation

Die Funktion der Inhaltsmoderation nutzt audio- und textbasierte Hinweise, um sprachbasierte toxische Inhalte zu identifizieren und in sieben verschiedene Kategorien zu unterteilen:

Obszönität: Sprache, die unhöfliche, vulgäre oder beleidigende Wörter, Formulierungen oder Abkürzungen enthält
Hassrede: Äußerungen, die eine Person oder Gruppe aufgrund ihrer Identität (z. B. Rasse, ethnische Zugehörigkeit, Geschlecht, Religion, sexuelle Orientierung, Fähigkeiten und nationale Herkunft) kritisieren, beleidigen, anprangern oder entmenschlichen
Sexuell: Sprache, die sexuelles Interesse, Aktivität oder Erregung durch direkte oder indirekte Anspielungen auf Körperteile, körperliche Merkmale oder Geschlecht anzeigt
Beleidigungen: Äußerungen, die eine erniedrigende, demütigende, spöttische, beleidigende oder herabsetzende Sprache enthalten. Diese Art von Sprache wird auch als Mobbing bezeichnet.
Gewalt oder Bedrohung: Äußerungen, die Drohungen enthalten, die darauf abzielen, einer Person oder Gruppe Schmerzen oder Verletzungen zuzufügen bzw. sich dieser gegenüber feindselig zu verhalten
Grafisch: Sprache, die visuell beschreibende und unangenehm anschauliche Bilder verwendet. Diese Art von Sprache ist oft absichtlich bildreich, um das Unbehagen des Empfängers zu verstärken.
Belästigung oder Beleidigung: Äußerungen, die darauf abzielen, das psychische Wohlbefinden des Empfängers zu beeinträchtigen, einschließlich erniedrigender und objektivierender Begriffe. Diese Art von Sprache wird auch als Belästigung bezeichnet.

Audio-Standardausgabe

Dieser Abschnitt konzentriert sich auf die verschiedenen Antwortobjekte, die Sie erhalten, wenn Sie den API-Vorgang InvokeDataAutomation für eine Audiodatei ausführen. Im Folgenden werden die einzelnen Abschnitte des Antwortobjekts aufgeschlüsselt und dann eine vollständige, ausgefüllte Antwort für ein Beispieldokument angezeigt. Der erste Abschnitt, den wir erhalten, ist metadata.



 "metadata": {
    "asset_id": "0",
    "semantic_modality": "AUDIO",
    "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1",
    "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav",
    "sample_rate": 8000,
    "bitrate": 256000,
    "number_of_channels": 2,
    "codec": "pcm_s16le",
    "duration_millis": 237560,
    "format": "wav",
    "dominant_asset_language": "EN",
    "generative_output_language": "DEFAULT/EN"
  }

In diesem Abschnitt werden Informationen zur Datei wie S3-Speicherort, Bitrate, Audiokanäle und Format aufgeschlüsselt. Als Nächstes schauen wir uns audio_items an.

dominant_asset_languagegibt anhand der Länge in Sekunden an, welche Sprache in einem Audiostück am häufigsten vorkommt. generative_output_languagegibt an, in welcher Sprache die Antwortausgabe erfolgen wird. Wenn es auf „DEFAULT“ gesetzt ist, wird die dominante Sprache verwendet.



"audio_items": [
    {
      "item_index": 0,
      "audio_segment_index": 0,
      "content": "Auto",
      "start_timestamp_millis": 9,
      "end_timestamp_millis": 119
    },
    ...
]

Der Abschnitt für Audioelemente enthält eine Aufschlüsselung der Audiodatei auf Soundbasis. Bei den einzelnen Elementen geht es in der Regel um die Wortlänge. Der item_index gibt den Platz des Elements in den audio_items-Indizes an, während der audio_segment_index angibt, wo es sich in den Segmentindizes befindet, auf die wir als Nächstes eingehen werden.



"audio_segments": [
    {
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 1970,
      "segment_index": 0,
      "type": "TRANSCRIPT",
      "text": "Auto sales, Cherry speaking. How can I help you?",
      "speaker": {
        "speaker_label": "spk_0"
      },
      "channel": {
        "channel_label": "ch_0"
      },
      "audio_item_indices": [
        0,
        1,
        2,
        3,
        4,
        5,
        6,
        7,
        8,
        9,
        10,
        11
      ],
      "language": "EN"
    },
    ...
]

Hier erhalten wir eine Aufschlüsselung der Datei auf der Grundlage längerer Zeiträume, wobei jedes Segment ungefähr einem Satz entspricht. Dies sagt uns, welche Audioelemente im Segment enthalten sind und welcher Text zum Segment gehört. Schauen wir uns als Nächstes die Inhaltsmoderation an.

Wenn die Sprecher- und Kanalkennzeichnung aktiviert ist, sehen Sie die Abschnitte speaker_label und channel_label, die angeben, welcher Sprecher und welcher Kanal im Segment vorhanden sind.



"content_moderation": [
      {
        "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0",
        "type": "AUDIO_MODERATION",
        "confidence": 0.0476,
        "start_timestamp_millis": 0,
        "end_timestamp_millis": 1970,
        "moderation_categories": [
          {
            "category": "profanity",
            "confidence": 0.1582
          },
          ...
        ]
      },
      ...
]

Im Abschnitt zur Inhaltsmoderation werden die einzelnen Segmente untersucht und in Bezug auf die 7 Inhaltskategorien analysiert. Dabei werden für jeden Abschnitt Konfidenzwerte bereitgestellt. Der nächste Abschnitt ist der Themenabschnitt.



"topics": [
    {
      "topic_index": 0,
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 36790,
      "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.",
      "transcript": {
        "representation": {
          "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens."
        }
      },
      "audio_segment_indices": [
        0,
        1,
        2,
        3,
        4,
        5,
        6,
        7,
        8,
        9,
        10
      ]
    },
    ...
]

Themenabschnitte stellen die nächste Stufe der Granularität von Segmenten dar. Dabei handelt es sich um Gruppierungen von Segmenten, die grob nach Konzepten gegliedert sind. Jedes Thema enthält eine generierte Zusammenfassung des Themas sowie den genauen Text des Themas. Den letzten Teil einer Antwort stellen die Statistiken dar.



 "statistics": {
    "word_count": 749,
    "topic_count": 4
  }

In diesem Abschnitt werden die Informationen zur Audiodatei zusammengefasst. Dazu gehören die Anzahl der Wörter und die Gesamtzahl der Themen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Videos

Benutzerdefinierte Ausgabe und Vorlagen