Récapitulatif audio complet Transcription audio complète Résumé de la rubrique Modération de contenu Sortie audio standard

Audio

La fonctionnalité d’automatisation des données Amazon Bedrock (BDA) propose un ensemble de sorties standard pour traiter et générer des informations pour les fichiers audio. Voici un aperçu détaillé de chaque type d’opération :

Récapitulatif audio complet

Le récapitulatif audio complet génère un résumé global de l’ensemble du fichier audio. Il résume les principaux thèmes, événements et informations présentés tout au long de l’audio dans un récapitulatif concis.

Transcription audio complète

La fonctionnalité de transcription audio complète fournit une représentation textuelle complète de tout le contenu vocal de l’audio. Elle transcrit avec précision le dialogue, la narration et d’autres éléments audio à l’aide d’une technologie avancée de reconnaissance vocale. La transcription inclut l’horodatage, ce qui facilite la navigation et la recherche dans le contenu audio en fonction des mots prononcés.

Étiquetage des locuteurs et des canaux

Pour la transcription générée, vous pouvez activer l'étiquetage des and/or haut-parleurs des chaînes. Cela donnera un numéro à chaque canal ou locuteur, puis indiquera dans la transcription quand un canal est utilisé et qu’un locuteur en particulier parle. Cette étiquette apparaît dans la réponse sous la forme « spk_ », suivie d’un numéro unique pour chaque locuteur, jusqu’à 30 locuteurs. Le premier locuteur serait « spk_0 », « spk_1 » et ainsi de suite. Les canaux audio sont indiqués de la même manière, le premier canal étant étiqueté « ch_0 », mais seuls deux canaux peuvent être étiquetés.

Résumé de la rubrique

Le résumé des rubriques audio sépare le fichier audio en sections appelées rubriques et les résume pour fournir des informations clés. Ces rubriques sont horodatés pour faciliter leur intégration dans le fichier audio dans son ensemble. Cette fonctionnalité n’est pas activée par défaut.

Modération de contenu

La modération de contenu utilise des signaux audio et textuels pour identifier et classer les contenus toxiques vocaux en sept catégories différentes :

Blasphème : discours contenant des mots, des expressions ou des acronymes impolis, vulgaires ou offensants.
Discours haineux : discours qui critique, insulte, dénonce ou déshumanise une personne ou un groupe de personnes sur la base d’une identité (telle que la race, l’origine ethnique, le sexe, la religion, l’orientation sexuelle, les capacités et l’origine nationale).
Sexualité : discours qui indique un intérêt, une activité ou une excitation sexuelle en utilisant des références directes ou indirectes à des parties du corps, à des traits physiques ou au sexe.
Insultes : discours qui inclut un langage dégradant, humiliant, moqueur, insultant ou dénigrant. Ce type de langage est également qualifié d’intimidation
Violence ou menace : discours qui inclut des menaces visant à infliger de la douleur, des blessures ou de l’hostilité à une personne ou à un groupe de personnes.
Graphique : discours qui utilise des images visuellement descriptives et d’une expression désagréable. Ce type de langage est souvent intentionnellement verbeux pour amplifier l’inconfort du destinataire.
Harcèlement ou abus : discours visant à affecter le bien-être psychologique du destinataire et comprenant notamment des termes dégradants et objectivants. Ce type de langage est également qualifié de harcèlement.

Sortie audio standard

Cette section se concentre sur les différents objets de réponse que vous recevez lors de l'exécution de l'opération d'API InvokeDataAutomation sur un fichier audio. Ci-dessous, nous allons décomposer chaque section de l’objet de réponse, puis voir une réponse complète et renseignée pour un exemple de document. La première section que nous recevrons est metadata.



 "metadata": {
    "asset_id": "0",
    "semantic_modality": "AUDIO",
    "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1",
    "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav",
    "sample_rate": 8000,
    "bitrate": 256000,
    "number_of_channels": 2,
    "codec": "pcm_s16le",
    "duration_millis": 237560,
    "format": "wav",
    "dominant_asset_language": "EN",
    "generative_output_language": "DEFAULT/EN"
  }

Cette section détaille les informations relatives au fichier, telles que son emplacement s3, son débit, ses canaux audio et son format. Ensuite, nous examinons audio_items.

dominant_asset_languageindique la langue la plus présente dans un extrait audio en fonction de sa durée en secondes. generative_output_languageindique la langue dans laquelle le résultat de la réponse sera publié. Lorsqu'il est défini sur « DEFAULT », il utilisera la langue dominante.



"audio_items": [
    {
      "item_index": 0,
      "audio_segment_index": 0,
      "content": "Auto",
      "start_timestamp_millis": 9,
      "end_timestamp_millis": 119
    },
    ...
]

La section des éléments comprend une analyse détaillée des fichiers audio, son par son. Chaque élément concerne généralement la longueur du mot. L’item_index indique la place de l’élément dans les indices audio_items, et l’audio_segment_index indique où il se trouve dans les indices des segments dont nous parlerons ensuite.



"audio_segments": [
    {
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 1970,
      "segment_index": 0,
      "type": "TRANSCRIPT",
      "text": "Auto sales, Cherry speaking. How can I help you?",
      "speaker": {
        "speaker_label": "spk_0"
      },
      "channel": {
        "channel_label": "ch_0"
      },
      "audio_item_indices": [
        0,
        1,
        2,
        3,
        4,
        5,
        6,
        7,
        8,
        9,
        10,
        11
      ],
      "language": "EN"
    },
    ...
]

Nous obtenons ici une répartition du fichier en fonction de périodes plus longues, chaque segment équivalant à peu près à une phrase. Il nous indique quels éléments audio sont inclus dans le segment et le texte du segment lui-même. Passons maintenant à la modération de contenu.

Lorsque l’étiquetage des locuteurs et des canaux est activé, vous pouvez voir les sections speaker_label et channel_label qui indiquent les locuteurs et les canaux présents dans ce segment.



"content_moderation": [
      {
        "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0",
        "type": "AUDIO_MODERATION",
        "confidence": 0.0476,
        "start_timestamp_millis": 0,
        "end_timestamp_millis": 1970,
        "moderation_categories": [
          {
            "category": "profanity",
            "confidence": 0.1582
          },
          ...
        ]
      },
      ...
]

La section de modération de contenu passe en revue chaque segment individuel et l’analyse pour l’une des sept catégories de modération, fournissant des scores de confiance pour chaque section. Notre section suivante porte sur les rubriques.



"topics": [
    {
      "topic_index": 0,
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 36790,
      "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.",
      "transcript": {
        "representation": {
          "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens."
        }
      },
      "audio_segment_indices": [
        0,
        1,
        2,
        3,
        4,
        5,
        6,
        7,
        8,
        9,
        10
      ]
    },
    ...
]

Les sections de rubrique constituent le niveau de granularité suivant par rapport aux segments. Ce sont des groupes de segments qui sont décomposés grossièrement par concepts. Chaque rubrique est accompagné d’un résumé généré de la rubrique et du test exact de la rubrique. La dernière partie de notre réponse concerne les statistiques.



 "statistics": {
    "word_count": 749,
    "topic_count": 4
  }

Cette section résume les informations relatives au fichier audio. Cela inclut le nombre de mots et le nombre total de rubriques.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Vidéos

Sortie personnalisée et plans