音声 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

音声

Amazon Bedrock Data Automation (BDA) 機能には、オーディオファイルのインサイトを処理および生成するための一連の標準出力が用意されています。各オペレーションタイプの詳細を次に示します。

オーディオ全体の概要

オーディオ全体の概要は、オーディオファイル全体の全体的な概要を生成します。オーディオ全体で表示される主要なテーマ、イベント、および情報を簡潔な概要にまとめます。

オーディオ全体の文字起こし

オーディオ全体の文字起こし機能は、オーディオ内のすべての音声コンテンツを完全なテキストで表現します。高度な音声認識テクノロジーを使用して、対話、ナレーション、その他のオーディオ要素を正確に書き起こします。文字起こしにはタイムスタンプが含まれているため、発話された単語に基づいてオーディオコンテンツ内を簡単に移動および検索できます。

話者とチャネルのラベル付け

生成された文字起こしでは、チャネルや話者のラベル付けを有効にできます。これにより、各チャネルまたは話者に番号が付けられ、チャネルが使用されていて、特定の話者が話しているときに文字起こし内で示されます。このラベルは、レスポンス内に「spk_」と表示され、その後に話者ごとに一意の番号 (最大 30 人) が続きます。最初の話者は「spk_0」、その次は「spk_1」となります。オーディオチャネルは、「ch_0」というラベルが付いた最初のチャネルと同様に表示されますが、ラベル付けできるのは 2 つのチャネルのみです。

トピックの概要

オーディオトピックの概要は、オーディオファイルをトピックと呼ばれるセクションに分割し、それらを要約してキー情報を提供します。これらのトピックには、オーディオファイル全体に配置するのに役立つタイムスタンプが付けられています。この機能は、デフォルトでは有効になっていません。

コンテンツモデレーション

コンテンツモデレーションは、オーディオおよびテキストベースのキューを使用して、音声ベースの有害コンテンツを 7 つの異なるカテゴリに識別および分類します。

  • 不敬: 無礼、下品、攻撃的な単語やフレーズ、または頭字語を含む言葉。

  • ヘイトスピーチ: 人種、民族、性同一性、宗教、性的指向、能力、出身国、その他のアイデンティティグループなど、アイデンティティに基づいて個人またはグループを批判、侮辱、否定する発言。

  • セクシャル: 体の一部、身体的特徴、性別への直接的または間接的な言及により、性的関心、活動、性的嗜好を示す発言。

  • 侮辱: 屈辱的、嘲笑的、侮辱的、または軽蔑的な言葉を含む発言。この種の発言は、「いじめ」とも呼ばれます。

  • 暴力または脅し: 個人または集団に対して苦痛や痛み、敵意を与えることを意図する脅迫的な発言。

  • グラフィックスピーチ: 視覚的に説明的で詳細、不快かつ生々しい画像を使った発言。この種の言葉は、受け手の不快感を増幅させるために、意図的に冗長になることが多いのです。

  • ハラスメントや虐待: 相手を侮辱したり対象化したりする発言など、受け手の心理的健康に影響を与えることを意図した発言。この種の言葉は、「ハラスメント」とも呼ばれます。

オーディオ標準出力

このセクションでは、オーディオファイルで API オペレーション InvokeDataAutomation を実行することで受け取るさまざまなレスポンスオブジェクトに焦点を当てます。以下に、レスポンスオブジェクトの各セクションを分類し、サンプルドキュメントの完全な入力済みレスポンスを示します。最初に受け取るセクションは metadata です。

"metadata": { "asset_id": "0", "semantic_modality": "AUDIO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav", "sample_rate": 8000, "bitrate": 256000, "number_of_channels": 2, "codec": "pcm_s16le", "duration_millis": 237560, "format": "wav", "dominant_asset_language": "EN", "generative_output_language": "DEFAULT/EN" }

このセクションでは、s3 の場所、ビットレート、オーディオチャネル、形式など、ファイルに関する情報が分類されます。次に、audio_items を見ていきます。

dominant_asset_language indicaties は、秒単位の長さに基づいて、音声の中で最も存在する言語を指定します。 は、レスポンス出力がどの言語になるかgenerative_output_languageを示します。「DEFAULT」に設定すると、主要言語が使用されます。

"audio_items": [ { "item_index": 0, "audio_segment_index": 0, "content": "Auto", "start_timestamp_millis": 9, "end_timestamp_millis": 119 }, ... ]

項目セクションには、オーディオファイルのサウンドごとの内訳が含まれています。各項目は通常、単語の長さに関するものです。item_index は audio_items インデックス内の項目の場所を示し、audio_segment_index は次に説明するセグメントインデックス内の項目の位置を示します。

"audio_segments": [ { "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "segment_index": 0, "type": "TRANSCRIPT", "text": "Auto sales, Cherry speaking. How can I help you?", "speaker": { "speaker_label": "spk_0" }, "channel": { "channel_label": "ch_0" }, "audio_item_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ], "language": "EN" }, ... ]

ここでは、長い期間に基づいてファイルの内訳を取得します。各セグメントは、ほぼ 1 文に相当します。セグメントに含まれるオーディオ項目とセグメント自体のテキストが示されています。次に、コンテンツモデレーションを見てみましょう。

話者とチャネルのラベル付けを有効にすると、このセグメントに存在する話者とチャネルを示す speaker_label セクションと channel_label セクションが表示されます。

"content_moderation": [ { "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0", "type": "AUDIO_MODERATION", "confidence": 0.0476, "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "moderation_categories": [ { "category": "profanity", "confidence": 0.1582 }, ... ] }, ... ]

コンテンツモデレーションセクションでは、個々のセグメントを調べて 7 つのモデレーションカタゴリのどれに該当するかを分析し、各セクションの信頼スコアを算出できます。次のセクションはトピックです。

"topics": [ { "topic_index": 0, "start_timestamp_millis": 0, "end_timestamp_millis": 36790, "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.", "transcript": { "representation": { "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens." } }, "audio_segment_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ] }, ... ]

トピックセクションは、セグメントの次のレベルの詳細度です。これらはセグメントのグループ化であり、概念によって大まかに分類されます。各トピックには、生成されたトピックの概要とトピックの正確なテストが含まれています。レスポンスの最後の部分は統計です。

"statistics": { "word_count": 749, "topic_count": 4 }

このセクションでは、オーディオファイルに関する情報が要約されます。これには、単語数トピックと合計トピックが含まれます。