本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
音訊
Amazon Bedrock Data Automation (BDA) 功能提供一組標準輸出,用於處理和產生音訊檔案的洞見。以下詳細說明每種操作類型:
完整音訊摘要
完整音訊摘要會產生整個音訊檔案的整體摘要。其中會將音訊中呈現的關鍵主題、事件和資訊歸納為簡潔摘要。
完整音訊轉錄
完整音訊轉錄功能可提供音訊中所有口語內容的完整文字表示。其使用進階語音辨識技術來準確轉錄對話、敘述和其他音訊元素。轉錄包含時間戳記,可讓您根據口語單字輕鬆導覽和搜尋音訊內容。
發言者和聲道標籤
您可以為產生的轉錄稿啟用聲道和/或發言者標籤功能。這樣一來,每個聲道或發言者都會被賦予編號,然後在轉錄稿中標明何時使用了某個聲道以及何時是哪個發言者在發言。此標籤會在回應中顯示為「spk_」,後面接著每個發言者的唯一號碼,最多 30 個發言者。第一個發言者為「spk_0」、「spk_1」等。音訊聲道的顯示方式類似,第一個聲道標記為「ch_0」,但只能標記兩個聲道。
主題摘要
音訊主題摘要會將音訊檔案分成名為主題的區段,並加以摘要以提供金鑰資訊。這些主題會獲得時間戳記,以協助將其整體放在音訊檔案中。此功能預設為不啟用。
內容審核
內容審核使用音訊和文字線索來識別和分類語音類有害內容,將其分為七種不同的類別:
-
褻瀆:包含不禮貌、粗俗或冒犯性的單字、片語或縮寫的語言。
-
仇恨言論:因身份 (例如種族、民族、性別、宗教、性取向、能力和國籍) 而批評、侮辱、譴責或做出非人性化的言論。
-
性暗示:使用直接或間接引用身體部位、身體特徵或性別,表現出性興趣、活動或激起性欲的語言。
-
侮辱:包括貶低、羞辱、嘲笑、侮辱或貶低的言語。這種類型的語言也被標記為霸凌。
-
暴力或威脅:包括試圖對個人或團體造成痛苦、傷害或敵意的威脅性言論。
-
圖形:使用視覺描述和令人不愉快的生動圖像式的語言。這種類型的語言通常故意拖長,以延長收件人的不適感。
-
騷擾或辱罵:目的式影響收件人心理健康的言論,包括貶低和客觀性的術語。這種語言也被標記為騷擾。
音訊標準輸出
本節著重於您在音訊檔案上執行 API 操作 InvokeDataAutomation 時收到的不同回應物件。以下我們將細分回應物件的每個區段,然後查看範例文件的完整填入回應。我們會收到的第一個區段是 metadata。
"metadata": { "asset_id": "0", "semantic_modality": "AUDIO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav", "sample_rate": 8000, "bitrate": 256000, "number_of_channels": 2, "codec": "pcm_s16le", "duration_millis": 237560, "format": "wav", "dominant_asset_language": "EN", "generative_output_language": "DEFAULT/EN" }
本節會細分檔案的相關資訊,例如其 s3 位置、位元速率、音訊聲道和格式。接下來,我們來看 audio_items。
dominant_asset_language 根據以秒為單位的長度,了解音訊中最有的語言。 generative_output_language 指出回應輸出將使用的語言。設為「DEFAULT」時,將使用主要語言。
"audio_items": [ { "item_index": 0, "audio_segment_index": 0, "content": "Auto", "start_timestamp_millis": 9, "end_timestamp_millis": 119 }, ... ]
項目區段包含以音效為基礎的音訊檔案明細。每個項目通常與單字長度有關。item_index 表示項目在 audio_items 索引中的位置,而 audio_segment_index 表示它在段落索引中的位置,下一節我們會討論這個主題。
"audio_segments": [ { "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "segment_index": 0, "type": "TRANSCRIPT", "text": "Auto sales, Cherry speaking. How can I help you?", "speaker": { "speaker_label": "spk_0" }, "channel": { "channel_label": "ch_0" }, "audio_item_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ], "language": "EN" }, ... ]
在這裡,我們會根據較長的時間跨度對檔案進行細分,每個段落大約等於一個句子。它告訴我們每個段落中包含哪些音訊項目,以及段落本身的文字。接下來,我們來看看內容審核。
啟用發言者和聲道標記後,您會看到 speaker_label 和 channel_label 區段,指出此段落中存在的發言者和聲道。
"content_moderation": [ { "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0", "type": "AUDIO_MODERATION", "confidence": 0.0476, "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "moderation_categories": [ { "category": "profanity", "confidence": 0.1582 }, ... ] }, ... ]
內容審核段落會逐一查看每個個別段落,並根據七個審核類別進行分析,為每個段落提供可信度分數。我們的下一節是主題。
"topics": [ { "topic_index": 0, "start_timestamp_millis": 0, "end_timestamp_millis": 36790, "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.", "transcript": { "representation": { "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens." } }, "audio_segment_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ] }, ... ]
主題區段是比段落更精細的層級。這些段落分組,大致上按概念劃分。每個主題都隨附主題的產生摘要,以及主題的確切測試。回應的最後一部分是統計資料。
"statistics": { "word_count": 749, "topic_count": 4 }
本區段摘要說明音訊檔案的相關資訊。這包括單字計數和總主題。