リアルタイムストリ―ムでスピーカーパーティショニングを有効にする - Amazon Transcribe

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

リアルタイムストリ―ムでスピーカーパーティショニングを有効にする

リアルタイムストリームでスピーカーをパーティション分割して音声にラベルを付けるには、 AWS Management Console または ストリーミングリクエストを使用します。スピーカーパーティショニングは、ストリーミング内のスピーカーが 2~5 人の場合に最も効果的です。 Amazon Transcribe Medical は 1 つのストリームに 5 人以上のスピーカーをパーティション分割できますが、その数を超えるとパーティションの精度が低下します。

HTTP/2 リクエストを開始する場合、StartMedicalStreamTranscription API を使用します。WebSocket リクエストを開始する場合、署名付き URL を使用します。URL には、アプリケーションと Amazon Transcribe Medical 間の双方向通信を設定するために必要な情報が含まれています。

を使用して AWS Management Console 、臨床医と患者の会話のリアルタイムストリーム、またはマイクにリアルタイムで話されるディクテーションを開始できます。

  1. AWS Management Consoleにサインインします。

  2. ナビゲーションペインで、 Amazon Transcribe Medical でリアルタイム文字起こしを選択します。

  3. 音声入力タイプの場合、文字起こしする医療音声の種類を選択します。

  4. [追加設定] では、[スピーカーパーティショニング] を選択します。

  5. [ストリーミングを開始] を選択して、リアルタイム音声の文字起こしを開始します。

  6. マイクに向かって話してください。

医療に関する関係の会話の HTTP/2 ストリーム内のスピーカーパーティショニングを有効にする場合、StartMedicalStreamTranscription API を選択し、以下を指定します。

  • LanguageCode の場合、ストリーム内の言語に対応する言語コードを指定します。有効値は en-US です。

  • MediaSampleHertz の場合、音声のサンプルレートを指定します。

  • Specialty の場合、提供者の専門分野を指定します。

  • ShowSpeakerLabeltrue

医療に関する会話を文字起こしするための HTTP/2 ストリームの設定の詳細については、「HTTP/2 ストリームの設定」を参照してください。

API によって WebSocket ストリーミング内のスピーカーをパーティション化する場合、次の形式を使用して WebSocket リクエストをスタートするための署名付き URL を作成し、show-speaker-labeltrue と特定します。

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=languageCode &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=Signature Version 4 signature &X-Amz-SignedHeaders=host &media-encoding=flac &sample-rate=16000 &session-id=sessionId &specialty=medicalSpecialty &type=CONVERSATION &vocabulary-name=vocabularyName &show-speaker-label=boolean

次のコードは、ストリーミングリクエストの切り捨てられたレスポンス例を示しています。

{ "Transcript": { "Results": [ { "Alternatives": [ { "Items": [ { "Confidence": 0.97, "Content": "From", "EndTime": 18.98, "Speaker": "0", "StartTime": 18.74, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "the", "EndTime": 19.31, "Speaker": "0", "StartTime": 19, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "last", "EndTime": 19.86, "Speaker": "0", "StartTime": 19.32, "Type": "pronunciation", "VocabularyFilterMatch": false }, ... { "Confidence": 1, "Content": "chronic", "EndTime": 22.55, "Speaker": "0", "StartTime": 21.97, "Type": "pronunciation", "VocabularyFilterMatch": false }, ... "Confidence": 1, "Content": "fatigue", "EndTime": 24.42, "Speaker": "0", "StartTime": 23.95, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "EndTime": 25.22, "StartTime": 25.22, "Type": "speaker-change", "VocabularyFilterMatch": false }, { "Confidence": 0.99, "Content": "True", "EndTime": 25.63, "Speaker": "1", "StartTime": 25.22, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": ".", "EndTime": 25.63, "StartTime": 25.63, "Type": "punctuation", "VocabularyFilterMatch": false } ], "Transcript": "From the last note she still has mild sleep deprivation and chronic fatigue True." } ], "EndTime": 25.63, "IsPartial": false, "ResultId": "XXXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXX", "StartTime": 18.74 } ] } }

Amazon Transcribe Medical は、スピーカーの変更や音声の一時停止など、自然な音声セグメントに基づいて着信音声ストリームを切断します。セグメント全体の文字起こしが行われるまで、各レスポンスにさらに多くの文字起こしスピーチが含まれるように、文字起こしは徐々にアプリケーションに返されます。前のコードは、完全に書き起こされたスピーチセグメントの切り捨てられた例です。スピーカーのラベル付けは、完全に書き起こされたセグメントに対してのみ表示されます。

次のリストは、ストリーミング文字起こし出力におけるオブジェクトとパラメータの組織を示しています。

Transcript

各音声セグメントには、それぞれ独自の Transcript オブジェクトがあります。

Results

Transcript オブジェクトには独自の Results オブジェクトがあります。このオブジェクトには isPartial フィールドが含まれます。その値が false の場合、でてくる結果はスピーチセグメント全体に対するものです。

Alternatives

Results オブジェクトには Alternatives オブジェクトがあります。

Items

Alternatives オブジェクトには独自の Items オブジェクトがあり、それには文字起こし出力の各単語および句読点に関する情報が含まれます。スピーカーパーティショニングを有効にすると、各単語には完全に文字起こしされた音声セグメントのSpeakerラベルが付けられます。 Amazon Transcribe Medical はこのラベルを使用して、ストリーム内の各スピーカーに一意の整数を割り当てます。speaker-change の値を持つ Type パラメータは、ある人が話すのを停止し、別の人が始めようとしていることを示します。

Transcript

各項目の オブジェクトには、文字起こしされた音声セグメントが Transcript フィールドの値として含まれます。

WebSocket リクエストの詳細については、WebSocket ストリームの設定 を参照してください。