Amazon Chime SDK ライブ文字起こしの使用 - Amazon Chime SDK

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Chime SDK ライブ文字起こしの使用

Amazon Chime SDK ライブ文字起こしを使用すると、ユーザー属性付きの会議の文字起こしがリアルタイムで生成されます。Amazon Chime SDK ライブ文字起こしは、Amazon Transcribe サービスおよび Amazon Transcribe Medical サービスと統合され、Amazon Chime SDK ミーティングの文字起こしを会議の進行中に生成します。

Amazon Chime SDK ライブ文字起こしは、各ユーザーの音声を個別に処理することで、マルチスピーカーシナリオでの精度を向上させます。Amazon Chime SDK は、アクティブトーカーアルゴリズムを使用して上位 2 人のアクティブトーカーを選択し、それらのユーザーの音声を個別のチャネルに分離したうえで 1 つのストリームとして Amazon Transcribe に送信します。会議の参加者は、Amazon Chime SDK データメッセージを介してユーザー属性付きの文字起こしを受け取ります。文字起こしは、字幕の表示、会議の文字起こしの作成、文字起こしを使用したコンテンツ分析など、さまざまな方法で使用できます。

ライブ文字起こしでは、会議の文字起こしを行っている間、Amazon Transcribe への 1 つのストリームを使用します。Amazon Transcribe および Amazon Transcribe Medical の標準コストが適用されます。詳細については、「Amazon Transcribe の料金」を参照してください。使用量または請求に関するご質問は、 AWS アカウントマネージャーにお問い合わせください。

重要

デフォルトでは、Amazon Transcribe は、サービス条件のセクション 50 で詳しく説明されているように、 AWS AI/ML サービスを開発および改善するために、サービスによって処理されたオーディオコンテンツを使用および保存することがあります。 AWSAmazon Transcribe の使用は、電子通信記録または傍受に関する連邦および州の法律または規制の対象となる場合があります。録音に関するすべての適用法を遵守することは、お客様とそのエンドユーザーの責任です。これには、録音セッションまたは通信のすべての参加者にセッションまたは通信が録音されていることを適切に通知し、必要なすべての同意を得ることを含みます。 AWS Organizations を使用して AWS AI サービスのオプトアウトポリシーを設定することで、オーディオコンテンツ AWS を使用して AI/ML サービスを開発および改善することをオプトアウトできます。

システムアーキテクチャ

Amazon Chime SDK は、Amazon Transcribe アカウントまたは Amazon Transcribe Medical アカウントとのサービス側の統合により、音声を AWS ネットワーク外に出すことなく、会議の文字起こしをリアルタイムで作成します。精度を向上させるため、ユーザーの音声は個別に処理されてから、会議の音声に融合されます。Amazon Chime SDK は、アクティブトーカーアルゴリズムを使用して上位 2 人のアクティブトーカーを選択し、それらのユーザーの音声を個別のチャネルに分離したうえで 1 つのストリームとして Amazon Transcribe または Amazon Transcribe Medical に送信します。レイテンシーを低減するため、ユーザー属性付きの文字起こしは、データメッセージを介してすべての会議参加者に直接送信されます。メディアパイプラインを使用して会議の音声をキャプチャする場合、会議の文字起こし情報もキャプチャされます。

会議の文字起こしのデータフローを示す図。

請求と使用状況

ライブ文字起こしでは、会議の文字起こしを行っている間、Amazon Transcribe または Amazon Transcribe Medical への 1 つのストリームを使用します。Amazon Transcribe および Amazon Transcribe Medical の標準コストが適用されます。詳細については、「Amazon Transcribe の料金」を参照してください。使用量または請求に関するご質問は、 AWS アカウントマネージャーにお問い合わせください。

Amazon Chime SDK ライブ文字起こしパラメータ

Amazon Transcribe および Amazon Transcribe Medical の API には、ストリーミング文字起こしを開始する際に、StartStreamTranscriptionStartMedicalStreamTranscription などのさまざまなパラメータが用意されています。Amazon Chime SDK でパラメータの値が事前に決定されていない限り、これらのパラメータを StartMeetingTranscription API で使用できます。例えば、MediaEncoding パラメータと MediaSampleRateHertz パラメータは、Amazon Chime SDK によって自動的に設定されるため使用できません。

Amazon Transcribe と Amazon Transcribe Medical はパラメータを検証します。これにより、新しいパラメータ値が利用可能になりしだい、すぐにそれらを使用できるようになります。例えば、Amazon Transcribe Medical が新しい言語のサポートを開始した場合、必要なのは、LanguageCode パラメータに新しい言語値を指定することだけです。