View a markdown version of this page

音声変換 (Amazon Nova 2 Sonic) - Amazon Nova

音声変換 (Amazon Nova 2 Sonic)

Amazon Nova 2 Sonic は、音声の入出力でリアルタイムの会話型 AI を使えるようにします。次のセクションでは、インタラクティブな音声アシスタント、カスタマーサービスのオートメーション、会話型アプリケーションを構築するための高度な機能について説明します。

主な特徴

Amazon Nova 2 Sonic には次の機能があります。

  • リアルタイムかつ低レイテンシーの複数ターン会話を可能にする双方向ストリーミング API による最先端のストリーミング音声理解。

  • 言語の自動検出と切り替えによる多言語サポート。男性音声と女性音声の両方を含む表現音声は、次の言語で提供されます。

    • 英語 (米国、英国、インド、オーストラリア)

    • フランス語

    • イタリア語

    • ドイツ語

    • スペイン語

    • ポルトガル語

    • ヒンディー語

  • サポートされている任意の言語を話すことができる多言語音声。ユーザーが同じセッション内で言語を切り替えても、一貫したユーザーエクスペリエンスが得られます。

  • 実際のデプロイシナリオにおけるバックグラウンドノイズに対する堅牢性。

  • サポートされている言語のさまざまなアクセントに対する堅牢性。

  • サポートされているすべての言語で、コンテキストに応じた豊かさを備えた人間のような自然な会話 AI エクスペリエンス。

  • 入力音声のプロソディに基づいて配信を動的に調整するアダプティブ音声レスポンス。

  • ユーザーがいつ話し終わったか、アシスタントがいつ応答すべきかを検出するインテリジェントなターンテイキングにより、自然な対話のリズムが生まれます。

  • 会話のコンテキストを失うことなく、ユーザーの割り込みにスムーズに対応。

  • 検索拡張生成 (RAG) を使用した企業データのナレッジグラウンディング。

  • 複雑な AI アプリケーションを構築するための関数呼び出しとエージェントワークフローのサポート。

  • 会話フローを維持しながらツール呼び出しを実行する非同期ツール処理。これにより、アシスタントはツールがバックグラウンドで処理している間も話し続けることができます。

  • クロスモーダル入力は、同じ会話内のオーディオ入力とテキスト入力の両方をサポートし、インタラクションのパターンが柔軟になります。

  • 接続制限は 8 分で、接続の更新とセッション継続パターンはコードサンプルで利用できます。