Verwenden des Amazon Nova Speech-to-Speech Sonic-Modells - Amazon Nova

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden des Amazon Nova Speech-to-Speech Sonic-Modells

Das Amazon Nova Sonic-Modell bietet Konversationsinteraktionen in Echtzeit durch bidirektionales Audiostreaming. Amazon Nova Sonic verarbeitet Sprache in Echtzeit und reagiert darauf, sodass natürliche, menschenähnliche Konversationserlebnisse ermöglicht werden.

Amazon Nova Sonic bietet mit seiner einheitlichen Architektur für Sprachverständnis und Sprachgenerierung einen transformativen Ansatz für Konversations-KI. Dieses Basismodell state-of-the-art zeichnet sich durch ein branchenführendes Preis-Leistungs-Verhältnis aus und ermöglicht es Unternehmen, Spracherlebnisse zu schaffen, die natürlich und kontextsensitiv bleiben.

Die wichtigsten Funktionen und Funktionen

  • State-of-the-art Streaming-Sprachverständnis mit bidirektionalen Stream-API-Funktionen, die Multi-Turn-Konversationen in Echtzeit und mit geringer Latenz ermöglichen.

  • Natürliche, menschenähnliche KI-Konversationserlebnisse bieten in allen unterstützten Sprachen eine Fülle von Kontexten.

  • Adaptive Sprachantwort, die die Sprachausgabe dynamisch an die Prosodie der eingegebenen Sprache anpasst.

  • Reibungsloser Umgang mit Benutzerunterbrechungen, ohne den Konversationskontext zu verlieren.

  • Fundierung von Wissen mit Unternehmensdaten mithilfe von Retrieval Augmented Generation (RAG).

  • Funktionsaufruf und Unterstützung agentischer Workflows für die Erstellung komplexer KI-Anwendungen.

  • Robustheit gegenüber Hintergrundgeräuschen für reale Einsatzszenarien.

  • Erkennung unterschiedlicher Sprechstile in allen unterstützten Sprachen.

Amazon Nova Sonic-Architektur

Amazon Nova Sonic implementiert über die bidirektionale Stream-API eine ereignisgesteuerte Architektur, die Konversationserlebnisse in Echtzeit ermöglicht. Hier sind die wichtigsten Architekturkomponenten der API:

  1. Bidirektionales Event-Streaming: Amazon Nova Sonic verwendet eine persistente bidirektionale Verbindung, die gleichzeitiges Event-Streaming in beide Richtungen ermöglicht. Im Gegensatz zu herkömmlichen Anfrage-Antwort-Mustern ermöglicht dieser Ansatz Folgendes:

    • Kontinuierliches Audio-Streaming vom Benutzer zum Modell

    • Gleichzeitige Sprachverarbeitung und -generierung

    • Modellantworten in Echtzeit, ohne auf vollständige Äußerungen warten zu müssen

  2. Ereignisgesteuerter Kommunikationsfluss: Die gesamte Interaktion folgt einem ereignisbasierten Protokoll, bei dem

    • Der Client und das Modell tauschen strukturierte JSON-Ereignisse aus

    • Die Ereignisse steuern den Sitzungslebenszyklus, das Audiostreaming, die Textantworten und die Interaktionen mit den Tools

    • Jedes Ereignis hat bestimmte Rollen im Konversationsablauf

Die bidirektionale Stream-API besteht aus diesen drei Hauptkomponenten:

  1. Sitzungsinitialisierung: Der Client richtet einen bidirektionalen Stream ein und sendet die Konfigurationsereignisse.

  2. Audiostreaming: Benutzeraudio wird kontinuierlich erfasst, codiert und als Ereignisse an das Modell gestreamt, das die Sprache kontinuierlich verarbeitet.

  3. Antwort-Streaming: Sobald Audio eintrifft, sendet das Modell gleichzeitig Ereignisantworten:

    • Texttranskriptionen der Benutzersprache (ASR)

    • Das Tool verwendet Ereignisse für den Funktionsaufruf

    • Textantwort des Modells

    • Audioblöcke für die Sprachausgabe

Das folgende Diagramm bietet einen allgemeinen Überblick über die bidirektionale Stream-API.

Diagramm, das das bidirektionale Streaming-System Amazon Nova Sonic erklärt.