Verwenden des Sprache–zu-Sprache-Modells von Amazon Nova Sonic - Amazon Nova

Verwenden des Sprache–zu-Sprache-Modells von Amazon Nova Sonic

Das Amazon-Nova-Sonic-Modell ermöglicht Echtzeit-Konversationen durch bidirektionales Audio-Streaming. Amazon Nova Sonic verarbeitet Sprache in Echtzeit und reagiert darauf, sodass natürliche, menschenähnliche Konversationserlebnisse ermöglicht werden.

Amazon Nova Sonic bietet mit seiner einheitlichen Architektur für Sprachverständnis und Sprachgenerierung einen transformativen Ansatz für Konversations-KI. Dieses hochmoderne Grundlagenmodell zeichnet sich durch ein branchenführendes Preis-Leistungs-Verhältnis aus und ermöglicht es Unternehmen, Spracherlebnisse zu schaffen, die natürlich und kontextsensitiv bleiben.

Wichtige Funktionen und Features

  • Modernstes Streaming-Sprachverständnis mit bidirektionalen Stream-API-Funktionen, die Multi-Turn-Konversationen in Echtzeit und mit geringer Latenz ermöglichen.

  • Natürliche, menschenähnliche KI-Konversationserlebnisse bieten in allen unterstützten Sprachen eine Fülle von Kontexten.

  • Adaptive Sprachantwort, welche die Wiedergabe dynamisch an den Sprachstil der Eingabesprache anpasst.

  • Reibungsloser Umgang mit Benutzerunterbrechungen, ohne den Konversationskontext zu verlieren.

  • Wissensgenerierung mit Unternehmensdaten mit Retrieval Augmented Generation (RAG).

  • Funktionsaufruf und Unterstützung agentenbasierter Workflows für die Erstellung komplexer KI-Anwendungen.

  • Robustheit gegenüber Hintergrundgeräuschen für reale Einsatzszenarien.

  • Mehrsprachige Unterstützung mit ausdrucksstarken Stimmen und Sprechstilen. Ausdrucksstarke Stimmen, sowohl männlich als auch weiblich klingend, werden in fünf Sprachen angeboten: Englisch (USA, Großbritannien), Französisch, Italienisch, Deutsch und Spanisch.

  • Erkennung unterschiedlicher Sprechstile in allen unterstützten Sprachen.

Amazon-Nova-Sonic-Architektur

Amazon Nova Sonic implementiert über die bidirektionale Stream-API eine ereignisgesteuerte Architektur, die Konversationserlebnisse in Echtzeit ermöglicht. Hier sind die wichtigsten Architekturkomponenten der API:

  1. Bidirektionales Event-Streaming: Amazon Nova Sonic verwendet eine persistente bidirektionale Verbindung, die gleichzeitiges Event-Streaming in beide Richtungen ermöglicht. Im Gegensatz zu herkömmlichen Anfrage-Antwort-Mustern ermöglicht dieser Ansatz Folgendes:

    • Kontinuierliches Audio-Streaming vom Benutzer zum Modell

    • Gleichzeitige Sprachverarbeitung und -generierung

    • Modellantworten in Echtzeit, ohne auf vollständige Äußerungen warten zu müssen

  2. Ereignisgesteuerter Kommunikationsfluss: Die gesamte Interaktion folgt einem ereignisbasierten Protokoll, bei dem

    • Der Client und das Modell strukturierte JSON-Ereignisse austauschen

    • Die Ereignisse den Sitzungslebenszyklus, das Audio-Streaming, die Textantworten und die Interaktionen mit Tools steuern

    • Jedes Ereignis hat bestimmte Rollen im Konversationsablauf

Die bidirektionale Stream-API besteht aus diesen drei Hauptkomponenten:

  1. Sitzungsinitialisierung: Der Client richtet einen bidirektionalen Stream ein und sendet die Konfigurationsereignisse.

  2. Audio-Streaming: Benutzeraudio wird kontinuierlich erfasst, codiert und als Ereignisse an das Modell gestreamt, welches die Sprache kontinuierlich verarbeitet.

  3. Antwort-Streaming: Sobald Audio eintrifft, sendet das Modell gleichzeitig Ereignisantworten:

    • Texttranskriptionen der Benutzersprache (ASR)

    • Das Tool verwendet Ereignisse für den Funktionsaufruf

    • Textantwort des Modells

    • Audioblöcke für die Sprachausgabe

Das folgende Diagramm bietet einen allgemeinen Überblick über die bidirektionale Stream-API.

Diagramm, welches das bidirektionale Streaming-System von Amazon Nova Sonic erklärt.