Verwenden des Amazon Nova Speech-to-Speech Sonic-Modells

Anmerkung

Diese Dokumentation bezieht sich auf Amazon Nova Version 1. Den Amazon Nova 2 Sonic-Leitfaden finden Sie unter Speech-to-Speech.

Das Amazon-Nova-Sonic-Modell ermöglicht Echtzeit-Konversationen durch bidirektionales Audio-Streaming. Amazon Nova Sonic verarbeitet Sprache in Echtzeit und reagiert darauf, sodass natürliche, menschenähnliche Konversationserlebnisse ermöglicht werden.

Amazon Nova Sonic bietet mit seiner einheitlichen Architektur für Sprachverständnis und Sprachgenerierung einen transformativen Ansatz für Konversations-KI. Dieses Basismodell state-of-the-art zeichnet sich durch ein branchenführendes Preis-Leistungs-Verhältnis aus und ermöglicht es Unternehmen, Spracherlebnisse zu schaffen, die natürlich und kontextsensitiv bleiben.

Wichtige Funktionen und Features

State-of-the-art Streaming-Sprachverständnis mit bidirektionalen Stream-API-Funktionen, die Multi-Turn-Konversationen in Echtzeit und mit geringer Latenz ermöglichen.
Natürliche, menschenähnliche KI-Konversationserlebnisse bieten in allen unterstützten Sprachen eine Fülle von Kontexten.
Adaptive Sprachantwort, welche die Wiedergabe dynamisch an den Sprachstil der Eingabesprache anpasst.
Reibungsloser Umgang mit Benutzerunterbrechungen, ohne den Konversationskontext zu verlieren.
Wissensgenerierung mit Unternehmensdaten mit Retrieval Augmented Generation (RAG).
Funktionsaufruf und Unterstützung agentenbasierter Workflows für die Erstellung komplexer KI-Anwendungen.
Robustheit gegenüber Hintergrundgeräuschen für reale Einsatzszenarien.
Mehrsprachige Unterstützung mit ausdrucksstarken Stimmen und Sprechstilen. Ausdrucksstarke Stimmen, sowohl männlich als auch weiblich klingend, werden in fünf Sprachen angeboten: Englisch (USA, Großbritannien), Französisch, Italienisch, Deutsch und Spanisch.
Erkennung unterschiedlicher Sprechstile in allen unterstützten Sprachen.

Themen

Amazon-Nova-Sonic-Architektur

Amazon Nova Sonic implementiert über die bidirektionale Stream-API eine ereignisgesteuerte Architektur, die Konversationserlebnisse in Echtzeit ermöglicht. Hier sind die wichtigsten Architekturkomponenten der API:

Bidirektionales Event-Streaming: Amazon Nova Sonic verwendet eine persistente bidirektionale Verbindung, die gleichzeitiges Event-Streaming in beide Richtungen ermöglicht. Im Gegensatz zu herkömmlichen Anfrage-Antwort-Mustern ermöglicht dieser Ansatz Folgendes:
- Kontinuierliches Audio-Streaming vom Benutzer zum Modell
- Gleichzeitige Sprachverarbeitung und -generierung
- Modellantworten in Echtzeit, ohne auf vollständige Äußerungen warten zu müssen
Ereignisgesteuerter Kommunikationsfluss: Die gesamte Interaktion folgt einem ereignisbasierten Protokoll, bei dem
- Der Client und das Modell strukturierte JSON-Ereignisse austauschen
- Die Ereignisse den Sitzungslebenszyklus, das Audio-Streaming, die Textantworten und die Interaktionen mit Tools steuern
- Jedes Ereignis hat bestimmte Rollen im Konversationsablauf

Die bidirektionale Stream-API besteht aus diesen drei Hauptkomponenten:

Sitzungsinitialisierung: Der Client richtet einen bidirektionalen Stream ein und sendet die Konfigurationsereignisse.
Audio-Streaming: Benutzeraudio wird kontinuierlich erfasst, codiert und als Ereignisse an das Modell gestreamt, welches die Sprache kontinuierlich verarbeitet.
Antwort-Streaming: Sobald Audio eintrifft, sendet das Modell gleichzeitig Ereignisantworten:
- Texttranskriptionen der Benutzersprache (ASR)
- Das Tool verwendet Ereignisse für den Funktionsaufruf
- Textantwort des Modells
- Audioblöcke für die Sprachausgabe

Das folgende Diagramm bietet einen allgemeinen Überblick über die bidirektionale Stream-API.

Diagramm, welches das bidirektionale Streaming-System von Amazon Nova Sonic erklärt.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Storyboarding-Videos

Verwenden der Bidirektionalen Streaming-API