Architektur Description Capabilities Häufige Anwendungsfälle Implementierungsleitfaden Zusammenfassung

Sprach- und Sprachagenten

Sprach- und Sprachagenten interagieren mit Benutzern im Rahmen eines gesprochenen Dialogs. Diese Agenten integrieren Spracherkennung, natürliches Sprachverständnis und Sprachsynthese, um Konversations-KI auf Telefonie-, Mobil-, Web- und eingebetteten Plattformen zu ermöglichen.

Sprachagenten sind besonders effektiv in Umgebungen mit Freisprechfunktion, Echtzeit- oder Barrierefreiheit. Durch die Kombination von Streaming-Schnittstellen mit LLM-gestützter Argumentation ermöglichen sie umfangreiche, dynamische Interaktionen, die sich für Benutzer natürlich anfühlen.

Architektur

In der folgenden Abbildung ist ein Sprach- und Stimmagent dargestellt:

Description

Empfängt eine Sprachanfrage
- Der Benutzer stellt eine Anfrage an ein Telefon, ein Mikrofon oder ein eingebettetes System.
- Ein speech-to-text (STT-) Modul konvertiert das Audio in Text.
Integriert Streaming- und Telefoniekontext
- Der Agent verwendet eine Streaming-Schnittstelle, um Audio I/O in Echtzeit zu verwalten.
- Wenn sie in einem Contact Center oder im Telekommunikationskontext eingesetzt wird, übernimmt die Telefonieintegration das Sitzungsrouting, die zweifarbige Mehrfrequenzeingabe (DTMF) und den Medientransport.

Hinweis: DTMF bezieht sich auf die Töne, die erzeugt werden, wenn Sie Tasten auf einer Telefontastatur drücken. Im Zusammenhang mit der Integration von Streaming- und Telefoniekontexten innerhalb von Sprachagenten wird DTMF als Signaleingabemechanismus während eines Telefonanrufs verwendet, insbesondere in Interactive Voice Response (IVR) -Systemen. DTMF-Eingaben ermöglichen dem Agenten:

Erkennen Sie Menüauswahlen (z. B. „Drücken Sie 1 für die Abrechnung. Drücken Sie 2, um Unterstützung zu erhalten.“)
Sammeln Sie numerische Eingaben (z. B. Kontonummern und Bestätigungsnummern) PINs
Lösen Sie Workflows oder Zustandsübergänge in Anrufabläufen aus
Wechseln Sie bei Bedarf von der Sprach- zur Tonwiedergabe

Gründe dafür sind der LLM-Stream-Kontext
- Die Abfrage wird an den Agenten gesendet, der sie zusammen mit allen Sitzungsmetadaten (z. B. Anrufer-ID, vorheriger Kontext) an ein LLM weiterleitet.
- Das LLM generiert eine Antwort, möglicherweise mithilfe einer chain-of-thought Strategie oder eines Multiturn-Speichers, wenn die Interaktion andauert.
Gibt eine Sprachantwort zurück
- Der Agent wandelt seine Antwort mithilfe von text-to-speech (TTS) in Sprache um.
- Er gibt Audio über einen Sprachkanal an den Benutzer zurück.

Capabilities

Sprachverständnis und Sprachgenerierung in Echtzeit
Mehrsprachig I/O mit STT- und TTS-Unterstützung
Integration mit Telefonie oder Streaming APIs
Sitzungsbewusstsein und Gedächtnisübergabe zwischen den Runden

Häufige Anwendungsfälle

IVR-Systeme für Konversationen
Virtuelle Rezeptionisten und Terminplaner
Sprachgesteuerte Helpdesk-Agenten
Tragbare Sprachassistenten
Sprachschnittstellen für Smart Homes und Tools zur Barrierefreiheit

Implementierungsleitfaden

Sie können dieses Muster mit den folgenden Tools erstellen und AWS-Services:

Amazon Lex V2 oder Amazon Transcribe für STT
Amazon Polly für TTS
Amazon Chime SDK, Amazon Connect oder Amazon Interactive Video Service (Amazon IVS) für Streaming und Telefonie
Amazon Bedrock zum Argumentieren mit anthropischen oder anderen AI21 Stiftungsmodellen
AWS Lambda um STT, LLM, TTS und den Sitzungskontext zu verbinden

(Optional) Zusätzliche Verbesserungen können Folgendes umfassen:

Amazon Kendra oder OpenSearch für kontextsensitives RAG
Amazon DynamoDB für Sitzungsspeicher
Amazon CloudWatch Logs und AWS X-Ray zur Rückverfolgbarkeit

Zusammenfassung

Sprach- und Sprachagenten sind intelligente Systeme, die über natürliche Konversationen miteinander interagieren. Durch die Integration von Sprachschnittstellen mit LLM-Argumentation und Echtzeit-Streaming-Infrastruktur ermöglichen Sprachagenten nahtlose, zugängliche und skalierbare Interaktionen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Codierungsagenten

Agenten für die Workflow-Orchestrierung