Sprach- und Sprachagenten - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Sprach- und Sprachagenten

Sprach- und Sprachagenten interagieren mit Benutzern im Rahmen eines gesprochenen Dialogs. Diese Agenten integrieren Spracherkennung, natürliches Sprachverständnis und Sprachsynthese, um Konversations-KI auf Telefonie-, Mobil-, Web- und eingebetteten Plattformen zu ermöglichen.

Sprachagenten sind besonders effektiv in Umgebungen mit Freisprechfunktion, Echtzeit- oder Barrierefreiheit. Durch die Kombination von Streaming-Schnittstellen mit LLM-gestützter Argumentation ermöglichen sie umfangreiche, dynamische Interaktionen, die sich für Benutzer natürlich anfühlen.

Architektur

In der folgenden Abbildung ist ein Sprach- und Stimmagent dargestellt:

Sprach- und Stimmagenten.

Description

  1. Empfängt eine Sprachanfrage

    • Der Benutzer stellt eine Anfrage an ein Telefon, ein Mikrofon oder ein eingebettetes System.

    • Ein speech-to-text (STT-) Modul konvertiert das Audio in Text.

  2. Integriert Streaming- und Telefoniekontext

    • Der Agent verwendet eine Streaming-Schnittstelle, um Audio I/O in Echtzeit zu verwalten.

    • Wenn sie in einem Contact Center oder im Telekommunikationskontext eingesetzt wird, übernimmt die Telefonieintegration das Sitzungsrouting, die zweifarbige Mehrfrequenzeingabe (DTMF) und den Medientransport.

Hinweis: DTMF bezieht sich auf die Töne, die erzeugt werden, wenn Sie Tasten auf einer Telefontastatur drücken. Im Zusammenhang mit der Integration von Streaming- und Telefoniekontexten innerhalb von Sprachagenten wird DTMF als Signaleingabemechanismus während eines Telefonanrufs verwendet, insbesondere in Interactive Voice Response (IVR) -Systemen. DTMF-Eingaben ermöglichen dem Agenten:

  • Erkennen Sie Menüauswahlen (z. B. „Drücken Sie 1 für die Abrechnung. Drücken Sie 2, um Unterstützung zu erhalten.“)

  • Sammeln Sie numerische Eingaben (z. B. Kontonummern und Bestätigungsnummern) PINs

  • Lösen Sie Workflows oder Zustandsübergänge in Anrufabläufen aus

  • Wechseln Sie bei Bedarf von der Sprach- zur Tonwiedergabe

  1. Gründe dafür sind der LLM-Stream-Kontext

    • Die Abfrage wird an den Agenten gesendet, der sie zusammen mit allen Sitzungsmetadaten (z. B. Anrufer-ID, vorheriger Kontext) an ein LLM weiterleitet.

    • Das LLM generiert eine Antwort, möglicherweise mithilfe einer chain-of-thought Strategie oder eines Multiturn-Speichers, wenn die Interaktion andauert.

  2. Gibt eine Sprachantwort zurück

    • Der Agent wandelt seine Antwort mithilfe von text-to-speech (TTS) in Sprache um.

    • Er gibt Audio über einen Sprachkanal an den Benutzer zurück.

Capabilities

  • Sprachverständnis und Sprachgenerierung in Echtzeit

  • Mehrsprachig I/O mit STT- und TTS-Unterstützung

  • Integration mit Telefonie oder Streaming APIs

  • Sitzungsbewusstsein und Gedächtnisübergabe zwischen den Runden

Häufige Anwendungsfälle

  • IVR-Systeme für Konversationen

  • Virtuelle Rezeptionisten und Terminplaner

  • Sprachgesteuerte Helpdesk-Agenten

  • Tragbare Sprachassistenten

  • Sprachschnittstellen für Smart Homes und Tools zur Barrierefreiheit

Implementierungsleitfaden

Sie können dieses Muster mit den folgenden Tools erstellen und AWS-Services:

  • Amazon Lex V2 oder Amazon Transcribe für STT

  • Amazon Polly für TTS

  • Amazon Chime SDK, Amazon Connect oder Amazon Interactive Video Service (Amazon IVS) für Streaming und Telefonie

  • Amazon Bedrock zum Argumentieren mit anthropischen oder anderen AI21 Stiftungsmodellen

  • AWS Lambda um STT, LLM, TTS und den Sitzungskontext zu verbinden

(Optional) Zusätzliche Verbesserungen können Folgendes umfassen:

  • Amazon Kendra oder OpenSearch für kontextsensitives RAG

  • Amazon DynamoDB für Sitzungsspeicher

  • Amazon CloudWatch Logs und AWS X-Ray zur Rückverfolgbarkeit

Zusammenfassung

Sprach- und Sprachagenten sind intelligente Systeme, die über natürliche Konversationen miteinander interagieren. Durch die Integration von Sprachschnittstellen mit LLM-Argumentation und Echtzeit-Streaming-Infrastruktur ermöglichen Sprachagenten nahtlose, zugängliche und skalierbare Interaktionen.