Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Benutzerdefinierte Sprachmodelle
Benutzerdefinierte Sprachmodelle wurden entwickelt, um die Transkriptionsgenauigkeit für domainspezifische Sprache zu verbessern. Dazu gehören alle Inhalte, die über das hinausgehen, was man in normalen, alltäglichen Gesprächen hören würde. Wenn Sie z. B. den Bericht einer wissenschaftlichen Konferenz transkribieren, ist es unwahrscheinlich, dass eine Standardtranskription viele der von den Vortragenden verwendeten wissenschaftlichen Begriffe erkennt. In diesem Fall können Sie ein benutzerdefiniertes Sprachmodell trainieren, um die in Ihrem Fachgebiet verwendeten Fachbegriffe zu erkennen.
Im Gegensatz zu benutzerdefinierten Vokabularen, die die Erkennung eines Wortes durch Hinweise (wie z. B. die Aussprache) verbessern, lernen benutzerdefinierte Sprachmodelle den mit einem bestimmten Wort verbundenen Kontext. Dazu gehört, wie und wann ein Wort verwendet wird und in welcher Beziehung ein Wort zu anderen Wörtern steht. Wenn Sie Ihr Modell beispielsweise anhand von klimawissenschaftlichen Forschungsberichten trainieren, kann Ihr Modell lernen, dass "Eisscholle" ein wahrscheinlicheres Wortpaar ist als "Eisfluss".
Informationen zu den unterstützten Sprachen für benutzerdefinierte Sprachmodelle finden Sie unter Unterstützte Sprachen und sprachspezifische Funktionen. Beachten Sie, dass Sie die Sprachidentifizierung nicht aktivieren können, wenn Sie ein benutzerdefiniertes Sprachmodell in Ihre Anfrage aufnehmen (Sie müssen einen Sprachcode angeben).
API-Vorgänge speziell für benutzerdefinierte Sprachmodelle
Datenquellen
Sie können jede Art von Textdaten verwenden, die Sie für das Training Ihres Modells benötigen. Je näher Ihr Textinhalt jedoch an Ihrem Audioinhalt liegt, desto genauer ist Ihr Modell. Daher ist es wichtig, Textdaten zu wählen, die die gleichen Begriffe im gleichen Kontext wie Ihr Audio verwenden.
Die besten Daten für das Training eines Modells sind genaue Transkripte. Dies wird als domaininterne Daten betrachtet. In-Domain-Textdaten haben genau dieselben Begriffe, dieselbe Verwendung und denselben Kontext wie die Audiodaten, die Sie transkribieren möchten.
Wenn Sie keine genauen Transkripte haben, verwenden Sie Zeitschriftenartikel, technische Berichte, Whitepaper, Konferenzprotokolle, Bedienungsanleitungen, Nachrichtenartikel, Website-Inhalte und jeden anderen Text, der die gewünschten Begriffe enthält, die in einem ähnlichen Kontext wie Ihr Audio verwendet werden. Dies wird als bereichsbezogene Daten betrachtet.
Die Erstellung eines robusten benutzerdefinierten Sprachmodells kann eine beträchtliche Menge an Textdaten erfordern, die die in Ihrem Audio gesprochenen Begriffe enthalten müssen. Sie können bis Amazon Transcribe zu 2 GB an Textdaten zum Trainieren Ihres Modells bereitstellen — diese werden als Trainingsdaten bezeichnet. Wenn Sie über keine (oder nur wenige) In-Domain-Transkripte verfügen, können Sie optional bis zu 200 MB an Textdaten zur Optimierung Ihres Modells bereitstellen Amazon Transcribe — dies wird als Tuning-Daten bezeichnet.
Trainings- versus Tuningdaten
Der Zweck von Trainingsdaten besteht darin, zu vermitteln, neue Begriffe Amazon Transcribe zu erkennen und den Kontext zu verstehen, in dem diese Begriffe verwendet werden. Um ein robustes Modell zu erstellen, benötigt Amazon Transcribe unter Umständen eine große Menge an relevanten Textdaten. Es wird dringend empfohlen, so viele Trainingsdaten wie möglich zur Verfügung zu stellen, bis zu einer Grenze von 2 GB.
Der Zweck von Tuningdaten ist die Verfeinerung und Optimierung der kontextuellen Beziehungen, die Sie aus Ihren Trainingsdaten gelernt haben. Tuningdaten sind nicht erforderlich, um ein benutzerdefiniertes Sprachmodell zu erstellen.
Es liegt an Ihnen zu entscheiden, wie Sie die Trainings- und optional die Tuningdaten am besten auswählen. Jeder Fall ist einzigartig und hängt von der Art und Menge der Daten ab, die Sie haben. Tuningdaten werden empfohlen, wenn es an Trainingsdaten in einer Domain mangelt.
Wenn Sie sich dafür entscheiden, beide Datentypen einzubeziehen, dürfen sich Ihre Trainings- und Abstimmungsdaten nicht überschneiden; Trainings- und Tuningdaten sollten eindeutig sein. Sich überschneidende Daten können Ihr benutzerdefiniertes Sprachmodell verzerren und verzerren und so seine Genauigkeit beeinträchtigen.
Generell empfehlen wir, wann immer es möglich ist, akkurate Texte aus dem betreffenden Gebiet als Trainingsdaten zu verwenden. Hier sind einige allgemeine Szenarien, die in der Reihenfolge ihrer Präferenz aufgeführt sind:
-
Wenn Sie über mehr als 10.000 Wörter exakten, domaininternen Transkripttextes verfügen, verwenden Sie diese als Trainingsdaten. In diesem Fall ist es nicht erforderlich, Tuningdaten aufzunehmen. Dies ist das ideale Szenario für das Training eines benutzerdefinierten Sprachmodells.
-
Wenn Sie über exakten, domaininternen Transkripttext mit weniger als 10.000 Wörtern verfügen und nicht die gewünschten Ergebnisse erzielen, sollten Sie Ihre Trainingsdaten mit domainbezogenen schriftlichen Texten, z. B. technischen Berichten, ergänzen. Reservieren Sie in diesem Fall einen kleinen Teil (10-25 %) Ihrer bereichsinternen Transkriptdaten für die Verwendung als Tuningdaten.
-
Wenn Sie keinen domaininternen Transkripttext haben, laden Sie Ihren gesamten domainbezogenen Text als Trainingsdaten hoch. In diesem Fall ist Text im Transkriptstil dem geschriebenen Text vorzuziehen. Dies ist das am wenigsten effektive Szenario für das Training eines benutzerdefinierten Sprachmodells.
Wenn Sie bereit sind, Ihr Modell zu erstellen, siehe Erstellen eines benutzerdefinierten Sprachmodells.