本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
自訂語言模型
自訂語言模型旨在提高領域特定語音的轉錄準確性。這包括您在日常對話中聽到的內容以外的任何內容。例如,如果您正在轉錄科學會議的論文集,則標準轉錄不太可能識別主持人使用的許多科學術語。在這種情況下,您可以訓練自訂語言模型,以辨識您學科使用的專業術語。
與自訂字彙不同,它會透過提供提示 (例如發音) 以提高單字的辨識度,自訂語言模型會學習與特定單字相關的內容。這包括單字的使用方式和時間,以及單字與其他詞語的關係。例如,如果您使用氣候科學研究論文訓練模型,您的模型可能會了解「浮冰」是比「冰流」更頻繁出現的單字對。
若要檢視自訂語言模型支援的語言,請參閱 支援的語言和特定語言功能。請注意,如果您在請求中包含自訂語言模型,就無法啟用語言識別 (您必須指定語言代碼)。
自訂語言模型特定的 API 操作
資料來源
您可以使用任何類型的文字資料以訓練模型。但是,您的文字內容越接近音訊內容,您的模型就越準確。因此,選擇與音訊相同環境中使用相同術語的文字資料非常重要。
訓練模型的最佳資料是準確的文字記錄。被認為是領域內資料。領域內文字資料與您要轉錄的音訊有完全相同的術語、用法和上下文。
如果您沒有準確的文字記錄,請使用期刊文章、技術報告、白皮書、會議論文集、說明手冊、新聞文章、網站內容,以及任何其他文字,這些文字包含與您音訊相似的內容中使用的所需術語。這被視為與領域相關的資料。
建立健全的自訂語言模型可能需要大量的文字資料,其中必須包含音訊說出的術語。您最多可以提供 Amazon Transcribe 2 GB 的文字資料來訓練模型,這稱為訓練資料。或者,當您沒有 (或很少) 網域內文字記錄時,您可以提供 Amazon Transcribe 最多 200 MB 的文字資料來調整模型,這稱為調校資料。
訓練與調整資料
訓練資料的目的是教導 Amazon Transcribe 辨識新詞彙,並了解使用這些詞彙的內容。為了建立強大的模型, Amazon Transcribe 可能需要大量的相關文字資料。強烈建議提供盡可能最多的訓練資料,上限是 2 GB 的資料。
調整資料的目的在於協助精簡和最佳化從訓練資料中學習的情境關係。建立自訂語言模型不需要調整資料。
您可以決定如何最適當選擇訓練,以及選擇性調整資料的方式。每種情況都是獨一無二,且須視您擁有的資料類型和數量。如果缺少領域內訓練資料,建議您調整資料。
如果您選擇同時包含這兩種資料類型,請勿重疊訓練和調整資料;訓練和調整資料應該是獨一無二的資料。重疊的資料可能會導致您的自訂語言模型偏差和偏離,進而影響其準確性。
一般指導原則是,我們建議盡可能使用準確的領域內文字作為訓練資料。以下是一些一般案例,依偏好設定順序列出:
-
如果您有超過 10,000 個單字的準確領域內文字記錄,請將作為訓練資料使用。在這種情況下,不需要包括調整資料。這是訓練自訂語言模型的理想案例。
-
如果您的領域內部文字記錄不到 10,000 個單字,但未達到理想的結果,請考慮使用與領域相關的書面文字 (例如技術報告) 以增強您的訓練資料。在這種情況下,請保留一小部分 (10-25%) 的領域內文字記錄資料作為調整資料使用。
-
如果您沒有領域內的文字記錄,請將所有與領域相關的文字上傳為訓練資料。在這種情況下,轉錄文字樣式的文字比書面文字更適當。這是訓練自訂語言模型最不具效率的案例。
您準備好建立模型時,請參閱 建立自訂語言模型。