View a markdown version of this page

生成式 AI 與傳統 ML 之間的資料差異 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

生成式 AI 與傳統 ML 之間的資料差異

人工智慧的前景具有傳統機器學習方法和現代生成式 AI 系統之間的根本區別,特別是在它們處理和利用資料的方式中。此全方位分析探索此技術發展的三個關鍵層面:資料類型之間的結構差異、其處理需求,以及現代 AI 系統可以處理的各種資料模式。它還強調了生成式 AI 建立的合成資料如何成為訓練資料來源的新來源。合成資料可讓您實作先前受限於資料不足和資料隱私權限制的傳統 ML 使用案例。了解這些差異對組織至關重要,因為它可協助您導覽各種產業的資料管理、模型訓練和實用應用程式的複雜性。

結構化和非結構化資料

傳統 ML 模型和現代生成式 AI 系統在其資料需求及其處理資料的性質方面有很大的差異。

傳統 ML 使用以資料表或固定結構描述組織的資料,或具有註釋的精選影像和音訊資料集。範例包括分析表格式資料或傳統電腦視覺的預測模型。這些系統通常依賴結構化、標記的資料集。對於監督式學習,每個資料點通常都隨附明確的標籤或目標,例如標記的影像cat或具有目標值的銷售資料列。

相反地,生成式 AI 模型在非結構化 或半結構化 資料上茁壯成長。這包括大型語言模型 LLMs) 和生成視覺或音訊模型。他們不需要明確的訓練標籤,也就是從大量、多樣化的資料集學習一般語言理解。這種區別是關鍵 - 生成模型可以擷取大量文字或影像並從中學習,而無需手動標記。這是傳統、受監督的 ML 無法執行的動作。

若要在特定任務或網域中表現出色,這些預先訓練LLMs 需要任務特定的訓練,通常稱為微調。它涉及在較小的專用資料集上進一步訓練預先訓練的模型,其中包含說明或完成對。如此一來,微調生成式 AI 模型就像是傳統 ML 模型的監督式訓練程序。

多樣化的資料模態

現代生成式 AI 模型會處理和產生各種資料類型:文字、程式碼、影像、音訊、影片,甚至組合,稱為多模式資料。例如,Anthropic Claude 等基礎模型會根據文字資料 (網頁、書籍、文章) 甚至大型程式碼儲存庫進行訓練。生成視覺模型,例如 Amazon Nova Canvas 或穩定擴散,從通常與文字 (字幕或標籤) 配對的影像中學習。生成音訊模型可能會使用聲波資料或文字記錄來產生語音或音樂。

生成式 AI 系統越來越多模態。這些系統可以處理和產生文字、影像、音訊的組合,以及大規模處理非結構化文字和媒體的能力。他們可以了解傳統結構化資料 ML 無法做到的語言、願景和聲音的細微差別。這種靈活性與典型 ML 模型形成對比,通常一次專門處理一種資料類型。例如,影像分類器模型無法產生文字,或經過情緒分析訓練的自然語言處理 (NLP) 模型無法建立影像。

即使是 LLMs也有限制。在處理 CSV 檔案等表格式資料時,LLMs推論期間面臨重大挑戰。從資料表中尋找資訊中探索大型語言模型的限制研究強調 LLMs通常難以理解資料表結構並準確擷取資訊。研究發現,模型的效能範圍從稍微滿意到不足,顯示對資料表結構的掌握不佳。LLMs 的固有設計有助於這些限制。它們主要針對循序文字資料進行訓練,讓他們能夠預測和產生文字型內容。不過,此訓練不會無縫轉譯為解譯表格式資料,其中了解資料列與資料欄之間的關係至關重要。因此,LLMs可能會錯誤解譯資料表中數值資料的內容或重要性,導致分析不準確。

基本上,生成式 AI 的企業資料策略必須考慮比以前更多的非結構化內容。組織需要評估其文字內文 (文件、電子郵件、知識庫)、程式碼儲存庫、音訊和影片封存,以及其他非結構化資料來源,而不只是資料倉儲中整理整齊的資料表。

傳統 ML 的資料合成

生成式 AI 可以克服傳統機器學習面臨的一些長期障礙,特別是與資料不足和隱私權限制相關的障礙。透過使用基礎模型來產生合成資料,也就是緊密模擬真實世界分佈的人工資料集,組織現在可以解鎖先前因資料不足、隱私權考量以及與收集和標註大型資料集相關的高成本而無法處理的 ML 使用案例。

例如,在醫療保健中,合成醫療影像已用於擴增現有的資料集。這可以增強診斷模型,同時保護患者的機密性。在金融業,合成資料可協助您模擬市場案例,協助進行風險評估和演算法交易,而不會暴露敏感資訊。 模擬各種駕駛條件的合成資料有利於自駕車開發。在難以真實擷取的情況下,它有助於訓練電腦視覺系統。透過使用基礎模型產生合成資料,組織可以增強 ML 模型效能、遵守資料隱私權法規,以及解鎖各種產業的新使用案例。