

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 資料策略
<a name="data-strategy"></a>


| **問題** | **回應範例** | 
| --- | --- | 
| 哪些特定資料類型對您的生成式 AI 工作負載至關重要，以及目前可存取這些類型的多少百分比？ | 客戶通話日誌和產品檢閱資料至關重要。目前，85% 的這些資料類型可供我們的生成式 AI 專案存取。 | 
| 如何確保和測量資料的品質？ | 我們已實作資料品質指標，包括完整性、準確性、一致性和及時性。我們使用自動化工具定期評估這些指標，並擁有專用的團隊來清理資料和擴充資料。 | 
| 有多少百分比的資料符合生成式 AI 使用的品質標準？ | 目前，78% 的資料符合我們的品質標準。透過改善資料清理程序，我們的目標是在未來 12 個月內達到 95%。 | 
| 您打算如何在利益相關者之間建立對生成式 AI 中資料用量的信任？ | 我們正在實作 AI 道德委員會、提供 AI 決策的明確說明，以及每季進行 AI 稽核，以確保透明度和公平性。 | 
| 資料來源和譜系的文件有多完整？ | 我們會維護詳細的資料目錄，其中包含所有資料來源的中繼資料，包括原始伺服器、更新頻率和用量。我們使用資料譜系工具來追蹤資料如何在系統中流動和轉換。 | 
| 如何確保資料集的多樣性，以防止 AI 模型中的偏差？ | 我們主動從各種人口統計資訊中取得資料，並定期稽核資料集是否有代表性偏差。我們也使用合成資料產生技術來平衡代表性不足的類別。 | 
| 關鍵生成式 AI 模型的資料重新整理率是多少，以及如何判斷此頻率？ | 每週重新整理關鍵模型。此頻率由 A/B 測試效能指標決定，我們的目標是在重新整理之間不會降解超過 2%。 | 
| 您維護多少個關鍵資料集版本以及保留多久？ | 我們維護每個關鍵資料集的最後五個版本，每個版本的保留期間為 18 個月。 | 
| 您的生成式 AI 計畫涉及多少個跨職能團隊，並且可以存取您的資料？ | 我們有三個跨職能團隊。每個團隊都包含資料科學家、網域專家、道德專家和商業分析師。 | 
| 您有哪些資料控管政策和實務？ | 我們有一個跨功能資料管理委員會，負責監督我們的資料政策。我們已實作以角色為基礎的存取控制、資料分類機制和定期稽核，以確保符合我們的控管架構。 | 
| 您採取哪些措施來確保資料隱私權、取得適當同意，以及維護機密性？ | 我們已實作符合 GDPR 和 CCPA 的完整資料隱私權架構。這包括取得資料用量的明確同意、實作資料匿名化技術，以及定期隱私權影響評估。 | 
| 上個季度稽核了多少百分比的 AI 訓練資料集是否有偏差？ | 上個季度稽核了 70% 的 AI 訓練資料集是否有偏差。我們正在實作自動化偏差偵測工具，以達到 100% 每季稽核。 | 
| 您目前的資料處理容量是多少，您預計未來生成式 AI 工作負載需要多少？ | 我們目前的容量為每天 10 TB。我們預計在一年內每天需要 30 TB，並且正在擴展我們的基礎設施以滿足此需求。 | 
| 在資料隱私權與生成式 AI 模型的資料需求之間取得平衡的策略是什麼？ | 我們正在實作進階匿名化技術和合成資料產生。我們的目標是將 AI 的可用資料增加 40%，同時將明年的隱私權風險降低 60%。 | 
| 準確標記機器學習 (ML) 資料集的百分比是多少？目標準確度是多少？ | 目前，85% 的 ML 資料集已正確標記。我們採用人工和自動化標記技術，以下一季 95% 的準確性率為目標。 | 