本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 測試
<a name="testing"></a>


| **問題** | **回應範例** | 
| --- | --- | 
| 測試要求是什麼 （例如，單元測試、整合測試、end-to-end測試）？ | 個別元件的單元測試、與外部系統的整合測試、關鍵案例的end-to-end測試等。 | 
| 如何確保生成式 AI 訓練在不同來源之間的資料品質和一致性？ | 我們透過自動化資料分析工具、定期資料稽核和集中式資料目錄來維護資料品質。我們已實作資料控管政策，以確保來源之間的一致性，並維護資料歷程。 | 
| 如何評估和驗證生成式 AI 模型？ | 透過使用保留資料集、人工評估、A/B 測試等。 | 
| 評估生成式 AI 模型的效能和準確性的條件是什麼？ | 精確度、召回、F1 分數、複雜度、人工評估等。 | 
| 如何識別和處理邊緣案例和角落案例？ | 透過使用全方位的測試套件、人工評估、對手測試等。 | 
| 如何測試生成式 AI 模型中的潛在偏差？ | 透過使用人口統計平等分析、平等機會測試、對手脫偏差技術、反事實測試等。 | 
| 哪些指標將用於衡量模型輸出的公平性？ | 不同的影響比例、相等的奇數、人口統計平等、個別公平性指標等。 | 
| 如何確保測試資料集中的多樣化表示以進行偏差偵測？ | 透過跨人口統計群組使用分層抽樣、與多樣性專家合作、使用合成資料填補差距等。 | 
| 部署後將實作哪個程序來持續監控模型公平性？ | 定期公平性稽核、自動化偏差偵測系統、使用者意見回饋分析、定期重新訓練更新後的資料集等。 | 
| 您要如何處理生成式 AI 模型中的交集偏差？ | 透過使用交集公平性分析、子組測試、與網域專家在交集方面的協作等。 | 
| 如何測試模型在不同語言和文化環境中的效能？ | 透過使用多語言測試集、與文化專家的協作、當地公平性指標、跨文化比較研究等。 |