

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 3. 可觀測性和模型管理
<a name="observability-model-management"></a>

檢查清單的可觀測性和模型管理區段包含整個 ML 系統的模型版本控制和拼貼追蹤。模型版本控制有助於追蹤和控制套用至模型的所有變更，以便您可以在需要時復原先前的版本。歷程追蹤提供模型流入和流出的檢視。歷程追蹤的另一個主要優點是point-in-time復原 (PITR)，可自動化部署和系統復原。


|  |  | 
| --- |--- |
| **3.1 版本控制的模型登錄檔** | 一般而言，模型登錄檔支援模型元件的版本控制和歷程追蹤。良好的登錄檔可以將中繼資料與版本控制的模型建立關聯，包括下列項目：  使用的資料   模型的相關資訊   評估指標結果   關聯的模型程式碼   | 
| **3.2 偏差、公平性和可解釋性** | ML 系統至少應該有一個程序，其中模型的預測可以向其他方解釋。使用者應該能夠檢查每個功能的結果是否有偏差。理想情況下，在將資料輸入 ML 模型之前測量資料偏差，並記錄模型卡和稽核的這些指標。 | 
| **3.3 系列追蹤：資料輸入和輸出** | 有適當的追蹤，以遵循傳入和傳出系統的資料流程 （例如，從資料湖執行到訓練管道）。此追蹤會做為記錄，可從中重新建立所有系統程序，並提供稽核線索進行分析。 | 
| **3.4 系列追蹤：環境資訊** | 此追蹤會擷取執行時間環境設定的相關資訊，例如所有模型程式碼的容器映像，以及容器的相關相依性。 | 
| **3.5 系列追蹤：模型** | 此追蹤會擷取模型的相關資訊。它包含從模型演算法的資訊到進入模型的參數和超參數。 | 
| **3.6 與部署和監控整合** | 系統應該直接與 PITR 的監控和部署子系統連結。對於監控，這表示針對模型的訓練執行測試模型的效能，以偵測模型品質的劣化。對於部署，這支援 PITR 和視需要轉返至先前模型版本的能力。 | 
| **3.7 管道參數組態** | 在技術上，管道參數組態同時屬於歷程追蹤和實驗追蹤，因為管道組態必須進行版本控制，並直接與模型建立關聯。管道參數組態會列在本節中，因為追蹤所有系統協同運作組態並進行版本控制是必要的。 | 
| **3.8 問題可追蹤、可偵錯和可重現。** | 工程師可以追蹤、偵錯和重現系統中的所有問題，而不需耗費太多心力。這表示有足夠的可觀測性。此檢查主要衍生自滿足可觀測性和模型管理區段下的其他項目。 | 
| **3.9 效能視覺化** | 系統可以將日誌擷取並收集為時間序列資料庫類型格式，並將其直接擷取到儀表板中。儀表板提供模型和電腦指標的整體檢視，以及向下切入和查詢的功能。 | 