3. オブザーバビリティとモデル管理 - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

3. オブザーバビリティとモデル管理

チェックリストのオブザーバビリティとモデル管理セクションには、ML システム全体のモデルバージョン管理とリネージュ追跡が含まれます。モデルバージョン管理、必要に応じて以前のバージョンを復元できるように、モデルに適用されたすべての変更を追跡および制御するのに役立ちます。リネージュ追跡では、モデルのインフローとアウトフローを確認できます。リネージュ追跡のもう 1 つの重要な利点は、デプロイとシステムリカバリを自動化するポイントインタイムリカバリ (PITR) です。

3.1 バージョン管理されたモデルレジストリ

一般的に、モデルレジストリは、モデルコンポーネントのバージョン管理とリネージュ追跡をサポートしています。適切なレジストリは、以下を含むメタデータをバージョン管理されたモデルに関連付けることができます。

  • 使用されたデータ

  • モデルに関する情報

  • 評価メトリクスの結果

  • 関連付けられたモデルコード

3.2 バイアス、公平性、説明可能性

最低限として、ML システムには、モデルの予測を他の関係者に説明できるようにするためのプロセスが必要です。ユーザーは、特徴量ごとにバイアスの結果をチェックできる必要があります。ML モデルにデータを入力する前にデータバイアスを測定し、モデルカードと監査のためにこれらのメトリクスを記録するのが理想的です。

3.3 リネージュ追跡: データの入出力

追跡は、システムに出入りするデータの流れを追跡するために設定されています (例えば、データレイクからトレーニングパイプラインへの実行)。この追跡は、すべてのシステムプロセスを再作成できるレコードとして機能し、分析のための監査証跡を提供します。

3.4 リネージュ追跡: 環境情報

この追跡は、すべてのモデルコードのコンテナイメージやコンテナの関連する依存関係など、ランタイム環境の設定に関する情報をキャプチャします。

3.5 リネージュ追跡: モデル

この追跡は、モデルに関する情報をキャプチャします。モデルのアルゴリズムに関する情報から、モデルに入るパラメータやハイパーパラメータまで、すべてが対象となります。

3.6 デプロイとモニタリングとの統合

システムは、PITR のモニタリングおよびデプロイサブシステムと直接リンクされている必要があります。モニタリングでは、モデルのパフォーマンスをトレーニングの実行と照らし合わせてテストし、モデル品質の劣化を検出します。デプロイでは、PITR と、必要に応じて以前のモデルバージョンにロールバックする機能をサポートしています。

3.7 パイプラインパラメータ設定

技術的には、パイプラインパラメータ設定はリネージュ追跡と実験追跡の両方に分類されます。これは、パイプラインパラメータ設定はバージョン管理され、モデルに直接関連付けられる必要があるためです。すべてのシステムオーケストレーション設定を追跡してバージョン管理することが必須であるため、パイプラインパラメータ設定はこのセクションにリストされています。

3.8 問題が追跡可能、デバッグ可能、再現可能

エンジニアは、手間をかけずにシステム内のすべての問題を追跡、デバッグ、再現できます。これは、十分なレベルのオブザーバビリティが設定されていることを意味します。このチェックは主に、オブザーバビリティとモデル管理セクションの他の項目を満たしていることから導き出されます。

3.9 パフォーマンスの視覚化

システムは、ログをキャプチャして時系列データベースタイプの形式で収集し、ダッシュボードに直接取り込むことができます。ダッシュボードには、モデルメトリクスとコンピュータメトリクスの両方の全体像が表示され、ドリルダウンとクエリの機能があります。