2. 実験 - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

2. 実験

実験には、実験のログ記録、追跡、メトリクスが含まれます。これが、プラットフォーム全体、ソース管理、開発環境における実験メタデータの統合に変換されます。実験には、デバッグを通じてモデルのパフォーマンスと精度を最適化する機能も含まれます。

2.1 統合開発環境

統合開発環境 (IDE) はクラウドと直接統合されます。IDE はより大きなシステムとやり取りし、コマンドを送信できます。理想的な IDE は以下をサポートします。

  • ローカル開発

  • バージョン管理の統合

  • デバッグが実施され、生成されたすべてのログとアーティファクトがバージョン管理に送られる

2.2 コードバージョン管理

再現性と再利用性を確保するために、すべてのコードは適切なバージョン管理がされた上でソースリポジトリにコミットされます。これには、インフラストラクチャコード、アプリケーションコード、モデルコード、さらにはノートブック (使うことを選択した場合) も含まれます。

2.3 追跡

ML プロジェクトには、機械学習実験を追跡および分析できるツールが必要です。このツールは、機械学習実験の実行中にすべてのメトリクス、パラメータ、アーティファクトを記録し、すべてのメタデータを一元的に記録する必要があります。一元管理により、実行するすべての実験を分析、視覚化、監査することができます。

2.4 クロスプラットフォーム統合

過去の実験結果とそのすべてのメタデータは、システムの他の部分でアクセスできます。例えば、モニタリングツールと同様に、所定のオーケストレーションパイプラインがこのデータにアクセスできます。

2.5 デバッグ: 精度とシステムパフォーマンス

以下について実験を調査するための包括的なモデルデバッグフレームワークが導入されています。

  • ボトルネックを見つける

  • 異常についてアラートを生成する

  • リソース使用率を最大化する

  • 実験の分析を支援する

トレーニングの負荷が高い場合、スループットを最大化できることが重要であるため、コスト最適化に欠かせないツールとなります。