翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# トレーニング前データのバイアス
<a name="clarify-detect-data-bias"></a>

アルゴリズムのバイアス、差別、公平性、関連トピックは、法律、政策、コンピュータサイエンスなどの分野にわたって研究されてきました。コンピュータシステムが、特定の個人やグループを差別する場合、バイアスがあると見なされる可能性があります。これらのアプリケーションを強化する機械学習モデルは、データから学習し、このデータは格差やその他の固有のバイアスを反映する場合があります。例えば、トレーニングデータには、さまざまな属性グループが十分に反映されていなかったり、偏ったラベルが含まれていたりすることがあります。このようなバイアスを示すデータセットでトレーニングした機械学習モデルは、バイアスを学習してしまい、予測でそのバイアスを再現したり、助長させたりする可能性もあります。機械学習の分野では、機械学習ライフサイクルの各段階でバイアスを検出して測定することで、バイアスに対処する機会を提供します。Amazon SageMaker Clarify を使用すると、モデルのトレーニングに使用されるデータがバイアスをエンコードしているかどうかを判断できます。

トレーニング前とトレーニング後にバイアスを測定し、推論のためにモデルをエンドポイントにデプロイした後にベースラインに対してモニタリングできます。トレーニング前のバイアスメトリクスは、モデルのトレーニングに使用される前に、raw データのバイアスを検出して測定するように設計されています。使用されるメトリクスは、モデルの出力に依存しないため、モデルにとらわれません。しかし、公平性にはさまざまな概念があり、バイアスの明確な測定が必要です。Amazon SageMaker Clarify は、さまざまな公平性基準を定量化するためのバイアスメトリクスを提供します。

バイアスメトリクスの詳細については、「[Learn How Amazon SageMaker Clarify Helps Detect Bias](https://aws.amazon.com/blogs/machine-learning/learn-how-amazon-sagemaker-clarify-helps-detect-bias)」と「[Fairness Measures for Machine Learning in Finance](https://pages.awscloud.com/rs/112-TZM-766/images/Fairness.Measures.for.Machine.Learning.in.Finance.pdf)」を参照してください。

## バイアスと公平性に関する Amazon SageMaker Clarify の用語解説
<a name="clarify-bias-and-fairness-terms"></a>

SageMaker Clarify では、バイアスと公平性を説明するために、次の用語を使用しています。

**機能**  
表形式データの列に含まれる、観測される現象の個々の測定可能な特性または特徴。

**ラベル**  
機械学習モデルのトレーニングの対象となる特徴。*観測ラベル*または*観測結果*とも呼ばれます。

**予測ラベル**  
モデルによって予測されるラベル。*予測結果*とも呼ばれます。

**サンプル**  
表形式データの行に含まれる、特徴値とラベル値で記述された観測エンティティ。

**データセット**  
サンプルのコレクション。

**Bias (バイアス)**  
年齢や所得層など、異なるグループにわたるモデルのトレーニングデータまたは予測動作の不均衡。バイアスは、モデルのトレーニングに使用されるデータまたはアルゴリズムに起因する可能性があります。例えば、機械学習モデルが主に中高年者のデータに基づいてトレーニングされている場合、若年者や高齢者を対象とした予測をする際に精度が低下する可能性があります。

**バイアスメトリクス**  
潜在的なバイアスのレベルを示す数値を返す関数。

**バイアスレポート**  
特定のデータセットのバイアスメトリクスのコレクション、またはデータセットとモデルの組み合わせ。

**正のラベル値**  
サンプルで観測された属性グループにとって有利なラベル値。つまり、サンプルを*肯定的な結果*として指定します。

**負のラベル値**  
サンプルで観測された属性グループにとって不利なラベル値。つまり、サンプルを*否定的な結果*として指定します。

**グループ変数**  
条件付き属性格差 (CDD) の測定のためのサブグループを形成するために使用されるデータセットのカテゴリ列。シンプソンのパラドックスに関しては、このメトリクスにのみ必要です。

**ファセット**  
測定されるバイアスに関する属性を含む列または特徴。

**ファセット値**  
バイアスが有利または不利になる可能性のある属性の特徴値。

**予測確率**  
モデルによって予測された、正または負の結果を持つサンプルの確率。

## サンプルノートブック
<a name="clarify-data-bias-sample-notebooks"></a>

Amazon SageMaker Clarify は、バイアス検出用に次のサンプルノートブックを提供しています。
+ [Amazon SageMaker Clarify による説明可能性とバイアス検出](https://sagemaker-examples.readthedocs.io/en/latest/sagemaker-clarify/fairness_and_explainability/fairness_and_explainability.html) - SageMaker Clarify を使用して、バイアスを検出し、特徴量属性を使用してモデル予測を説明するための処理ジョブを作成します。

このノートブックの動作確認が実施されているのは、Amazon SageMaker Studio のみです。Amazon SageMaker Studio でノートブックを開く方法の手順については、「[Amazon SageMaker Studio Classic ノートブックを作成する、または開く](notebooks-create-open.md)」を参照してください。カーネルの選択を求めるメッセージが表示されたら、**[Python 3 (Data Science)]** (Python 3 (データサイエンス)) を選択します。

**Topics**
+ [バイアスと公平性に関する Amazon SageMaker Clarify の用語解説](#clarify-bias-and-fairness-terms)
+ [サンプルノートブック](#clarify-data-bias-sample-notebooks)
+ [トレーニング前のバイアスメトリクス](clarify-measure-data-bias.md)
+ [SageMaker Studio でトレーニング前のデータのバイアスに関するレポートを生成する](clarify-data-bias-reports-ui.md)