本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 標記
<a name="labeling"></a>

## 提供清楚的標籤指示
<a name="instructions"></a>

資料集可能包含模棱兩可的樣本，導致整個資料集的標籤不一致。例如，請考慮標記包含狗的影像的任務。有些範例可能只包含動物的概觀。應該以正面或負面標籤標記這些標籤嗎？ 提供清楚且客觀的指示給標籤人員，即可解決這類問題。

## 使用多數投票
<a name="voting"></a>

現在，請考慮標記speech-to-text資料集的問題，該資料集包含音素上類似或與其他字詞相同的音訊，例如 *know* and *go*、*shoe* and *two*、*cry* and *high* 或 *right* and *write*。在這種情況下，標籤工具可能會不一致地標記這些樣本。

為了維持標記的高度正確性，常見的方法是使用多數投票，其中會將相同的資料範例提供給多個工作者，並彙總其結果。此方法及其更複雜的變化在部落格文章中描述 [使用 Amazon SageMaker AI Ground Truth 的群眾智慧，在機器學習部落格上更準確地註釋資料](https://aws.amazon.com/blogs/machine-learning/use-the-wisdom-of-crowds-with-amazon-sagemaker-ground-truth-to-annotate-data-more-accurately/)。 AWS Machine Learning