As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Rótulo
Forneça instruções claras de rotulagem
Um conjunto de dados pode incluir amostras ambíguas que resultam em rotulagem inconsistente em todo o conjunto de dados. Por exemplo, considere a tarefa de rotular imagens que contenham um cachorro. Algumas amostras podem conter apenas um vislumbre do animal. Eles devem ser marcados com um rótulo positivo ou negativo? Esse tipo de problema pode ser resolvido fornecendo instruções claras e objetivas aos rotuladores.
Use a votação majoritária
Agora, considere a questão de rotular um speech-to-text conjunto de dados que contém áudio ruidoso com palavras foneticamente semelhantes ou idênticas a outras, como know and go, shoe and two, cry and high ou right and write. Nesse caso, os rotuladores podem rotular essas amostras de forma inconsistente.
Para manter um alto grau de correção na rotulagem, uma abordagem comum é usar a votação por maioria, na qual a mesma amostra de dados é fornecida a vários trabalhadores e seus resultados são agregados. Esse método e suas variações mais sofisticadas estão descritos na postagem do blog Use a sabedoria das multidões com o Amazon SageMaker AI Ground Truth para anotar dados com mais precisão