As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Controlar o fluxo de objetos de dados enviados aos operadores
Dependendo do tipo de trabalho de rotulagem que você criar, o Amazon SageMaker Ground Truth envia objetos de dados aos trabalhadores em lotes ou em streaming. Você pode controlar o fluxo dos objetos de dados para os trabalhadores das seguintes maneiras:
-
Para os dois tipos de trabalhos de rotulagem, você pode usar o
MaxConcurrentTaskCountpara controlar o número total de objetos de dados disponíveis para todos os trabalhadores em um determinado momento em que o trabalho de rotulagem está em execução. -
Para trabalhos de rotulagem de streaming, você pode controlar o fluxo de objetos de dados para os trabalhadores monitorando e controlando o número de objetos de dados enviados para o Amazon SQS associados ao trabalho de etiquetagem.
Use as seguintes seções para saber mais sobre essas opções.
Tópicos
Use MaxConcurrentTaskCount para controlar o fluxo de objetos de dados
MaxConcurrentTaskCount define o número máximo de objetos de dados disponíveis ao mesmo tempo na fila de tarefas do portal de operadores. Se você usar o console, esse parâmetro será definido como 1.000. Se você usar CreateLabelingJob, poderá definir esse parâmetro como qualquer número inteiro entre 1 e 5.000, inclusive.
Use o exemplo a seguir para entender melhor como o número de entradas em seu arquivo de manifesto, o NumberOfHumanWorkersPerDataObject e a MaxConcurrentTaskCount definem quais tarefas os operadores veem na respectiva fila de tarefas na interface de usuário do portal de operadores.
-
Você tem um arquivo de manifesto de entrada com 600 entradas.
-
Para cada entrada em seu arquivo de manifesto de entrada, você pode usar o
NumberOfHumanWorkersPerDataObjectpara definir o número de operadores humanos que rotularão uma entrada do seu arquivo de manifesto de entrada. Neste exemplo, você define oNumberOfHumanWorkersPerDataObjectcomo 3. Isso criará três tarefas diferentes para cada entrada no arquivo de manifesto de entrada. Para ser marcado como rotulado com êxito, pelo menos três operadores distintos devem rotular o objeto. Isso cria um total de 1,8 mil tarefas (600 x 3) a serem concluídas pelos operadores. -
Você deseja que os operadores vejam apenas 100 tarefas por vez na respectiva fila na interface de usuário do portal de operadores. Para fazer isso, você define
MaxConcurrentTaskCountigual a 100. Em seguida, o Ground Truth preencherá a fila de tarefas do portal de operadores com 100 tarefas por operador. -
O que acontece em seguida depende do tipo de trabalho de rotulagem que você está criando e se for um trabalho de rotulagem de streaming.
-
Trabalho de rotulagem de streaming: desde que o número total de objetos disponíveis para os operadores seja igual a
MaxConcurrentTaskCount, todos os objetos restantes do conjunto de dados no arquivo de manifesto de entrada e que você envia em tempo real usando o Amazon SNS são colocados em uma fila do Amazon SQS. Quando o número total de objetos disponíveis para os operadores fica abaixo deMaxConcurrentTaskCountmenosNumberOfHumanWorkersPerDataObject, um novo objeto de dados da fila é usado para criar tarefasNumberOfHumanWorkersPerDataObject, que são enviadas aos operadores em tempo real. -
Trabalho de rotulagem sem streaming: à medida que os trabalhadores terminam de rotular um conjunto de objetos, até
MaxConcurrentTaskCountvezes o númeroNumberOfHumanWorkersPerDataObjectde novas tarefas será enviado aos trabalhadores . Esse processo é repetido até que todos os objetos de dados no arquivo manifesto de entrada sejam rotulados.
-
Usar o Amazon SQS para controlar o fluxo de objetos de dados para trabalhos de rotulagem de streaming
Quando você cria um trabalho de rotulagem de streaming, uma fila do Amazon SQS é criada automaticamente na sua conta. Os objetos de dados só são adicionados à fila do Amazon SQS quando o número total de objetos enviados aos trabalhadores está acimade MaxConcurrentTaskCount. Caso contrário, os objetos são enviados diretamente aos trabalhadores.
Você pode usar essa fila para gerenciar o fluxo de objetos de dados para a tarefa de etiquetagem. Para saber mais, consulte Gerencie solicitações de rotulagem com uma fila do Amazon SQS.