Contrôle du flux des objets de données envoyés aux employés - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Contrôle du flux des objets de données envoyés aux employés

Selon le type de tâche d'étiquetage que vous créez, Amazon SageMaker Ground Truth envoie des objets de données aux employés par lots ou en streaming. Vous pouvez contrôler le flux d’objets de données vers les employés de la manière suivante :

  • Pour les deux types de travaux d’étiquetage, vous pouvez utiliser MaxConcurrentTaskCount pour contrôler le nombre total d’objets de données disponibles pour tous les employés à un moment donné lors de l’exécution de la tâche d’étiquetage.

  • Pour les tâches d’étiquetage en streaming, vous pouvez contrôler le flux d’objets de données vers les employés en surveillant et en contrôlant le nombre d’objets de données envoyés à Amazon SQS associés à votre tâche d’étiquetage.

Utilisez les sections suivantes pour en savoir plus sur ces options.

MaxConcurrentTaskCount À utiliser pour contrôler le flux d'objets de données

MaxConcurrentTaskCount définit le nombre maximum d’objets de données disponibles simultanément dans la file d’attente des tâches du portail d’employé. Si vous utilisez la console, ce paramètre est défini sur 1 000. Si vous utilisez CreateLabelingJob, vous pouvez définir ce paramètre sur n’importe quel nombre entier compris entre 1 et 5 000 inclus.

Utilisez l’exemple suivant pour mieux comprendre comment le nombre d’entrées de votre fichier manifeste et les paramètres NumberOfHumanWorkersPerDataObject et MaxConcurrentTaskCount définissent les tâches que les employés voient dans leur file d’attente de tâches dans l’interface utilisateur du portail d’employé.

  1. Vous disposez d’un fichier manifeste d’entrée contenant 600 entrées.

  2. Pour chaque entrée de votre fichier manifeste d’entrée, vous pouvez utiliser NumberOfHumanWorkersPerDataObject pour définir le nombre d’employés humains qui étiquetteront une entrée à partir de votre fichier manifeste d’entrée. Dans cet exemple, vous définissez NumberOfHumanWorkersPerDataObject sur 3. Cela créera 3 tâches différentes pour chaque entrée de votre fichier manifeste d’entrée. En outre, pour qu’il soit marqué comme étiqueté avec succès, au moins 3 employés différents doivent étiqueter l’objet. Cela crée un total de 1 800 tâches (600 x 3) à effectuer par les employés.

  3. Vous souhaitez que les employés ne voient que 100 tâches à la fois dans leur file d’attente dans l’interface utilisateur du portail d’employé. Pour ce faire, vous devez définir MaxConcurrentTaskCount sur 100. Ground Truth remplira ensuite la file d’attente des tâches du portail d’employé avec 100 tâches par employé.

  4. Ce qui se produit ensuite dépend du type de tâche d’étiquetage que vous créez et du fait qu’il s’agit ou non d’une tâche d’étiquetage en streaming.

    • Tâche d’étiquetage en streaming : tant que le nombre total d’objets disponibles pour les employés est égal à MaxConcurrentTaskCount, tous les objets de jeu de données restants dans votre fichier manifeste d’entrée et que vous envoyez en temps réel à l’aide d’Amazon SNS sont placés dans une file d’attente Amazon SQS. Lorsque le nombre total d’objets disponibles aux employés est inférieur à MaxConcurrentTaskCount moins NumberOfHumanWorkersPerDataObject, un nouvel objet de données de la file d’attente est utilisé pour créer NumberOfHumanWorkersPerDataObject-tâches, qui sont envoyées aux employés en temps réel.

    • Tâche d’étiquetage ponctuelle (qui ne s’exécute pas en streaming) : au fur et à mesure que les employés terminent l’étiquetage d’un jeu d’objets, jusqu’à MaxConcurrentTaskCount x NumberOfHumanWorkersPerDataObject nombre de nouvelles tâches seront envoyées aux employés. Ce processus est répété jusqu’à ce que tous les objets de données du fichier manifeste d’entrée soient étiquetés.

Utilisation d’Amazon SQS pour contrôler le flux d’objets de données vers les tâches d’étiquetage en streaming

Lorsque vous créez une tâche d’étiquetage en streaming, une file d’attente Amazon SQS est automatiquement créée dans votre compte. Les objets de données ne sont ajoutés à la file d’attente Amazon SQS que lorsque le nombre total d’objets envoyés aux employés est supérieur à MaxConcurrentTaskCount. Sinon, les objets sont envoyés directement aux employés.

Vous pouvez utiliser cette file d’attente pour gérer le flux d’objets de données vers votre tâche d’étiquetage. Pour en savoir plus, consultez Gérer les requêtes d’étiquetage à l’aide d’une file d’attente Amazon SQS.