Entraînement incrémentiel Inférence avec l'algorithme de classification de texte TensorFlow

Interface d'entrée et de sortie pour l' TensorFlow algorithme de classification de texte

Chacun des modèles préentraînés répertoriés dans TensorFlow Hub Models peut être affiné pour n'importe quel ensemble de données composé de phrases de texte comportant un nombre quelconque de classes. Le modèle pré-entraîné associe une couche de classification au modèle d'intégration de texte et initialise les paramètres de la couche sur des valeurs aléatoires. La dimension de sortie de la couche de classification est déterminée en fonction du nombre de classes détectées dans les données d'entrée.

Soyez conscient de la façon dont vous devez formater vos données d'entraînement pour les saisir dans le TensorFlow modèle de classification de texte.

Format d'entrée des données d'entraînement : répertoire contenant un fichier data.csv. Chaque ligne de la première colonne doit comporter des étiquettes de classe entières comprises entre 0 et le nombre de classes. Chaque ligne de la seconde colonne doit contenir les données de type correspondant.

Voici un exemple de fichier CSV d'entrée. Notez que le fichier ne doit pas avoir d'en-tête. Le fichier doit être hébergé dans un compartiment Amazon S3 avec un chemin similaire au suivant : s3://bucket_name/input_directory/. Notez que le / de fin est obligatoire.


|   |  |
|---|---|
|0 |hide new secretions from the parental units|
|0 |contains no wit , only labored gags|
|1 |that loves its characters and communicates something rather beautiful about human nature|
|...|...|

Entraînement incrémentiel

Vous pouvez amorcer l'entraînement d'un nouveau modèle à l'aide d'artefacts provenant d'un modèle que vous avez déjà entraîné avec l' SageMaker IA. L'entraînement incrémentiel permet de gagner du temps lorsque vous souhaitez entraîner un nouveau modèle avec des données identiques ou similaires.

Note

Vous ne pouvez créer qu'un modèle de classification de texte basé sur l' SageMaker IA ( TensorFlow modèle avec un autre TensorFlow modèle de classification de texte) entraîné par l' SageMaker IA.

Vous pouvez utiliser n'importe quel jeu de données pour l'entraînement incrémentiel, à condition que l'ensemble de classes reste le même. L'étape d'entraînement incrémentiel est similaire à l'étape d'affinage, mais au lieu de commencer par un modèle pré-entraîné, vous commencez par un modèle affiné existant.

Pour plus d'informations sur l'utilisation de l'entraînement incrémentiel avec l' TensorFlow algorithme de classification de texte SageMaker AI, consultez le bloc-notes d'exemple Introduction à JumpStart la classification de texte.

Inférence avec l'algorithme de classification de texte TensorFlow

Vous pouvez héberger le modèle affiné issu de votre formation en classification de TensorFlow texte à des fins d'inférence. Tous les formats de texte brut pour l'inférence doivent avoir le type de contenu application/x-text.

L'exécution de l'inférence permet d'obtenir des valeurs de probabilité, des étiquettes de classe pour toutes les classes et l'étiquette prédite correspondant à l'indice de classe présentant la probabilité la plus élevée, codé au format JSON. Le TensorFlow modèle Classification de texte traite une seule chaîne par demande et ne produit qu'une seule ligne. Voici un exemple de réponse au format JSON :


accept: application/json;verbose

{"probabilities": [prob_0, prob_1, prob_2, ...],
"labels": [label_0, label_1, label_2, ...],
"predicted_label": predicted_label}

Si accept a pour valeur application/json, le modèle génère en sortie uniquement des probabilités.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Comment utiliser la classification de texte - TensorFlow

Comment ça marche