Interface d'entrée et de sortie pour l'algorithme Text Classification - TensorFlow
Chacun des modèles pré-entraînés répertoriés dans les modèles de hub TensorFlow peut être affiné sur n'importe quel jeu de données, composé de phrases de texte avec un nombre quelconque de classes. Le modèle pré-entraîné associe une couche de classification au modèle d'intégration de texte et initialise les paramètres de la couche sur des valeurs aléatoires. La dimension de sortie de la couche de classification est déterminée en fonction du nombre de classes détectées dans les données d'entrée.
Soyez conscient de la façon de formater vos données d'entraînement pour les entrer dans le modèle Text Classification - TensorFlow.
-
Format d'entrée des données d'entraînement : répertoire contenant un fichier
data.csv. Chaque ligne de la première colonne doit comporter des étiquettes de classe entières comprises entre 0 et le nombre de classes. Chaque ligne de la seconde colonne doit contenir les données de type correspondant.
Voici un exemple de fichier CSV d'entrée. Notez que le fichier ne doit pas avoir d'en-tête. Le fichier doit être hébergé dans un compartiment Amazon S3 avec un chemin similaire au suivant : s3://. Notez que le bucket_name/input_directory// de fin est obligatoire.
| | | |---|---| |0 |hide new secretions from the parental units| |0 |contains no wit , only labored gags| |1 |that loves its characters and communicates something rather beautiful about human nature| |...|...|
Entraînement incrémentiel
Vous pouvez amorcer l’entraînement d’un nouveau modèle avec les artefacts issus d’un modèle que vous avez précédemment entraîné avec SageMaker AI. L'entraînement incrémentiel permet de gagner du temps lorsque vous souhaitez entraîner un nouveau modèle avec des données identiques ou similaires.
Note
Vous pouvez uniquement amorcer un modèle Text Classification - TensorFlow SageMaker AI avec un autre modèle Text Classification - TensorFlow entraîné dans SageMaker AI.
Vous pouvez utiliser n'importe quel jeu de données pour l'entraînement incrémentiel, à condition que l'ensemble de classes reste le même. L'étape d'entraînement incrémentiel est similaire à l'étape d'affinage, mais au lieu de commencer par un modèle pré-entraîné, vous commencez par un modèle affiné existant.
Pour plus d’informations sur l’utilisation de l’entraînement incrémentiel avec l’algorithme Text Classification – TensorFlow SageMaker AI, consultez l’exemple de bloc-notes Présentation de JumpStart – Classification de texte
Inférence avec l'algorithme Text Classification - TensorFlow
Vous pouvez héberger le modèle affiné résultant de votre entraînement TensorFlow Text Classification pour l'inférence. Tous les formats de texte brut pour l'inférence doivent avoir le type de contenu application/x-text.
L'exécution de l'inférence permet d'obtenir des valeurs de probabilité, des étiquettes de classe pour toutes les classes et l'étiquette prédite correspondant à l'indice de classe présentant la probabilité la plus élevée, codé au format JSON. Le modèle Text Classification - TensorFlow traite une seule chaîne par demande et génère en sortie une seule ligne. Voici un exemple de réponse au format JSON :
accept: application/json;verbose {"probabilities": [prob_0,prob_1,prob_2, ...], "labels": [label_0,label_1,label_2, ...], "predicted_label":predicted_label}
Si accept a pour valeur application/json, le modèle génère en sortie uniquement des probabilités.