Exemple de données parallèles Formats de fichiers d'entrée

Fichiers de saisie de données parallèles pour Amazon Translate

Avant de créer une ressource de données parallèle dans Amazon Translate, vous devez créer un fichier d'entrée contenant vos exemples de traduction. Votre fichier de saisie de données parallèle doit utiliser les langues prises en charge par Amazon Translate. Pour obtenir la liste de ces langues, consultezLangues et codes de langue pris en charge.

Exemple de données parallèles

Le texte du tableau suivant fournit des exemples de segments de traduction qui peuvent être formatés dans un fichier d'entrée de données parallèle :

en	es	zh
Amazon Translate est un service de traduction automatique neuronale.	Amazon Translate est un service de traduction automatique basé sur les réseaux neuronaux.	Amazon Translate。
La traduction automatique neuronale est une forme d'automatisation de la traduction linguistique qui utilise des modèles d'apprentissage profond.	La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.	，。
Amazon Translate vous permet de localiser du contenu pour les utilisateurs internationaux.	Amazon Translate vous permet de localiser le contenu pour les utilisateurs internationaux.	Amazon Translate。

La première ligne du tableau indique les codes de langue. La première langue, l'anglais (en), est la langue source. L'espagnol (es) et le chinois (zh) sont les langues cibles. La première colonne fournit des exemples de texte source. Les autres colonnes contiennent des exemples de traductions. Lorsque ces données parallèles personnalisent un traitement par lots, Amazon Translate adapte la traduction pour refléter les exemples.

Formats de fichiers d'entrée

Amazon Translate prend en charge les formats suivants pour les fichiers de saisie de données parallèles :

Échange de mémoire de traduction (TMX)
Valeurs séparées par des virgules (CSV)
Valeurs séparées par des tabulations (TSV)

TMX

Exemple Fichier d'entrée TMX

L'exemple de fichier TMX suivant définit des données parallèles dans un format accepté par Amazon Translate. Dans ce fichier, l'anglais (en) est la langue source. L'espagnol (es) et le chinois (zh) sont les langues cibles. En tant que fichier d'entrée pour les données parallèles, il fournit plusieurs exemples qu'Amazon Translate peut utiliser pour personnaliser le résultat d'un traitement par lots.


<?xml version="1.0" encoding="UTF-8"?>
<tmx version="1.4">
    <header srclang="en"/>
    <body>
        <tu>
            <tuv xml:lang="en">
                <seg>Amazon Translate is a neural machine translation service.</seg>
            </tuv>
            <tuv xml:lang="es">
                <seg>Amazon Translate es un servicio de traducción automática basado en redes neuronales.</seg>
            </tuv>
            <tuv xml:lang="zh">
                <seg>Amazon Translate 是一项神经机器翻译服务。</seg>
            </tuv>
        </tu>
        <tu>
            <tuv xml:lang="en">
                <seg>Neural machine translation is a form of language translation automation that uses deep learning models.</seg>
            </tuv>
            <tuv xml:lang="es">
                <seg>La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.</seg>
            </tuv>
            <tuv xml:lang="zh">
                <seg>神经机器翻译使用深度学习模型，是一种语言翻译自动化的形式。</seg>
            </tuv>
        </tu>
        <tu>
            <tuv xml:lang="en">
                <seg>Amazon Translate allows you to localize content for international users.</seg>
            </tuv>
            <tuv xml:lang="es">
                <seg>Amazon Translate le permite localizar contenido para usuarios internacionales.</seg>
            </tuv>
            <tuv xml:lang="zh">
                <seg>Amazon Translate 允许您为国际用户本地化内容。</seg>
            </tuv>
        </tu>
    </body>
</tmx>

Exigences relatives au TMX

N'oubliez pas les exigences suivantes d'Amazon Translate lorsque vous définissez vos données parallèles dans un fichier TMX :

Amazon Translate prend en charge le format TMX 1.4b. Pour plus d'informations, consultez la spécification TMX 1.4b sur le site Web de la Globalization and Localization Association.
L'headerélément doit inclure l'srclangattribut. La valeur de cet attribut détermine la langue source des données parallèles.
L'bodyélément doit contenir au moins un élément d'unité de traduction (tu).
Chaque tu élément doit contenir au moins deux éléments variant (tuv) de l'unité de traduction. L'un de ces tuv éléments doit avoir un xml:lang attribut ayant la même valeur que celui attribué à l'srclangattribut dans l'headerélément.
Tous les tuv éléments doivent avoir xml:lang cet attribut.
Tous les tuv éléments doivent comporter un élément segment (seg).
Lors du traitement de votre fichier d'entrée, Amazon Translate ignore certains tu tuv éléments s'il rencontre seg des éléments vides ou contenant uniquement des espaces blancs :
- Si l'segélément correspond à la langue source, Amazon Translate ignore l'tuélément qu'il occupe. seg
- Si l'segélément correspond à une langue cible, Amazon Translate ignore uniquement l'tuvélément qu'il occupe. seg
Lors du traitement de votre fichier d'entrée, Amazon Translate ignore certains tu tuv éléments s'il rencontre des seg éléments supérieurs à 1 000 octets :
- Si l'segélément correspond à la langue source, Amazon Translate ignore l'tuélément qu'il occupe. seg
- Si l'segélément correspond à une langue cible, Amazon Translate ignore uniquement l'tuvélément qu'il occupe. seg
Si le fichier d'entrée contient plusieurs tu éléments avec le même texte source, Amazon Translate effectue l'une des opérations suivantes :
- Si les tu éléments possèdent changedate cet attribut, il utilise l'élément dont la date est la plus récente.
- Dans le cas contraire, il utilise l'élément le plus proche de la fin du fichier.

CSV

L'exemple de fichier CSV suivant définit des données parallèles dans un format accepté par Amazon Translate. Dans ce fichier, l'anglais (en) est la langue source. L'espagnol (es) et le chinois (zh) sont les langues cibles. En tant que fichier d'entrée pour les données parallèles, il fournit plusieurs exemples qu'Amazon Translate peut utiliser pour personnaliser le résultat d'un traitement par lots.

Exemple Fichier d'entrée CSV


en,es,zh
Amazon Translate is a neural machine translation service.,Amazon Translate es un servicio de traducción automática basado en redes neuronales.,Amazon Translate 是一项神经机器翻译服务。
Neural machine translation is a form of language translation automation that uses deep learning models.,La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.,神经机器翻译使用深度学习模型，是一种语言翻译自动化的形式。
Amazon Translate allows you to localize content for international users.,Amazon Translate le permite localizar contenido para usuarios internacionales.,Amazon Translate 允许您为国际用户本地化内容。

Exigences relatives au format CSV

N'oubliez pas les exigences suivantes d'Amazon Translate lorsque vous définissez vos données parallèles dans un fichier CSV :

La première ligne contient les codes de langue. Le premier code est la langue source, et chaque code suivant est une langue cible.
Chaque champ de la première colonne contient le texte source. Chaque champ d'une colonne suivante contient une traduction cible.
Si le texte d'un champ contient une virgule, le texte doit être placé entre guillemets («).
Un champ de texte ne peut pas s'étendre sur plusieurs lignes.
Les champs ne peuvent pas commencer par les caractères suivants : +, -, =, @. Cette exigence s'applique que le champ soit ou non placé entre guillemets («).
Si le texte d'un champ contient un guillemet double («), il doit être évité par un guillemet double. Par exemple, un texte tel que :
```
34" monitor
```
Doit être écrit comme suit :
```
34"" monitor
```
Lors du traitement de votre fichier d'entrée, Amazon Translate ignore certaines lignes ou certains champs s'il rencontre des champs vides ou contenant uniquement des espaces blancs :
- Si un champ de texte source est vide, Amazon Translate ignore la ligne qu'il occupe.
- Si un champ de traduction cible est vide, Amazon Translate ignore uniquement ce champ.
Lors du traitement de votre fichier d'entrée, Amazon Translate ignore certaines lignes ou certains champs s'il rencontre des champs supérieurs à 1 000 octets :
- Si un champ de texte source dépasse la limite d'octets, Amazon Translate ignore la ligne qu'il occupe.
- Si un champ de traduction cible dépasse la limite d'octets, Amazon Translate ignore uniquement ce champ.
Si le fichier d'entrée contient plusieurs enregistrements contenant le même texte source, Amazon Translate utilise l'enregistrement le plus proche de la fin du fichier.

TSV

L'exemple de fichier TSV suivant définit des données parallèles dans un format accepté par Amazon Translate. Dans ce fichier, l'anglais (en) est la langue source. L'espagnol (es) et le chinois (zh) sont les langues cibles. En tant que fichier d'entrée pour les données parallèles, il fournit plusieurs exemples qu'Amazon Translate peut utiliser pour personnaliser le résultat d'un traitement par lots.

Exemple Fichier d'entrée TSV


en	es	zh
Amazon Translate is a neural machine translation service.	Amazon Translate es un servicio de traducción automática basado en redes neuronales.	Amazon Translate 是一项神经机器翻译服务。
Neural machine translation is a form of language translation automation that uses deep learning models.	La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.	神经机器翻译使用深度学习模型，是一种语言翻译自动化的形式。
Amazon Translate allows you to localize content for international users.	Amazon Translate le permite localizar contenido para usuarios internacionales.	Amazon Translate 允许您为国际用户本地化内容。

Exigences du TSV

N'oubliez pas les exigences suivantes d'Amazon Translate lorsque vous définissez vos données parallèles dans un fichier TSV :

La première ligne contient les codes de langue. Le premier code est la langue source, et chaque code suivant est une langue cible.
Chaque champ de la première colonne contient le texte source. Chaque champ d'une colonne suivante contient une traduction cible.
Si le texte d'un champ contient un caractère de tabulation, le texte doit être placé entre guillemets («).
Un champ de texte ne peut pas s'étendre sur plusieurs lignes.
Les champs ne peuvent pas commencer par les caractères suivants : +, -, =, @. Cette exigence s'applique que le champ soit ou non placé entre guillemets («).
Si le texte d'un champ contient un guillemet double («), il doit être évité par un guillemet double. Par exemple, un texte tel que :
```
34" monitor
```
Doit être écrit comme suit :
```
34"" monitor
```
Lors du traitement de votre fichier d'entrée, Amazon Translate ignore certaines lignes ou certains champs s'il rencontre des champs vides ou contenant uniquement des espaces blancs :
- Si un champ de texte source est vide, Amazon Translate ignore la ligne qu'il occupe.
- Si un champ de traduction cible est vide, Amazon Translate ignore uniquement ce champ.
Lors du traitement de votre fichier d'entrée, Amazon Translate ignore certaines lignes ou certains champs s'il rencontre des champs supérieurs à 1 000 octets :
- Si un champ de texte source dépasse la limite d'octets, Amazon Translate ignore la ligne qu'il occupe.
- Si un champ de traduction cible dépasse la limite d'octets, Amazon Translate ignore uniquement ce champ.
Si le fichier d'entrée contient plusieurs enregistrements contenant le même texte source, Amazon Translate utilise l'enregistrement le plus proche de la fin du fichier.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Personnalisation avec des données parallèles

Ajouter des données parallèles