As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Idioma dominante
Você pode usar o Amazon Comprehend para examinar o texto e determinar o idioma dominante. O Amazon Comprehend identifica o idioma usando identificadores segundo o RFC 5646: se houver um identificador ISO 639-1 de 2 letras, com uma subtag regional, se necessário, ele usará essas informações. Caso contrário, ele usará o código ISO 639-2 de 3 letras.
Para obter mais informações sobre o RFC 5646, consulte Tags para identificação de idiomas
A resposta inclui uma pontuação que indica o nível de confiança que o Amazon Comprehend tem de que um determinado idioma é o idioma dominante no documento. Cada pontuação é independente das outras pontuações. A pontuação não indica que um idioma compõe uma porcentagem específica de um documento.
Se um documento longo (como um livro) contiver vários idiomas, você poderá dividi-lo em partes menores e executar a operação DetectDominantLanguage nas partes individuais. Em seguida, você poderá agregar os resultados para determinar a porcentagem de cada idioma no documento mais longo.
A detecção de linguagens do Amazon Comprehend tem as seguintes limitações:
-
Ela não oferece suporte à detecção de linguagem fonética. Por exemplo, ele não detecta “arigato” como japonês ou “nihao” como chinês.
-
O recurso pode ter dificuldade em distinguir pares de idiomas próximos, como indonésio e malaio; ou bósnio, croata e sérvio.
-
Para obter melhores resultados, forneça pelo menos 20 caracteres de texto de entrada.
O Amazon Comprehend detecta os seguintes idiomas.
| Código | Idioma |
|---|---|
| af | Africâner |
| am | Amárico |
| ar | Árabe |
| as | Assamês |
| az | Azerbaijano |
| ba | Bashkir |
| be | Bielorrusso |
| bn | Bengali |
| bs | Bósnio |
| bg | Búlgaro |
| ca | Catalão |
| ceb | Cebuano |
| cs | Tcheco |
| cv | Tchuvache |
| cy | Galês |
| da | Dinamarquês |
| de | Alemão |
| el | Grego |
| en | Inglês |
| eo | Esperanto |
| et | Estoniano |
| eu | Basco |
| fa | Persa |
| fi | Finlandês |
| fr | Francês |
| gd | Gaélico escocês |
| ga | Irlandês |
| gl | Galego |
| gu | Gujarati |
| ht | Haitiano |
| he | Hebraico |
| ha | Hauçá |
| hi | Hindi |
| hr | Croata |
| hu | Húngaro |
| hy | Armênio |
| ilo | Ilocano |
| id | Indonésio |
| is | Islandês |
| it | Italiano |
| jv | Javanês |
| ja | Japonês |
| kn | Canarês |
| ka | Georgiano |
| kk | Cazaque |
| km | Khmer Central |
| ky | Quirguiz |
| ko | Coreano |
| ku | Curdo |
| lo | Laosiano |
| la | Latim |
| lv | Letão |
| lt | Lituano |
| lb | Luxemburguês |
| ml | Malaiala |
| mt | Maltês |
| mr | Marati |
| mk | Macedônio |
| mg | Malgaxe |
| mn | Mongol |
| ms | Malaio |
| my | Birmanês |
| ne | Nepalês |
| new | Neuari |
| nl | Holandês |
| no | Norueguês |
| or | Oriá |
| om | Oromo |
| pa | Punjabi |
| pl | Polonês |
| pt | Português |
| ps | Pastó |
| qu | Quechua |
| ro | Romeno |
| ru | Russo |
| sa | Sânscrito |
| si | Cingalês |
| sk | Eslovaco |
| sl | Esloveno |
| sd | Sindi |
| so | Somali |
| es | Espanhol |
| sq | Albanês |
| sr | Sérvio |
| su | Sudanês |
| sw | Suaíli |
| sv | Sueco |
| ta | Tâmil |
| tt | Tatárico |
| te | Telugo |
| tg | Tadjique |
| tl | Tagalo |
| th | Tailandês |
| tk | Turcomano |
| tr | Turco |
| ug | Uigur |
| uk | Ucraniano |
| ur | Urdu |
| uz | Uzbeque |
| vi | Vietnamita |
| yi | Iídiche |
| yo | Iorubá |
| zh | Chinês (simplificado) |
| zh-TW | Chinês (tradicional) |
Você pode usar qualquer uma das operações a seguir para detectar o idioma dominante em um documento ou conjunto de documentos.
A DetectDominantLanguage operação retorna um DominantLanguageobjeto. A operação BatchDetectDominantLanguage retorna uma lista de objetos DominantLanguage, uma para cada documento no lote. A operação StartDominantLanguageDetectionJob inicia um trabalho assíncrono que produz um arquivo contendo uma lista de objetos DominantLanguage, uma para cada documento no trabalho.
O exemplo a seguir é a resposta da operação DetectDominantLanguage.
{
"Languages": [
{
"LanguageCode": "en",
"Score": 0.9793661236763
}
]
}