기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
지배적 언어
Amazon Comprehend를 사용하여 텍스트를 검사하여 지배적 언어를 확인할 수 있습니다. Amazon Comprehend는 RFC 5646의 식별자를 사용하여 언어를 식별합니다. 2자리 ISO 639-1 식별자가 있고 필요한 경우 리전별 하위 태그가 있다면 해당 식별자를 사용합니다. 그렇지 않으면 ISO 639-2 3자리 코드를 사용합니다.
RFC 5646에 대한 자세한 내용은 IETF Tools 웹 사이트의 언어 식별을 위한 태그
응답에는 문서에서 특정 언어가 지배적인 언어라는 Amazon Comprehend의 신뢰 수준을 나타내는 점수가 포함됩니다. 각 점수는 다른 점수와 무관합니다. 이 점수가 특정 언어가 문서에서 특정 비율을 차지한다는 것을 의미하지는 않습니다.
책과 같이 긴 문서에 여러 언어가 포함된 경우, 긴 문서를 작은 조각으로 나누고 개별 문서에 대해 DetectDominantLanguage 작업을 실행할 수 있습니다. 그런 다음 결과를 집계하여 긴 문서에서 각 언어의 비율을 확인할 수 있습니다.
Amazon Comprehend 언어 감지에는 다음과 같은 제한 사항이 있습니다.
-
음성 언어 감지는 지원하지 않습니다. 예를 들어 “arigato”를 일본어로, “nihao”를 중국어로 감지하지 못합니다.
-
인도네시아어와 말레이시아어 혹은 보스니아어, 크로아티아어, 세르비아어와 같이 가까운 언어 쌍을 구분하기 어려울 수 있습니다.
-
최상의 결과를 얻으려면 20자 이상의 입력 텍스트를 제공하십시오.
Amazon Comprehend는 다음 언어를 감지합니다.
| 코드 | Language |
|---|---|
| af | 아프리칸스어 |
| am | 암하라어 |
| ar | 아랍어 |
| as | 아삼어 |
| az | 아제르바이잔어 |
| ba | 바쉬르어 |
| be | 벨라루스어 |
| bn | 벵골어 |
| bs | 보스니아어 |
| bg | 불가리아어 |
| ca | 카탈루냐어 |
| ceb | 세부아노어 |
| cs | 체코어 |
| cv | 추바시어 |
| cy | 웨일스어 |
| da | 덴마크어 |
| de | 독일어 |
| el | 그리스어 |
| en | 영어 |
| eo | 에스페란토어 |
| et | 에스토니아어 |
| eu | 바스크어 |
| fa | 페르시아어 |
| fi | 핀란드어 |
| fr | 프랑스어 |
| gd | 스코틀랜드 게일어 |
| ga | 아일랜드어 |
| gl | 갈리시아어 |
| gu | 구자라트어 |
| ht | 아이티어 |
| he | 히브리어 |
| ha | 하우사어 |
| hi | 힌디어 |
| hr | 크로아티아어 |
| hu | 헝가리어 |
| hy | 아르메니아어 |
| ilo | 일로코어 |
| id | 인도네시아어 |
| is | 아이슬란드어 |
| it | 이탈리아어 |
| jv | 자바어 |
| ja | 일본어 |
| kn | 칸나다어 |
| ka | 조지아어 |
| kk | 카자흐스탄어 |
| km | 중부 크메르어 |
| ky | 키르기즈어 |
| ko | 한국어 |
| ku | 쿠르드어 |
| lo | 라오스어 |
| la | 라틴어 |
| lv | 라트비아어 |
| lt | 리투아니아어 |
| lb | 룩셈부르크어 |
| ml | 말라얄람어 |
| mt | 몰타어 |
| mr | 마라티어 |
| mk | 마케도니아어 |
| mg | 마다가스카르어 |
| mn | 몽골어 |
| ms | 말레이어 |
| my | 버마어 |
| ne | 네팔어 |
| new | 네와리어 |
| nl | 네덜란드어 |
| no | 노르웨이어 |
| or | 오리야어 |
| om | 오로모어 |
| pa | 펀자브어 |
| pl | 폴란드어 |
| pt | 포르투갈어 |
| ps | 푸시토어 |
| qu | 케추아어 |
| ro | 루마니아어 |
| ru | 러시아어 |
| sa | 산스크리트어 |
| si | 신할라어 |
| sk | 슬로바키아어 |
| sl | 슬로베니아어 |
| sd | 신디어 |
| so | 소말리아어 |
| es | 스페인어 |
| sq | 알바니아어 |
| sr | 세르비아어 |
| su | 순다어 |
| sw | 스와힐리어 |
| sv | 스웨덴어 |
| ta | 타밀어 |
| tt | 타타르어 |
| te | 텔루구어 |
| tg | 타지크어 |
| tl | 타갈로그어 |
| th | 태국어 |
| tk | 투르크멘어 |
| tr | 터키어 |
| ug | 위구르어 |
| uk | 우크라이나어 |
| ur | 우르두어 |
| uz | 우즈벡어 |
| vi | 베트남어 |
| yi | 이디시어 |
| yo | 요루바어 |
| zh | 중국어 간체 |
| zh-TW | 중국어 번체 |
다음 작업 중 하나를 사용하여 문서 또는 문서 집합에서 지배적 언어를 감지할 수 있습니다.
DetectDominantLanguage 작업은 DominantLanguage 개체를 반환합니다. BatchDetectDominantLanguage 작업은 배치의 각 문서에 대해 하나씩 DominantLanguage 객체 목록을 반환합니다. StartDominantLanguageDetectionJob 작업은 작업의 문서마다 하나씩 DominantLanguage 객체 목록이 포함된 파일을 생성하는 비동기 작업을 시작합니다.
다음 예제는 DetectDominantLanguage 작업의 응답입니다.
{
"Languages": [
{
"LanguageCode": "en",
"Score": 0.9793661236763
}
]
}