스피치 마크 출력 - Amazon Polly

스피치 마크 출력

Amazon Polly에서는 줄로 구분된 JSON 스트림에서 스피치 마크 객체를 반환합니다. 스피치 마크 객체는 다음과 같은 필드를 포함합니다.

  • time – 해당하는 오디오 스트림 시작 부분의 타임스탬프(밀리초)

  • type – 스피치 마크의 형식(sentence, word, viseme, ssml)

  • start – 입력 텍스트에서 객체 시작의 오프셋(바이트)(viseme 마크 포함하지 않음)

  • end – 입력 텍스트에서 객체 끝의 오프셋(바이트)(viseme 마크 포함하지 않음)

  • value – 스피치 마크 형식에 따라 다양

    • SSML: <mark> SSML 태그

    • viseme: viseme 이름

    • word 또는 sentence: 시작 및 끝 필드로 구분된 입력 텍스트의 하위 문자열

예를 들어, Amazon Polly에 "Mary have little lamb" 텍스트를 제공하면 다음 word 스피치 마크 객체를 생성합니다.

{"time":373,"type":"word","start":5,"end":8,"value":"had"}

설명된 단어 "had"는 오디오 스트림이 시작된 후 373밀리초부터 시작하여 입력 텍스트의 5바이트에서 시작하여 8바이트에서 끝납니다.

참고

이 메타데이터는Joanna 음성 ID용입니다. 동일한 입력 텍스트로 다른 음성을 사용하는 경우 메타데이터가 다를 수 있습니다.