Entrada e saída de dados
O Amazon Transcribe captura dados de áudio, como um arquivo de mídia em um bucket do Amazon S3 ou um fluxo de mídia, e os converte em dados de texto.
Se você estiver transcrevendo arquivos de mídia armazenados em um bucket do Amazon S3, isso significa que está realizando transcrições em lote. Se você estiver transcrevendo fluxos de mídia, isso significa que está realizando transcrições de streaming. Esses dois processos têm regras e requisitos diferentes.
Com transcrições em lote, você pode usar Enfileiramento de tarefas se não precisar processar todos os trabalhos de transcrição simultaneamente. Isso permite que o Amazon Transcribe mantenha o controle dos trabalhos de transcrição e os processe quando houver slots disponíveis.
nota
O Amazon Transcribe pode armazenar temporariamente o conteúdo para melhorar a qualidade dos modelos de análise de maneira contínua. Consulte as Perguntas frequentes do Amazon Transcribe
Formatos de mídia
Os tipos de mídia compatíveis diferem entre transcrições em lote e transcrições de streaming, embora formatos sem perdas sejam recomendados para ambas. Consulte a seguinte tabela para obter detalhes:
Lote |
Streaming |
|
|---|---|---|
Formatos com suporte |
|
|
Formatos recomendados |
|
|
Para obter melhores resultados, use um formato sem perdas, como FLAC ou WAV com codificação PCM de 16 bits.
nota
As transcrições de streaming não são compatíveis com todos os idiomas. Consulte a coluna “Entrada de dados” na tabela de idiomas oferecidos para obter detalhes.
Canais de áudio
O Amazon Transcribe é compatível com mídia de canal único e de canal duplo. No momento, não há suporte para mídia com mais de dois canais.
Se o áudio contiver vários locutores em um canal e você quiser particionar e rotular cada um na saída de transcrição, é possível usar a Separação de oradores (diarização).
Se o áudio contiver fala em dois canais separados, você pode usar a Identificação de canal para transcrever cada um separadamente na transcrição.
Ambas as opções produzem um arquivo de transcrição.
nota
Se você não habilitar a Separação de oradores ou a Identificação de canal, o texto da transcrição será fornecido como uma seção contínua.
Taxas de amostragem
Nos trabalhos de transcrição em lote, você pode optar por fornecer uma taxa de amostragem, embora esse parâmetro seja opcional. Se você incluí-lo na solicitação, o valor fornecido deverá corresponder à taxa de amostragem real no áudio. Se você fornecer uma taxa de amostragem que não corresponda ao áudio, seu trabalho poderá falhar.
Nas transcrições de streaming, você deve incluir uma taxa de amostragem na solicitação. Assim como nos trabalhos de transcrição em lote, o valor fornecido deve corresponder à taxa de amostragem real do áudio.
As taxas de amostragem para áudio de baixa fidelidade, como gravações telefônicas, normalmente usam 8.000 Hz. Para áudio de alta fidelidade, o Amazon Transcribe comporta valores entre 16.000 Hz e 48.000 Hz.
Resultado
A saída da transcrição está no formato JSON. A primeira parte da transcrição contém a própria transcrição em forma de parágrafo, seguida de dados adicionais para cada palavra e sinal de pontuação. Os dados fornecidos dependem dos recursos que você inclui na solicitação. No mínimo, a transcrição contém a hora de início, a hora de término e a pontuação de confiança de cada palavra. A seção a seguir mostra um exemplo de saída de uma solicitação de transcrição básica que não incluiu nenhuma opção ou recurso adicional.
Todas as transcrições em lote são armazenadas em buckets do Amazon S3. Você pode optar por salvar sua transcrição em seu próprio bucket do Amazon S3 ou fazer com que o Amazon Transcribe use um bucket padrão seguro. Para saber mais sobre como criar e usar buckets do Amazon S3, consulte Trabalhar com buckets.
Se você quiser que a transcrição seja armazenada em um bucket do Amazon S3 de sua propriedade, especifique o URI do bucket na solicitação de transcrição. Conceda permissões de gravação ao Amazon Transcribe para esse bucket antes de iniciar o trabalho de transcrição em lote. Se você especificar seu próprio bucket, a transcrição permanecerá nesse bucket até que você a remova.
Se você não especificar um bucket do Amazon S3, o Amazon Transcribe usará um bucket seguro gerenciado pelo serviço e fornecerá um URI temporário pode ser usado para baixar a transcrição. Observe que os URIs temporários são válidos por 15 minutos. Se você receber um erro AccessDenied ao usar o URI fornecido, faça uma solicitação GetTranscriptionJob para obter um novo URI temporário para a transcrição.
Se você optar por um bucket padrão, a transcrição será excluída quando o trabalho expirar (noventa dias). Se quiser manter a transcrição após essa data de expiração, você deverá baixá-la.
As transcrições de streaming são retornadas pelo mesmo método que você está usando para o fluxo.
dica
Se você quiser converter a saída JSON em uma transcrição turno por turno no formato Word, veja este exemplo do GitHub (para Python3)
Exemplo de saída
As transcrições fornecem uma transcrição completa em forma de parágrafo, seguida de uma divisão palavra por palavra, que fornece dados para cada palavra e sinal de pontuação. Isso inclui hora de início, hora de término, uma pontuação de confiança e um tipo (pronunciation ou punctuation).
O exemplo a seguir é de um trabalho simples de transcrição em lote que não inclui nenhum recurso adicional. Para cada recurso adicional aplicado à solicitação de transcrição, você obtém dados adicionais no arquivo de saída da transcrição.
As transcrições em lote básicas contêm duas seções principais:
-
transcripts: contém a transcrição completa em um bloco de texto. -
items: contém informações sobre cada palavra e sinal de pontuação da seçãotranscripts. -
audio_segments: um segmento de áudio é uma porção específica de uma gravação de áudio que contém linguagem falada ininterrupta, com pausas ou interrupções mínimas. Este segmento captura o fluxo natural da fala e é registrado emaudio_segmentscom um horário de início e um horário de término. O elementoitemsdentro de um segmento de áudio é uma sequência de identificadores que correspondem a cada item dentro do segmento.
Cada recurso adicional que você inclui na solicitação de transcrição gera informações adicionais na transcrição.
{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "id": 0, "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "id": 1, "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "id": 2, "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "id": 3, "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "id": 4, "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ], "audio_segments": [ { "id": 0, "transcript": "Welcome to Amazon Transcribe.", "start_time": "0.64", "end_time": "2.56", "items": [ 0, 1, 2, 3, 4 ] } ] }, "status": "COMPLETED" }