Formatos de mídia Canais de áudio Taxas de amostragem Output

Entrada e saída de dados

Amazon Transcribe pega dados de áudio, como um arquivo de mídia em um Amazon S3 bucket ou stream de mídia, e os converte em dados de texto.

Se você estiver transcrevendo arquivos de mídia armazenados em um Amazon S3 bucket, você está realizando transcrições em lote. Se você estiver transcrevendo fluxos de mídia, isso significa que está realizando transcrições de streaming. Esses dois processos têm regras e requisitos diferentes.

Com transcrições em lote, você pode usar Enfileiramento de tarefas se não precisar processar todos os trabalhos de transcrição simultaneamente. Isso permite Amazon Transcribe acompanhar seus trabalhos de transcrição e processá-los quando houver vagas disponíveis.

nota

Amazon Transcribe pode armazenar temporariamente seu conteúdo para melhorar continuamente a qualidade de seus modelos de análise. Consulte as Perguntas frequentes do Amazon Transcribe para saber mais. Para solicitar a exclusão de conteúdo que possa ter sido armazenado por Amazon Transcribe, abra uma caixa com Suporte.

Formatos de mídia

Os tipos de mídia compatíveis diferem entre transcrições em lote e transcrições de streaming, embora formatos sem perdas sejam recomendados para ambas. Consulte a seguinte tabela para obter detalhes:

	Lote	Streaming
Formatos com suporte	AMR FLAC M4A MP3 MP4 Ogg WebM WAV	FLAC Ogg Opus Codificação PCM
Formatos recomendados	FLAC WAV com codificação PCM de 16 bits	FLAC Áudio little-endian de 16 bits com assinatura PCM (observe que isso não inclui WAV)

Para obter melhores resultados, use um formato sem perdas, como FLAC ou WAV com codificação PCM de 16 bits.

nota

As transcrições de streaming não são compatíveis com todos os idiomas. Consulte a coluna “Entrada de dados” na tabela de idiomas oferecidos para obter detalhes.

Canais de áudio

Amazon Transcribe suporta mídia de canal único e canal duplo. No momento, não há suporte para mídia com mais de dois canais.

Se o áudio contiver vários locutores em um canal e você quiser particionar e rotular cada um na saída de transcrição, é possível usar a Separação de oradores (diarização).

Se o áudio contiver fala em dois canais separados, você pode usar a Identificação de canal para transcrever cada um separadamente na transcrição.

Ambas as opções produzem um arquivo de transcrição.

nota

Se você não habilitar a Separação de oradores ou a Identificação de canal, o texto da transcrição será fornecido como uma seção contínua.

Taxas de amostragem

Nos trabalhos de transcrição em lote, você pode optar por fornecer uma taxa de amostragem, embora esse parâmetro seja opcional. Se você incluí-lo na solicitação, o valor fornecido deverá corresponder à taxa de amostragem real no áudio. Se você fornecer uma taxa de amostragem que não corresponda ao áudio, seu trabalho poderá falhar.

Nas transcrições de streaming, você deve incluir uma taxa de amostragem na solicitação. Assim como nos trabalhos de transcrição em lote, o valor fornecido deve corresponder à taxa de amostragem real do áudio.

As taxas de amostragem para áudio de baixa fidelidade, como gravações telefônicas, normalmente usam 8.000 Hz. Para áudio de alta fidelidade, Amazon Transcribe suporta valores entre 16.000 Hz e 48.000 Hz.

Output

A saída da transcrição está no formato JSON. A primeira parte da transcrição contém a própria transcrição em forma de parágrafo, seguida de dados adicionais para cada palavra e sinal de pontuação. Os dados fornecidos dependem dos recursos que você inclui na solicitação. No mínimo, a transcrição contém a hora de início, a hora de término e a pontuação de confiança de cada palavra. A seção a seguir mostra um exemplo de saída de uma solicitação de transcrição básica que não incluiu nenhuma opção ou recurso adicional.

Todas as transcrições em lote são armazenadas em Amazon S3 compartimentos. Você pode optar por salvar sua transcrição em seu próprio Amazon S3 bucket ou Amazon Transcribe usar um bucket padrão seguro. Para saber mais sobre como criar e usar buckets do Amazon S3 , consulte Trabalhar com buckets.

Se você quiser que sua transcrição seja armazenada em um Amazon S3 bucket de sua propriedade, especifique o URI do bucket na sua solicitação de transcrição. Certifique-se de conceder permissões de Amazon Transcribe gravação para esse bucket antes de iniciar seu trabalho de transcrição em lote. Se você especificar seu próprio bucket, a transcrição permanecerá nesse bucket até que você a remova.

Se você não especificar um Amazon S3 bucket, Amazon Transcribe usa um bucket seguro gerenciado por serviços e fornece um URI temporário que você pode usar para baixar sua transcrição. Observe que os URIs temporários são válidos por 15 minutos. Se você receber um erro AccessDenied ao usar o URI fornecido, faça uma solicitação GetTranscriptionJob para obter um novo URI temporário para a transcrição.

Se você optar por um bucket padrão, a transcrição será excluída quando o trabalho expirar (noventa dias). Se quiser manter a transcrição após essa data de expiração, você deverá baixá-la.

As transcrições de streaming são retornadas pelo mesmo método que você está usando para o fluxo.

dica

Se você quiser converter sua saída JSON em uma transcrição passo a passo no formato Word, veja este GitHub exemplo (para Python3). Esse script funciona com transcrições de análise pós-chamada e transcrições em lote padrão com a diarização habilitada.

Exemplo de saída de

As transcrições fornecem uma transcrição completa em forma de parágrafo, seguida de uma divisão palavra por palavra, que fornece dados para cada palavra e sinal de pontuação. Isso inclui hora de início, hora de término, uma pontuação de confiança e um tipo (pronunciation ou punctuation).

O exemplo a seguir é de um trabalho simples de transcrição em lote que não inclui nenhum recurso adicional. Para cada recurso adicional aplicado à solicitação de transcrição, você obtém dados adicionais no arquivo de saída da transcrição.

As transcrições em lote básicas contêm duas seções principais:

transcripts: contém a transcrição completa em um bloco de texto.
items: contém informações sobre cada palavra e sinal de pontuação da seção transcripts.
audio_segments: um segmento de áudio é uma porção específica de uma gravação de áudio que contém linguagem falada ininterrupta, com pausas ou interrupções mínimas. Este segmento captura o fluxo natural da fala e é registrado em audio_segments com um horário de início e um horário de término. O elemento items dentro de um segmento de áudio é uma sequência de identificadores que correspondem a cada item dentro do segmento.

Cada recurso adicional que você inclui na solicitação de transcrição gera informações adicionais na transcrição.


{
    "jobName": "my-first-transcription-job",
    "accountId": "111122223333",
    "results": {
        "transcripts": [
            {
                "transcript": "Welcome to Amazon Transcribe."
            }
        ],
        "items": [
            {
                "id": 0,
                "start_time": "0.64",
                "end_time": "1.09",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Welcome"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 1,
                "start_time": "1.09",
                "end_time": "1.21",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "to"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 2,
                "start_time": "1.21",
                "end_time": "1.74",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Amazon"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 3,
                "start_time": "1.74",
                "end_time": "2.56",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Transcribe"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 4,
                "alternatives": [
                    {
                        "confidence": "0.0",
                        "content": "."
                    }
                ],
                "type": "punctuation"
            }
        ],
        "audio_segments": [
            {
                "id": 0,
                "transcript": "Welcome to Amazon Transcribe.",
                "start_time": "0.64",
                "end_time": "2.56",
                "items": [
                    0,
                    1,
                    2,
                    3,
                    4
                ]
            }
        ]
    },
    "status": "COMPLETED"
}

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Como funciona

Transcrever números