Editar ou identificar PII em um fluxo em tempo real - Amazon Transcribe

Editar ou identificar PII em um fluxo em tempo real

Ao editar informações de identificação pessoal (PII) em uma transcrição de streaming, o Amazon Transcribe substitui cada caso de PII identificado por [PII] na transcrição.

Uma opção adicional disponível para transcrições de streaming é a identificação de PII. Quando você habilita a identificação de PII, o Amazon Transcribe rotula as PIIs nos resultados da transcrição sob um objeto Entities. Para obter um exemplo de saída, consulte Exemplo de saída de streaming editada e Exemplo de saída de identificação de PII.

A edição e identificação de PII com transcrições de streaming está disponível com os seguintes dialetos do inglês: escocês (en-AB), australiano (en-AU), canadense (en-CA), britânico (en-GB), irlandês (en-IE), indiano (en-IN), neozelandês (en-NZ), norte-americano (en-US), galês (en-WL) e sul-africano (en-ZA); dialetos espanhóis: norte-americano (es-US), espanhol (es-ES); dialetos franceses: francês (fr-FR), canadense (fr-CA); dialetos portugueses: português (pt-PT), brasileiro (pt-BR); dialeto italiano: italiano (it-IT); e dialetos alemães: alemão (de-DE), suíço (de-CH).

A identificação e a edição de PII para trabalhos de streaming são realizadas somente após a transcrição completa dos segmentos de áudio.

Tipos de PII que o Amazon Transcribe pode reconhecer para transcrições de streaming
Tipo de PII Descrição
ADDRESS

Um endereço físico, como 100 Main Street, Anytown, USA ou Suite #12, Building 123. Um endereço pode incluir rua, prédio, local, cidade, estado, país, condado, CEP, jurisdição, bairro e muito mais.

ALL

Reduza ou identifique todos os tipos de PII listados nesta tabela.

BANK_ACCOUNT_NUMBER

Um número de conta bancária dos EUA. Normalmente, eles têm entre 10 e 12 dígitos, mas o Amazon Transcribe também reconhece números de contas bancárias quando somente os últimos quatro dígitos estão presentes.

BANK_ROUTING

Um número de roteamento de conta bancária dos EUA. Normalmente, eles têm nove dígitos, mas o Amazon Transcribe também reconhece números de roteamento quando apenas os últimos quatro dígitos estão presentes.

CREDIT_DEBIT_CVV

Um código de verificação de cartão (CVV) de três dígitos que está presente nos cartões de crédito e débito VISA, MasterCard e Discover. Nos cartões de crédito ou débito da American Express, é um código numérico de quatro dígitos.

CREDIT_DEBIT_EXPIRY

A data de validade do cartão de crédito ou de débito. Esse número geralmente tem quatro dígitos e é formatado como mês/ano ou MM/AA. Por exemplo, o Amazon Transcribe pode reconhecer datas de vencimento como 21/1, 1/2021 e janeiro de 2021.

CREDIT_DEBIT_NUMBER

O número de um cartão de crédito ou de débito. Esses números podem variar de 13 a 16 dígitos, mas o Amazon Transcribe também reconhece números de cartão de crédito ou débito quando apenas os últimos quatro dígitos estão presentes.

EMAIL

Um endereço de e-mail, como efua.owusu@email.com.

NAME

O nome de uma pessoa. Esse tipo de entidade não inclui títulos, como Sr., Sra., Srta. ou Dr. O Amazon Transcribe não aplica esse tipo de entidade a nomes que fazem parte de organizações ou endereços. Por exemplo, o Amazon Transcribe reconhece John Doe Organization como uma organização e Jane Doe Street como um endereço.

PHONE

Um número de telefone. Esse tipo de entidade também inclui números de fax e de pager.

PIN

Um número de identificação pessoal (PIN) de quatro dígitos que permite que alguém acesse as informações da conta bancária.

SSN

Um número de seguro social (SSN) é um número de nove dígitos emitido para cidadãos dos EUA, residentes permanentes e residentes temporários a trabalho. O Amazon Transcribe também reconhece números de previdência social quando apenas os últimos quatro dígitos estão presentes.

AGE

A idade de uma pessoa, incluindo a quantidade e a unidade de tempo. Por exemplo, na frase “Tenho 40 anos”, o Amazon Transcribe reconhece “40 anos” como uma idade.

DATE_TIME

Uma data pode incluir um ano, mês, dia, dia da semana ou hora do dia. Por exemplo, o Amazon Transcribe reconhece “19 de janeiro de 2020” ou “11h” como datas. O Amazon Transcribe reconhecerá datas parciais, intervalos de datas e intervalos entre datas. Também reconhecerá décadas, como “a década de 1990”.

LICENSE_PLATE

A placa de um veículo emitida pelo estado ou país em que o veículo está registrado. O formato para veículos de passageiros normalmente tem de cinco a oito dígitos, consistindo em letras maiúsculas e números. O formato varia de acordo com a localização do estado ou do país emissor.

PASSPORT_NUMBER

Um identificador único atribuído ao passaporte de um indivíduo. O formato normalmente inclui uma combinação de letras e números e varia conforme o país.

PASSWORD

Uma sequência alfanumérica usada como senha, como “*very20special #pass *”.

USERNAME

Um nome de usuário que identifica uma conta, como um nome de login, nome de tela, apelido ou identificador.

VEHICLE_IDENTIFICATION_NUMBER

Um Número de identificação de veículo (VIN) identifica um veículo de forma exclusiva. O conteúdo e o formato do VIN são definidos na especificação ISO 3779. Cada país tem códigos e formatos específicos para VINs.

Você pode iniciar uma transcrição de streaming usando o Console de gerenciamento da AWS, WebSocket ou HTTP/2.

  1. Faça login no Console de gerenciamento da AWS.

  2. No painel de navegação, escolha Transcrição em tempo real. Role para baixo até Configurações de remoção de conteúdo e expanda esse campo se ele estiver minimizado.

    Captura de tela do console do Amazon Transcribe: a página “Transcrição em tempo real”.
  3. Ative a Identificação e ocultação de PII.

    Captura de tela do console do Amazon Transcribe: o painel “Configurações de remoção de conteúdo” expandido.
  4. Selecione Somente identificação ou Identificação e ocultação e escolha os tipos de entidade de PII que você deseja identificar ou editar na transcrição.

    Captura de tela do console do Amazon Transcribe: lista de tipos de PII que podem ser selecionados.
  5. Agora está tudo pronto para transcrever seu fluxo. Selecione Iniciar transmissão e comece a falar. Para finalizar o ditado, selecione Interromper transmissão.

Este exemplo cria um URL pré-assinado que usa a edição de PII (ou identificação de PII) em um fluxo do WebSocket. Quebras de linha foram adicionadas para uma melhor leitura. Para obter mais informações sobre como usar fluxos do WebSocket com o Amazon Transcribe, consulte Configurar um fluxo do WebSocket. Para obter mais detalhes sobre os parâmetros, consulte StartStreamTranscription.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket? &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=string &X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date &language-code=en-US &media-encoding=flac &sample-rate=16000 &pii-entity-types=NAME,ADDRESS &content-redaction-type=PII (or &content-identification-type=PII)

Não é possível usar content-identification-type e content-redaction-type na mesma solicitação.

As definições de parâmetros podem ser encontradas na Referência da API. Os parâmetros comuns a todas as operações de API da AWS estão listados na seção Common Parameters.

Este exemplo cria uma solicitação HTTP/2 com a identificação de PII ou a edição de PII habilitada. Para obter mais informações sobre como usar streaming HTTP/2 com o Amazon Transcribe, consulte Configurar um fluxo de HTTP/2. Para obter mais detalhes sobre parâmetros e cabeçalhos específicos do Amazon Transcribe, consulte StartStreamTranscription.

POST /stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription Content-Type: application/vnd.amazon.eventstream X-Amz-Content-Sha256: string X-Amz-Date: 20220208T235959Z Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string x-amzn-transcribe-language-code: en-US x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-content-identification-type: PII (or x-amzn-transcribe-content-redaction-type: PII) x-amzn-transcribe-pii-entity-types: NAME,ADDRESS transfer-encoding: chunked

Não é possível usar content-identification-type e content-redaction-type na mesma solicitação.

As definições de parâmetros podem ser encontradas na Referência da API. Os parâmetros comuns a todas as operações de API da AWS estão listados na seção Common Parameters.

nota

A edição de PII para streaming é possível apenas nestas Regiões da AWS: Ásia-Pacífico (Seul), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Canadá (Central), UE (Frankfurt), UE (Irlanda), UE (Londres), Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon).