Editar PII no trabalho em lote - Amazon Transcribe

Editar PII no trabalho em lote

Ao editar as informações de identificação pessoal (PII) de uma transcrição durante um trabalho de transcrição em lote, o Amazon Transcribe substitui cada caso de PII identificado por [PII] no corpo do texto principal da transcrição. Você também pode ver o tipo de PII que é editado na parte palavra por palavra da saída da transcrição. Para obter um exemplo de saída, consulte Exemplo de saída editada (lote).

A edição com transcrições em lote está disponível em inglês dos EUA (en-US) e espanhol dos EUA (es-US). A edição não é compatível com a identificação de idioma.

As transcrições editadas e não editadas são armazenadas no mesmo bucket de saída do Amazon S3. O Amazon Transcribe as armazena em um bucket especificado por você ou no bucket padrão do Amazon S3 gerenciado pelo serviço.

Tipos de PII que o Amazon Transcribe pode reconhecer para transcrições em lote
Tipo de PII Descrição
ADDRESS

Um endereço físico, como 100 Main Street, Anytown, USA ou Suite #12, Building 123. Um endereço pode incluir rua, prédio, local, cidade, estado, país, condado, CEP, jurisdição, bairro e muito mais.

ALL

Reduza ou identifique todos os tipos de PII listados nesta tabela.

BANK_ACCOUNT_NUMBER

Um número de conta bancária dos EUA. Normalmente, eles têm entre 10 e 12 dígitos, mas o Amazon Transcribe também reconhece números de contas bancárias quando somente os últimos quatro dígitos estão presentes.

BANK_ROUTING

Um número de roteamento de conta bancária dos EUA. Normalmente, eles têm nove dígitos, mas o Amazon Transcribe também reconhece números de roteamento quando apenas os últimos quatro dígitos estão presentes.

CREDIT_DEBIT_CVV

Um código de verificação de cartão (CVV) de três dígitos que está presente nos cartões de crédito e débito VISA, MasterCard e Discover. Nos cartões de crédito ou débito da American Express, é um código numérico de quatro dígitos.

CREDIT_DEBIT_EXPIRY

A data de validade do cartão de crédito ou de débito. Esse número geralmente tem quatro dígitos e é formatado como mês/ano ou MM/AA. Por exemplo, o Amazon Transcribe pode reconhecer datas de vencimento como 21/1, 1/2021 e janeiro de 2021.

CREDIT_DEBIT_NUMBER

O número de um cartão de crédito ou de débito. Esses números podem variar de 13 a 16 dígitos, mas o Amazon Transcribe também reconhece números de cartão de crédito ou débito quando apenas os últimos quatro dígitos estão presentes.

EMAIL

Um endereço de e-mail, como efua.owusu@email.com.

NAME

O nome de uma pessoa. Esse tipo de entidade não inclui títulos, como Sr., Sra., Srta. ou Dr. O Amazon Transcribe não aplica esse tipo de entidade a nomes que fazem parte de organizações ou endereços. Por exemplo, o Amazon Transcribe reconhece John Doe Organization como uma organização e Jane Doe Street como um endereço.

PHONE

Um número de telefone. Esse tipo de entidade também inclui números de fax e de pager.

PIN

Um número de identificação pessoal (PIN) de quatro dígitos que permite que alguém acesse as informações da conta bancária.

SSN

Um número de seguro social (SSN) é um número de nove dígitos emitido para cidadãos dos EUA, residentes permanentes e residentes temporários a trabalho. O Amazon Transcribe também reconhece números de previdência social quando apenas os últimos quatro dígitos estão presentes.

Você pode iniciar um trabalho de transcrição em lote usando o Console de gerenciamento da AWS, a AWS CLI ou o SDK da AWS.

  1. Faça login no Console de gerenciamento da AWS.

  2. No painel de navegação, escolha Tarefas de transcrição e selecione Criar tarefa (no canto superior direito). Isso abrirá a página Especificar os detalhes da tarefa.

  3. Depois de preencher os campos desejados na página Especificar os detalhes da tarefa, selecione Próximo para ir até a página Configurar tarefa - opcional. Ali você encontrará o painel de Remoção de conteúdo com o botão Edição de PII.

    Captura de tela do console do Amazon Transcribe: o painel “Remoção de conteúdo” na página “Configurar tarefa”.
  4. Depois de selecionar Edição de PII, você tem a opção de escolher todos os tipos de PII que deseja editar. Você também pode optar por ter uma transcrição não editada se selecionar a caixa Incluir transcrição sem ocultação na saída da tarefa.

    Captura de tela do console do Amazon Transcribe: o painel “Remoção de conteúdo” mostrando as opções de PII.
  5. Selecione Criar tarefa para executar a tarefa de transcrição.

Este exemplo usa o comando start-transcription-job e o parâmetro content-redaction. Para obter mais informações, consulte StartTranscriptionJob e ContentRedaction.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \ --output-bucket-name amzn-s3-demo-bucket \ --output-key my-output-files/ \ --language-code en-US \ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER

Veja a seguir outro exemplo usando o método start-transcription-job e um corpo de solicitação que edita PII para esse trabalho.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-redaction-job.json

O arquivo my-first-redaction-job.json contém o corpo de solicitação a seguir.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }

Este exemplo usa o AWS SDK para Python (Boto3) para editar o conteúdo usando o argumento ContentRedaction para o método start_transcription_job. Para obter mais informações, consulte StartTranscriptionJob e ContentRedaction.

Para ver exemplos adicionais de uso dos SDKs da AWS, bem como exemplos específicos de recursos, cenários e entre serviços, consulte o capítulo Exemplos de código para o Amazon Transcribe usando SDKs da AWS.

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
nota

A edição de PII para trabalhos em lote é possível apenas nestas Regiões da AWS: Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Seul), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), GovCloud (Oeste dos EUA), Canadá (Central), UE (Frankfurt), UE (Irlanda), UE (Londres), UE (Paris), Oriente Médio (Bahrein), América do Sul (São Paulo), Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon) e Oeste dos EUA (Norte da Califórnia).