Editar PII no trabalho em lote
Ao editar as informações de identificação pessoal (PII) de uma transcrição durante um trabalho de transcrição em lote, o Amazon Transcribe substitui cada caso de PII identificado por [PII] no corpo do texto principal da transcrição. Você também pode ver o tipo de PII que é editado na parte palavra por palavra da saída da transcrição. Para obter um exemplo de saída, consulte Exemplo de saída editada (lote).
A edição com transcrições em lote está disponível em inglês dos EUA (en-US) e espanhol dos EUA (es-US). A edição não é compatível com a identificação de idioma.
As transcrições editadas e não editadas são armazenadas no mesmo bucket de saída do Amazon S3. O Amazon Transcribe as armazena em um bucket especificado por você ou no bucket padrão do Amazon S3 gerenciado pelo serviço.
| Tipo de PII | Descrição |
|---|---|
ADDRESS |
Um endereço físico, como 100 Main Street, Anytown, USA ou Suite #12, Building 123. Um endereço pode incluir rua, prédio, local, cidade, estado, país, condado, CEP, jurisdição, bairro e muito mais. |
ALL |
Reduza ou identifique todos os tipos de PII listados nesta tabela. |
BANK_ACCOUNT_NUMBER |
Um número de conta bancária dos EUA. Normalmente, eles têm entre 10 e 12 dígitos, mas o Amazon Transcribe também reconhece números de contas bancárias quando somente os últimos quatro dígitos estão presentes. |
BANK_ROUTING |
Um número de roteamento de conta bancária dos EUA. Normalmente, eles têm nove dígitos, mas o Amazon Transcribe também reconhece números de roteamento quando apenas os últimos quatro dígitos estão presentes. |
CREDIT_DEBIT_CVV |
Um código de verificação de cartão (CVV) de três dígitos que está presente nos cartões de crédito e débito VISA, MasterCard e Discover. Nos cartões de crédito ou débito da American Express, é um código numérico de quatro dígitos. |
CREDIT_DEBIT_EXPIRY |
A data de validade do cartão de crédito ou de débito. Esse número geralmente tem quatro dígitos e é formatado como mês/ano ou MM/AA. Por exemplo, o Amazon Transcribe pode reconhecer datas de vencimento como 21/1, 1/2021 e janeiro de 2021. |
CREDIT_DEBIT_NUMBER |
O número de um cartão de crédito ou de débito. Esses números podem variar de 13 a 16 dígitos, mas o Amazon Transcribe também reconhece números de cartão de crédito ou débito quando apenas os últimos quatro dígitos estão presentes. |
EMAIL |
Um endereço de e-mail, como efua.owusu@email.com. |
NAME |
O nome de uma pessoa. Esse tipo de entidade não inclui títulos, como Sr., Sra., Srta. ou Dr. O Amazon Transcribe não aplica esse tipo de entidade a nomes que fazem parte de organizações ou endereços. Por exemplo, o Amazon Transcribe reconhece John Doe Organization como uma organização e Jane Doe Street como um endereço. |
PHONE |
Um número de telefone. Esse tipo de entidade também inclui números de fax e de pager. |
PIN |
Um número de identificação pessoal (PIN) de quatro dígitos que permite que alguém acesse as informações da conta bancária. |
SSN |
Um número de seguro social (SSN) é um número de nove dígitos emitido para cidadãos dos EUA, residentes permanentes e residentes temporários a trabalho. O Amazon Transcribe também reconhece números de previdência social quando apenas os últimos quatro dígitos estão presentes. |
Você pode iniciar um trabalho de transcrição em lote usando o Console de gerenciamento da AWS, a AWS CLI ou o SDK da AWS.
-
Faça login no Console de gerenciamento da AWS
. -
No painel de navegação, escolha Tarefas de transcrição e selecione Criar tarefa (no canto superior direito). Isso abrirá a página Especificar os detalhes da tarefa.
-
Depois de preencher os campos desejados na página Especificar os detalhes da tarefa, selecione Próximo para ir até a página Configurar tarefa - opcional. Ali você encontrará o painel de Remoção de conteúdo com o botão Edição de PII.
-
Depois de selecionar Edição de PII, você tem a opção de escolher todos os tipos de PII que deseja editar. Você também pode optar por ter uma transcrição não editada se selecionar a caixa Incluir transcrição sem ocultação na saída da tarefa.
-
Selecione Criar tarefa para executar a tarefa de transcrição.
Este exemplo usa o comando start-transcription-jobcontent-redaction. Para obter mais informações, consulte StartTranscriptionJob e ContentRedaction.
aws transcribe start-transcription-job \ --regionus-west-2\ --transcription-job-namemy-first-transcription-job\ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac\ --output-bucket-nameamzn-s3-demo-bucket\ --output-keymy-output-files/ \ --language-codeen-US\ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER
Veja a seguir outro exemplo usando o método start-transcription-job
aws transcribe start-transcription-job \ --regionus-west-2\ --cli-input-json file://filepath/my-first-redaction-job.json
O arquivo my-first-redaction-job.json contém o corpo de solicitação a seguir.
{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }
Este exemplo usa o AWS SDK para Python (Boto3) para editar o conteúdo usando o argumento ContentRedaction para o método start_transcription_jobStartTranscriptionJob e ContentRedaction.
Para ver exemplos adicionais de uso dos SDKs da AWS, bem como exemplos específicos de recursos, cenários e entre serviços, consulte o capítulo Exemplos de código para o Amazon Transcribe usando SDKs da AWS.
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
nota
A edição de PII para trabalhos em lote é possível apenas nestas Regiões da AWS: Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Seul), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), GovCloud (Oeste dos EUA), Canadá (Central), UE (Frankfurt), UE (Irlanda), UE (Londres), UE (Paris), Oriente Médio (Bahrein), América do Sul (São Paulo), Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon) e Oeste dos EUA (Norte da Califórnia).