バッチジョブで PII を編集する
バッチ文字起こしジョブ中にトランスクリプトから個人を特定できる情報 (PII) を編集する場合、Amazon Transcribe は、トランスクリプトのテキスト本文において、特定された PII の各インスタンスを [PII] に置き換えます。また、文字起こし出力の単語ごとの部分で、編集された PII の種類を表示することもできます。出力サンプルについては、「編集された出力例 (バッチ)」を参照してください。
米国英語 (en-US) および英国スペイン語 (es-US) では、バッチ文字起こしによるリダクションが可能です。リダクションは言語識別と互換性がありません。
編集されたトランスクリプトと未編集のトランスクリプトの両方が、同じ出力 Amazon S3 バケットに保存されます。Amazon Transcribe は、ユーザーが指定したバケットに保存するか、サービスが管理するデフォルト Amazon S3 バケットに保存します。
| PII タイプ | 説明 |
|---|---|
ADDRESS |
実際の住所、米国、エニータウン市。メインストリート 100 番地や、ビル 123 番、スイート 12 番など。住所には、通り、ビル、場所、市区町村、州、国、郡、郵便番号、管区、近隣などを含めることができます。 |
ALL |
この表に記載されているすべての PII のタイプを編集または特定します。 |
BANK_ACCOUNT_NUMBER |
米国の銀行口座番号 この番号は通常 10~12 桁の長さですが、Amazon Transcribe は下 4 桁のみの銀行口座番号も認識します。 |
BANK_ROUTING |
米国の銀行口座の支店コード この番号は通常 9 桁の長さですが、Amazon Transcribe は下 4 桁のみの支店コードも認識します。 |
CREDIT_DEBIT_CVV |
VISA、MasterCard、Discover のクレジットカードとデビットカードに記載されている 3 桁のカード確認コード (CVV)。American Express のクレジットカードまたはデビットカードでは、4 桁の数字コードです。 |
CREDIT_DEBIT_EXPIRY |
クレジットカードまたはデビットカードの有効期限日 この番号は通常 4 桁で、「月/年」または「MM/YY」という形式になっています。たとえば、Amazon Transcribe は 01/21、01/2021、Jan 2021などの有効期限を認識できます。 |
CREDIT_DEBIT_NUMBER |
クレジットカードまたはデビットカードの番号。これらの番号は 13 桁から 16 桁までさまざまですが、Amazon Transcribe は下 4 桁だけでもクレジットカード番号またはデビットカード番号を認識できます。 |
EMAIL |
efua.owusu@email.com などのメールアドレス。 |
NAME |
個人の名前。このエンティティタイプには、Mr.、Mrs.、Miss.、Dr.などの肩書きは含まれません。Amazon Transcribe は、組織や住所の一部である名前にこのエンティティタイプを適用しません。たとえば、Amazon Transcribe は、John Doe Organization を組織として認識し、Jane Doe Street を住所として認識します。 |
PHONE |
電話番号 このエンティティタイプには、ファックス番号とポケットベル番号も含まれます。 |
PIN |
銀行口座情報へのアクセスを可能にする 4 桁の個人識別番号 (PIN)。 |
SSN |
社会保障番号 (SSN) は、米国市民、永住者、および一時的就労者に発行される 9 桁の番号です。Amazon Transcribe は、下 4 桁だけしかない場合でも、社会保障番号を認識します。 |
AWS マネジメントコンソール、AWS CLI、AWS SDK を使用して、バッチ文字起こしジョブを開始できます。
-
AWS マネジメントコンソール
にサインインします。 -
ナビゲーションペインで、[文字起こしジョブ] を選択後、[ジョブの作成] (右上) を選択します。これにより、ジョブの詳細を指定 ページが開きます。
-
ジョブの詳細を指定する ページで必要な項目を入力したら、[次へ] を選択して、ジョブの設定 - オプション ページに進みます。ここには PII リダクション切り替えが付いたコンテンツ削除パネルがあります。
-
[PII リダクション] を選択すると、編集したいすべての PII タイプを選択するオプションがあります。「未編集のトランスクリプトをジョブ出力に含める」ボックスを選択した場合は、未編集のトランスクリプトを選択することもできます。
-
[ジョブの作成] を選択して、文字起こしジョブを実行します。
この例では、start-transcription-jobcontent-redaction パラメータを使用します。詳細については、「StartTranscriptionJob」および「ContentRedaction」を参照してください。
aws transcribe start-transcription-job \ --regionus-west-2\ --transcription-job-namemy-first-transcription-job\ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac\ --output-bucket-nameamzn-s3-demo-bucket\ --output-keymy-output-files/ \ --language-codeen-US\ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER
以下は start-transcription-job
aws transcribe start-transcription-job \ --regionus-west-2\ --cli-input-json file://filepath/my-first-redaction-job.json
ファイル my-first-redaction-job.json には、次のリクエストボディが含まれています。
{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }
この例では、transstart_transcription_jobContentRedaction 引数で、AWS SDK for Python (Boto3) を使用してコンテンツを編集します。詳細については、「StartTranscriptionJob」および「ContentRedaction」を参照してください。
特徴固有の例、シナリオ例、クロスサービスの例など、AWS SDK を使用するその他の例については、AWS SDK を使用した Amazon Transcribe のコード例 章を参照してください。
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
注記
バッチジョブの PII リダクションは、次の AWS リージョン でのみサポートされています。アジアパシフィック (香港)、アジアパシフィック (ムンバイ)、アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、 GovCloud (米国西部)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (パリ)、中東 (バーレーン)、南米 (サンパウロ)、米国東部 (バージニア北部)、米国東部 (オハイオ州)、米国西部 (オレゴン)、および米国西部 (北カリフォルニア)。