リアルタイムストリームの PII の編集または識別 - Amazon Transcribe

リアルタイムストリームの PII の編集または識別

ストリーミング文字起こしから個人を特定できる情報 (PII) を編集する場合、Amazon Transcribe は、お客様のトランスクリプトに特定された PII の各インスタンスを [PII] に置き換えます。

ストリーミング文字起こしに使用できる追加オプションとして、PII 識別があります。PII 識別を有効にすると、Amazon Transcribe は、文字起こし結果の PII を Entities オブジェクトの下にラベル付けします。出力サンプルについては、「編集済みストリーミング出力の例」と「PII 識別の出力例」を参照してください。

ストリーミング文字起こしによる PII の編集と識別は、スコットランド語 (en-AB)、オーストラリア (en-AU)、カナダ (en-CA)、英国 (en-GB)、アイルランド (en-IE)、インド (en-IN)、ニュージーランド (en-NZ)、米国 (en-US)、ウェールズ (en-WL)、南アフリカ (en-ZA)、スペイン語方言: 米国 (es-US)、スペイン (es-ES)、フランス語方言: フランス語 (fr-FR)、カナダ (fr-CA)、ポルトガル方言: ポルトガル (pt-PT)、ブラジル (pt-BR)、イタリア方言: イタリア (it-IT)、ドイツ方言: ドイツ (de-DE)、スイス (de-CH) で利用できます。

ストリーミングジョブの PII 識別とリダクションは、音声セグメントの完全な文字起こし時にのみ実行されます。

ストリーミング文字起こしで認識できる PII Amazon Transcribe のタイプ
PII タイプ 説明
ADDRESS

実際の住所、米国、エニータウン市。メインストリート 100 番地や、ビル 123 番、スイート 12 番など。住所には、通り、ビル、場所、市区町村、州、国、郡、郵便番号、管区、近隣などを含めることができます。

ALL

この表に記載されているすべての PII のタイプを編集または特定します。

BANK_ACCOUNT_NUMBER

米国の銀行口座番号 この番号は通常 10~12 桁の長さですが、Amazon Transcribe は下 4 桁のみの銀行口座番号も認識します。

BANK_ROUTING

米国の銀行口座の支店コード この番号は通常 9 桁の長さですが、Amazon Transcribe は下 4 桁のみの支店コードも認識します。

CREDIT_DEBIT_CVV

VISA、MasterCard、Discover のクレジットカードとデビットカードに記載されている 3 桁のカード確認コード (CVV)。American Express のクレジットカードまたはデビットカードでは、4 桁の数字コードです。

CREDIT_DEBIT_EXPIRY

クレジットカードまたはデビットカードの有効期限日 この番号は通常 4 桁で、「月/年」または「MM/YY」という形式になっています。たとえば、Amazon Transcribe は 01/2101/2021Jan 2021などの有効期限を認識できます。

CREDIT_DEBIT_NUMBER

クレジットカードまたはデビットカードの番号。これらの番号は 13 桁から 16 桁までさまざまですが、Amazon Transcribe は下 4 桁だけでもクレジットカード番号またはデビットカード番号を認識できます。

EMAIL

efua.owusu@email.com などのメールアドレス。

NAME

個人の名前。このエンティティタイプには、Mr.、Mrs.、Miss.、Dr.などの肩書きは含まれません。Amazon Transcribe は、組織や住所の一部である名前にこのエンティティタイプを適用しません。たとえば、Amazon Transcribe は、John Doe Organization を組織として認識し、Jane Doe Street を住所として認識します。

PHONE

電話番号 このエンティティタイプには、ファックス番号とポケットベル番号も含まれます。

PIN

銀行口座情報へのアクセスを可能にする 4 桁の個人識別番号 (PIN)。

SSN

社会保障番号 (SSN) は、米国市民、永住者、および一時的就労者に発行される 9 桁の番号です。Amazon Transcribe は、下 4 桁のみがしかない場合でも、社会保障番号を認識します。

AGE

個人の年齢 (時間の数値や単位を含む)。例えば、「私は 40 歳です」というフレーズでは、Amazon Transcribe は「40 歳」を年齢として認識します。

DATE_TIME

日付には、年、月、日、曜日、または時刻を含めることができます。例えば、Amazon Transcribe は「2020 年 1 月 19 日」または「午前 11 時」を日付として認識します。Amazon Transcribe は部分的な日付、日付範囲、時間間隔を認識します。また「the 1990s(1990 年代)」などの 10 年間も認識されます。

LICENSE_PLATE

車両のナンバープレートは、車両が登録されている州または国によって発行されます。乗用車の形式は通常 5 ~ 8 桁で、大文字と数字で構成されます。形式は発行国または国の所在地によって異なります。

PASSPORT_NUMBER

個人のパスポートに割り当てられた一意の識別子。形式は通常、文字と数字の組み合わせを含み、国によって異なります。

PASSWORD

「*very20special#pass*」のように、パスワードとして使用される英数字の文字列。

USERNAME

ログイン名、スクリーンネーム、ニックネーム、ハンドル名など、アカウントを識別するユーザー名。

VEHICLE_IDENTIFICATION_NUMBER

車両識別番号 (VIN) は、車両を一意に識別します。VIN の内容と形式は ISO 3779 仕様で定義されています。VIN のコードと形式は国ごとに異なります。

AWS マネジメントコンソール、WebSocket、HTTP/2 でストリーミングの文字起こしを開始できます。

  1. AWS マネジメントコンソール にサインインします。

  2. ナビゲーションペインで、[リアルタイム文字起こし] を選択します。コンテンツ削除の設定 にスクロールして、最小化されている場合はこのフィールドを展開します。

    Amazon Transcribe コンソールのスクリーンショット:「リアルタイム文字起こし」ページ。
  3. PII の識別とリダクション」をオンに切り替えます。

    Amazon Transcribe コンソールのスクリーンショット: 展開された「コンテンツ削除設定」パネル。
  4. 識別のみ」または「識別とリダクション」を選択し、トランスクリプトで識別または編集したい PII エンティティタイプを選択します。

    Amazon Transcribe コンソールのスクリーンショット: 選択できる PII タイプのリスト。
  5. これで、ストリームを書き起こす準備ができました。[ストリーミングを開始する] を選択し、話し始めます。ディクテーションを終了するには、[ストリーミングを停止する] を選択します。

この例では、WebSocket ストリームで PII リダクション (または PII 識別) を使用する署名付き URL を作成します。読みやすくするために、改行が追加されています。Amazon Transcribe での WebSocket ストリームの使用の詳細については、「WebSocket ストリームの設定」を参照してください。パラメータの詳細については、「StartStreamTranscription」を参照してください。

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket? &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=string &X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date &language-code=en-US &media-encoding=flac &sample-rate=16000 &pii-entity-types=NAME,ADDRESS &content-redaction-type=PII (or &content-identification-type=PII)

同じリクエストで content-identification-typecontent-redaction-type 両方を使用することはできません。

パラメータの定義は API リファレンスにあり、すべての AWS API オペレーションに共通するパラメータは「共通パラメータ」セクションに記載されています。

この例では、PII 識別または PII リダクションを有効にした状態で HTTP/2 リクエストを作成します。Amazon Transcribe で HTTP/2 ストリーミングを使用する際の詳細については、「HTTP/2 ストリームの設定」を参照してください。Amazon Transcribe に固有のパラメータとヘッダーの詳細については、「StartStreamTranscription」を参照してください。

POST /stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription Content-Type: application/vnd.amazon.eventstream X-Amz-Content-Sha256: string X-Amz-Date: 20220208T235959Z Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string x-amzn-transcribe-language-code: en-US x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-content-identification-type: PII (or x-amzn-transcribe-content-redaction-type: PII) x-amzn-transcribe-pii-entity-types: NAME,ADDRESS transfer-encoding: chunked

同じリクエストで content-identification-typecontent-redaction-type 両方を使用することはできません。

パラメータの定義は API リファレンスにあり、すべての AWS API オペレーションに共通するパラメータは「共通パラメータ」セクションに記載されています。

注記

ストリーミングのための PII リダクションは、以下の AWS リージョン でのみサポートされています: アジアパシフィック (ソウル)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、米国東部 (バージニア北部)、米国東部 (オハイオ)、および米国西部 (オレゴン)。