Erkennung von PII-Entitäten - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erkennung von PII-Entitäten

Sie können Amazon Comprehend verwenden, um PII-Entitäten in englischen oder spanischen Textdokumenten zu erkennen. Eine PII-Entität ist eine bestimmte Art von personenbezogenen Daten (PII). Verwenden Sie die PII-Erkennung, um die PII-Entitäten zu lokalisieren oder die PII-Entitäten im Text zu schwärzen.

Suchen Sie nach PII-Entitäten

Um die PII-Entitäten in Ihrem Text zu finden, können Sie mithilfe von Echtzeitanalysen schnell ein einzelnes Dokument analysieren. Sie können auch einen asynchronen Batch-Job für eine Sammlung von Dokumenten starten.

Sie können die Konsole oder die API für die Echtzeitanalyse eines einzelnen Dokuments verwenden. Ihr Eingabetext kann bis zu 100 Kilobyte an UTF-8-kodierten Zeichen enthalten.

Sie können beispielsweise den folgenden Eingabetext einreichen, um die PII-Entitäten zu finden:

Hallo Paulo Santos. Der letzte Kontoauszug für Ihr Kreditkartenkonto 1111-0000-1111-0000 wurde an 123 Any Street, Seattle, WA 98109 gesendet.

Die Ausgabe enthält die Information, dass „Paul Santos“ den Typ hat, „1111-0000-1111-0000" den Typ hat und „123 Any StreetNAME, Seattle, WA 98109" den Typ hat. CREDIT_DEBIT_NUMBER ADDRESS

Amazon Comprehend gibt eine Liste der erkannten PII-Entitäten mit den folgenden Informationen für jede PII-Entität zurück:

  • Ein Wert, der die Wahrscheinlichkeit schätzt, dass es sich bei der erkannten Textspanne um den erkannten Entitätstyp handelt.

  • Der PII-Entitätstyp.

  • Die Position der PII-Entität im Dokument, angegeben als Zeichenversätze für den Anfang und das Ende der Entität.

Beispielsweise erzeugt der zuvor erwähnte Eingabetext die folgende Antwort:

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

PII-Entitäten redigieren

Um die PII-Entitäten in Ihrem Text zu schwärzen, können Sie die Konsole oder die API verwenden, um einen asynchronen Batch-Job zu starten. Amazon Comprehend gibt eine Kopie des eingegebenen Textes mit Schwärzungen für jede PII-Entität zurück.

Sie können beispielsweise den folgenden Eingabetext einreichen, um die PII-Entitäten zu redigieren:

Hallo Paulo Santos. Der letzte Kontoauszug für Ihr Kreditkartenkonto 1111-0000-1111-0000 wurde an 123 Any Street, Seattle, WA 98109 gesendet.

Die Ausgabedatei enthält den folgenden Text:

Hallo ***** ******. Die letzte Abrechnung für Ihr Kreditkartenkonto ******************* wurde per Post an *** *** ******* ******** ** ***** gesendet.

Universelle PII-Entitätstypen

Einige PII-Entitätstypen sind universal (nicht spezifisch für einzelne Länder), wie E-Mail-Adressen und Kreditkartennummern. Amazon Comprehend erkennt die folgenden Typen von universellen PII-Entitäten:

ADDRESS

Eine physische Adresse, z. B. 100 Main Street, Anytown, USA oder Suite #12, Gebäude 123. Eine Adresse kann eine Straße, ein Gebäude, einen Ort, eine Stadt, ein Bundesland, ein Land, ein Landkreis, eine Postleitzahl, einen Bezirk und eine Nachbarschaft beinhalten.

AGE

Das Alter einer Person, einschließlich Menge und Zeiteinheit. In dem Satz „Ich bin 40 Jahre alt“ erkennt Amazon Comprehend beispielsweise „40 Jahre“ als Alter an.

AWS_ACCESS_SCHLÜSSEL

Eine eindeutige Kennung, die einem geheimen Zugriffsschlüssel zugeordnet ist. Sie verwenden die Zugriffsschlüssel-ID und den geheimen Zugriffsschlüssel, um programmatische AWS Anfragen kryptografisch zu signieren.

AWS_SECRET_SCHLÜSSEL

Eine eindeutige ID, die einem Zugriffsschlüssel zugeordnet ist. Sie verwenden die Zugriffsschlüssel-ID und den geheimen Zugriffsschlüssel, um programmatische AWS Anfragen kryptografisch zu signieren.

CREDIT_DEBIT_CVV

Ein dreistelliger Kartenbestätigungscode (CVV), der auf Kredit- und Debitkarten von VISA und Discover vorhanden ist. MasterCard Bei American Express-Kredit- oder Debitkarten handelt es sich um einen 4-stelligen Zahlencode.

CREDIT_DEBIT_EXPIRY

Das Ablaufdatum einer Kredit- oder Debitkarte. Diese Zahl ist normalerweise vierstellig und wird oft als oder MM/YY formatiert. month/year Amazon Comprehend erkennt Ablaufdaten wie den 21. Januar, den Januar 2021 und den Januar 2021.

CREDIT_DEBIT_NUMBER

Die Nummer einer Kredit- oder Debitkarte. Diese Nummern können zwischen 13 und 16 Ziffern lang sein. Amazon Comprehend erkennt jedoch auch Kredit- oder Debitkartennummern, wenn nur die letzten vier Ziffern vorhanden sind.

DATE_TIME

Ein Datum kann ein Jahr, einen Monat, einen Tag, einen Wochentag oder eine Tageszeit enthalten. Amazon Comprehend erkennt beispielsweise „19. Januar 2020“ oder „11 Uhr“ als Daten. Amazon Comprehend erkennt Teildaten, Datumsbereiche und Datumsintervalle. Es erkennt auch Jahrzehnte wie „die 1990er“.

DRIVER_ID

Die Nummer, die einem Führerschein zugewiesen ist. Dabei handelt es sich um ein offizielles Dokument, das es einer Person ermöglicht, ein oder mehrere motorisierte Fahrzeuge auf einer öffentlichen Straße zu fahren. Eine Führerscheinnummer besteht aus alphanumerischen Zeichen.

EMAIL

Eine E-Mail-Adresse, z. B. marymajor@email.com.

INTERNATIONAL_BANK_ACCOUNT_NUMBER

Eine internationale Bankkontonummer hat in jedem Land spezifische Formate. Weitere Informationen finden Sie unter www.iban.com/structure.

IP_ADDRESS

Eine IPv4 Adresse, z. B. 198.51.100.0.

LICENSE_PLATE

Ein Nummernschild für ein Fahrzeug wird von dem Staat oder Land ausgestellt, in dem das Fahrzeug registriert ist. Das Format für Personenkraftwagen besteht in der Regel aus fünf bis acht Zeichen, mit Großbuchstaben gefolgt von Ziffern. Das Format variiert je nach Standort des ausstellenden Staates oder Landes.

MAC_ADRESS

Eine MAC-Adresse (Media Access Control) ist eine eindeutige Kennung, die einem Network Interface Controller (NIC) zugewiesen ist.

NAME

Der Name einer Person. Dieser Entitätstyp umfasst keine Titel, wie Dr., Herr, Frau oder Fräulein. Amazon Comprehend wendet diesen Entitätstyp nicht auf Namen an, die Teil von Organisationen oder Adressen sind. Amazon Comprehend erkennt beispielsweise die „John Doe Organization“ als Organisation und „Jane Doe Street“ als Adresse an.

PASSWORD

Eine alphanumerische Zeichenfolge, die als Passwort verwendet wird, z. B. „*very20special#pass*“.

PHONE

Eine Telefonnummer. Dieser Entitätstyp umfasst auch Fax- und Pager-Nummern.

PIN

Eine vierstellige persönliche Identifikationsnummer (PIN), mit der Sie Zugang zu Ihrem Bankkonto erhalten.

SWIFT_CODE

Ein SWIFT-Code ist ein Standardformat für den Bank Identifier Code (BIC), der zur Angabe einer bestimmten Bank oder Filiale verwendet wird. Banken verwenden diese Codes für Geldbewegungen wie internationale Überweisungen.

SWIFT-Codes bestehen aus acht oder 11 Zeichen. Die 11-stelligen Codes beziehen sich auf bestimmte Filialen, während sich achtstellige Codes (oder 11-stellige Codes, die auf „XXX“ enden) auf den Hauptsitz oder die Hauptniederlassung beziehen.

URL

Eine Webadresse, z. B. www.example.com.

Die Datei „snowball-adapter.config“ enthält die Konfigurationseinstellungen für den Adapter.

Ein Benutzername, der ein Konto identifiziert, wie etwa ein Login-Name, Bildschirmname, Spitzname oder Handle.

VEHICLE_IDENTIFICATION_NUMBER

Eine Fahrgestellnummern (VIN) identifiziert ein Fahrzeug eindeutig. Inhalt und Format der Fahrgestellnummer sind in der Spezifikation ISO 3779 definiert. Jedes Land hat spezifische Codes und Formate für. VINs

Länderspezifische PII-Entitätstypen

Einige PII-Entitätstypen sind länderspezifisch, z. B. Passnummern und andere von der Regierung ausgestellte Ausweisnummern. Amazon Comprehend erkennt die folgenden Typen von länderspezifischen PII-Entitäten:

CA_HEALTH_NUMBER

Eine kanadische Gesundheitsdienstnummer ist eine 10-stellige eindeutige Kennung, die für den Zugang zu Gesundheitsleistungen erforderlich ist.

CA_SOCIAL_INSURANCE_NUMBER

Eine kanadische Sozialversicherungsnummer (SIN) ist eine neunstellige eindeutige Kennung, die Einzelpersonen für den Zugang zu staatlichen Programmen und Leistungen benötigen.

Die SIN ist als drei Gruppen von drei Ziffern formatiert, z. B. 123-456-789. Eine SIN kann durch ein einfaches Prüfziffernverfahren, den so genannten Luhn-Algorithmus, validiert werden.

IN_AADHAAR

Ein indisches Aadhaar ist eine 12-stellige eindeutige Identifikationsnummer, die von der indischen Regierung an Einwohner Indien vergeben wird. Das Aadhaar-Format hat nach der vierten und achten Ziffer ein Leerzeichen oder einen Bindestrich.

IN_NREGA

Eine Nummer nach dem Indian National Rural Employment Guarantee Act (NREGA) besteht aus zwei Buchstaben, gefolgt von 14 Zahlen.

IN_PERMANENT_ACCOUNT_NUMBER

Eine indische permanente Kontonummer ist eine 10-stellige eindeutige alphanumerische Nummer, die von der Einkommensteuerbehörde ausgestellt wird.

IN_VOTER_NUMBER

Ein indischer Wählerausweis besteht aus drei Buchstaben, gefolgt von sieben Zahlen.

UK_NATIONAL_HEALTH_SERVICE_NUMBER

Eine Nummer des britischen National Health Service ist eine 10- bis 17-stellige Nummer, z. B. 485 777 3456. Das aktuelle System formatiert die 10-stellige Zahl mit Leerzeichen nach der dritten und sechsten Ziffer. Die letzte Ziffer ist eine Prüfsumme zur Fehlererkennung.

Das 17-stellige Zahlenformat enthält Leerzeichen nach der 10. und 13. Ziffer.

UK_NATIONAL_INSURANCE_NUMBER

Eine britische National Insurance Number (NINO) ermöglicht Einzelpersonen den Zugang zu Leistungen der Sozialversicherung. Sie wird auch für einige Zwecke im britischen Steuersystem verwendet.

Die Zahl ist neunstellig und beginnt mit zwei Buchstaben, gefolgt von sechs Zahlen und einem Buchstaben. Eine NINO kann mit einem Leerzeichen oder einem Gedankenstrich nach den beiden Buchstaben und nach der zweiten, vierten und sechsten Ziffer formatiert werden.

UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER

Eine Unique Taxpayer Reference (UTR) für Großbritannien ist eine 10-stellige Zahl, die einen Steuerzahler oder ein Unternehmen identifiziert.

BANKKONTONUMMER

Eine US-amerikanische Bankkontonummer, die in der Regel 10 bis 12 Ziffern lang ist. Amazon Comprehend erkennt auch Bankkontonummern, wenn nur die letzten vier Ziffern vorhanden sind.

BANK_ROUTING

Eine US-Bankleitzahl. Diese sind normalerweise neun Ziffern lang, aber Amazon Comprehend erkennt auch Routing-Nummern, wenn nur die letzten vier Ziffern vorhanden sind.

REISEPASSNUMMER

Eine US-amerikanische Passnummer. Die Passnummern bestehen aus sechs bis neun alphanumerischen Zeichen.

US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

Eine US-amerikanische Steueridentifikationsnummer (ITIN) ist eine neunstellige Zahl, die mit einer „9“ beginnt und eine „7“ oder „8“ als vierte Ziffer enthält. Eine ITIN kann mit einem Leerzeichen oder einem Gedankenstrich nach der dritten und vierten Ziffer formatiert werden.

SSN

Eine US-Sozialversicherungsnummer (SSN) ist eine neunstellige Nummer, die an US-Bürger, Personen mit ständigem Wohnsitz und Personen mit vorübergehendem Wohnsitz in den USA vergeben wird. Amazon Comprehend erkennt auch Sozialversicherungsnummern, wenn nur die letzten vier Ziffern vorhanden sind.