Ereignisdatensatz - Amazon Fraud Detector

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Ereignisdatensatz

Bei einem Ereignisdatensatz handelt es sich um historische Betrugsdaten für Ihr Unternehmen. Sie stellen diese Daten Amazon Fraud Detector zur Verfügung, um Modelle zur Betrugserkennung zu erstellen.

Amazon Fraud Detector verwendet Modelle für maschinelles Lernen, um Betrugsprognosen zu generieren. Jedes Modell wird anhand eines Modelltyps trainiert. Der Modelltyp spezifiziert die Algorithmen und Transformationen, die für das Training des Modells verwendet werden. Beim Modelltraining wird anhand eines von Ihnen bereitgestellten Datensatzes ein Modell erstellt, mit dem betrügerische Ereignisse vorhergesagt werden können. Weitere Informationen finden Sie unter So funktioniert Amazon Fraud Detector

Der Datensatz, der zur Erstellung eines Modells zur Betrugserkennung verwendet wurde, enthält Einzelheiten zu einem Ereignis. Ein Ereignis ist eine geschäftliche Aktivität, die auf Betrugsrisiken überprüft wird. Beispielsweise kann eine Kontoregistrierung ein Ereignis sein. Bei den mit der Kontoregistrierung verbundenen Daten kann es sich um einen Ereignisdatensatz handeln. Amazon Fraud Detector verwendet diesen Datensatz, um Betrug bei der Kontoregistrierung zu bewerten.

Bevor Sie Amazon Fraud Detector Ihren Datensatz zur Erstellung eines Modells zur Verfügung stellen, müssen Sie Ihr Ziel für die Erstellung des Modells definieren. Sie müssen auch festlegen, wie Sie das Modell verwenden möchten, und Ihre Metriken definieren, um anhand Ihrer spezifischen Anforderungen zu bewerten, ob das Modell funktioniert.

Ihre Ziele bei der Erstellung eines Modells zur Betrugserkennung, das Betrug bei der Kontoregistrierung bewertet, können beispielsweise folgende sein:

  • Um legitime Registrierungen automatisch zu genehmigen.

  • Um betrügerische Registrierungen für spätere Untersuchungen zu erfassen.

Nachdem Sie Ihr Ziel festgelegt haben, müssen Sie im nächsten Schritt entscheiden, wie Sie das Modell verwenden möchten. Im Folgenden finden Sie einige Beispiele für die Verwendung des Modells zur Betrugserkennung zur Bewertung von Registrierungsbetrug:

  • Zur Betrugserkennung in Echtzeit bei jeder Kontoregistrierung.

  • Zur stündlichen Offline-Auswertung aller Kontoregistrierungen.

Nachfolgend einige Beispiele für Kennzahlen, mit denen die Leistung des Modells gemessen werden kann:

  • Die Leistung ist durchweg besser als die aktuelle Ausgangsleistung in der Produktion.

  • Erfasst X% Betrugsregistrierungen und 1% Falschmeldungen.

  • Akzeptiert bis zu 5% der automatisch genehmigten Registrierungen, die betrügerisch sind.

Struktur des Ereignisdatensatzes

Amazon Fraud Detector verlangt, dass Sie Ihren Ereignisdatensatz in einer Textdatei mit kommagetrennten Werten (CSV) im UTF-8-Format angeben. Die erste Zeile Ihrer CSV-Datensatzdatei muss Dateiüberschriften enthalten. Der Datei-Header besteht aus Ereignismetadaten und Ereignisvariablen, die jedes Datenelement beschreiben, das dem Ereignis zugeordnet ist. Auf den Header folgen Ereignisdaten. Jede Zeile besteht aus Datenelementen eines einzelnen Ereignisses.

  • Event-Metadaten — liefern Informationen über das Ereignis. EVENT_TIMESTAMP ist beispielsweise eine Event-Metadate, die den Zeitpunkt angeben, zu dem das Ereignis eingetreten ist. Abhängig von Ihrem geschäftlichen Anwendungsfall und dem Modelltyp, der für die Erstellung und Schulung Ihres Betrugserkennungsmodells verwendet wurde, verlangt Amazon Fraud Detector von Ihnen die Angabe bestimmter Ereignismetadaten. Verwenden Sie bei der Angabe von Event-Metadaten in Ihrem CSV-Datei-Header denselben Namen der Event-Metadaten wie von Amazon Fraud Detector angegeben und verwenden Sie nur Großbuchstaben.

  • Ereignisvariable — stellt die für Ihr Ereignis spezifischen Datenelemente dar, die Sie für die Erstellung und Schulung Ihres Modells zur Betrugserkennung verwenden möchten. Abhängig von Ihrem geschäftlichen Anwendungsfall und dem Modelltyp, der für die Erstellung und Schulung eines Modells zur Betrugserkennung verwendet wurde, verlangt oder empfiehlt Amazon Fraud Detector möglicherweise, dass Sie bestimmte Ereignisvariablen angeben. Sie können optional auch andere Ereignisvariablen für Ihr Ereignis angeben, die Sie in das Training des Modells einbeziehen möchten. Einige Beispiele für Ereignisvariablen für eine Online-Registrierung können E-Mail-Adresse, IP-Adresse und Telefonnummer sein. Wenn Sie den Namen der Ereignisvariablen im Header Ihrer CSV-Datei angeben, verwenden Sie einen beliebigen Variablennamen und verwenden Sie nur Kleinbuchstaben.

  • Ereignisdaten — stellen die Daten dar, die im Rahmen des tatsächlichen Ereignisses gesammelt wurden. In Ihrer CSV-Datei besteht jede Zeile, die dem Datei-Header folgt, aus Datenelementen aus einem einzelnen Ereignis. In einer Datei mit Veranstaltungsdaten für eine Online-Registrierung enthält beispielsweise jede Zeile Daten aus einer einzelnen Registrierung. Jedes Datenelement in der Zeile muss mit den entsprechenden Ereignismetadaten oder der Ereignisvariablen übereinstimmen.

Im Folgenden finden Sie ein Beispiel für eine CSV-Datei, die Daten aus einem Kontoregistrierungsereignis enthält. Die Kopfzeile enthält sowohl Ereignismetadaten in Großbuchstaben als auch Ereignisvariablen in Kleinbuchstaben, gefolgt von den Ereignisdaten. Jede Zeile im Datensatz enthält Datenelemente, die mit der Registrierung eines einzelnen Kontos verknüpft sind, wobei jedes Datenelement der Kopfzeile entspricht.

CSV file showing event metadata and variables with sample data for account registration events.

Rufen Sie die Anforderungen an den Ereignisdatensatz mithilfe des Datenmodell-Explorers ab

Der Modelltyp, den Sie für die Erstellung Ihres Modells wählen, definiert die Anforderungen für Ihren Datensatz. Amazon Fraud Detector verwendet den von Ihnen bereitgestellten Datensatz, um Ihr Betrugserkennungsmodell zu erstellen und zu trainieren. Bevor Amazon Fraud Detector mit der Erstellung Ihres Modells beginnt, prüft es, ob der Datensatz die Größe, das Format und andere Anforderungen erfüllt. Wenn der Datensatz die Anforderungen nicht erfüllt, schlagen die Modellerstellung und das Training fehl. Sie können den Datenmodell-Explorer verwenden, um einen Modelltyp zu identifizieren, den Sie für Ihren Geschäftsanwendungsfall verwenden möchten, und um Einblicke in die Datensatzanforderungen für den identifizierten Modelltyp zu gewinnen.

Datenmodell-Explorer

Der Datenmodell-Explorer ist ein Tool in der Amazon Fraud Detector-Konsole, das Ihren geschäftlichen Anwendungsfall mit dem von Amazon Fraud Detector unterstützten Modelltyp abstimmt. Der Datenmodell-Explorer bietet auch Einblicke in die Datenelemente, die Amazon Fraud Detector benötigt, um Ihr Betrugserkennungsmodell zu erstellen. Bevor Sie mit der Vorbereitung Ihres Ereignisdatensatzes beginnen, verwenden Sie den Datenmodell-Explorer, um herauszufinden, welchen Modelltyp Amazon Fraud Detector für Ihre geschäftliche Nutzung empfiehlt, und um eine Liste der obligatorischen, empfohlenen und optionalen Datenelemente anzuzeigen, die Sie zur Erstellung Ihres Datensatzes benötigen.

Um den Datenmodell-Explorer zu verwenden,
  1. Öffnen Sie die AWS Management Console und melden Sie sich bei Ihrem Konto an. Navigieren Sie zu Amazon Fraud Detector.

  2. Wählen Sie im linken Navigationsbereich Data Models Explorer aus.

  3. Wählen Sie auf der Seite Datenmodell-Explorer unter Geschäftlicher Anwendungsfall den Geschäftsanwendungsfall aus, den Sie im Hinblick auf das Betrugsrisiko bewerten möchten.

  4. Amazon Fraud Detector zeigt den empfohlenen Modelltyp an, der zu Ihrem geschäftlichen Anwendungsfall passt. Der Modelltyp definiert die Algorithmen, Erweiterungen und Transformationen, die Amazon Fraud Detector verwendet, um Ihr Betrugserkennungsmodell zu trainieren.

    Notieren Sie sich den empfohlenen Modelltyp. Sie benötigen ihn später, wenn Sie Ihr Modell erstellen.

    Anmerkung

    Wenn Sie Ihren geschäftlichen Anwendungsfall nicht finden, verwenden Sie den Link „Kontaktieren Sie uns“ in der Beschreibung, um uns die Details Ihres geschäftlichen Anwendungsfalls mitzuteilen. Wir empfehlen Ihnen den Modelltyp, den Sie für die Erstellung eines Modells zur Betrugserkennung für Ihren geschäftlichen Anwendungsfall verwenden möchten.

  5. Der Bereich Einblicke in das Datenmodell bietet Einblick in die obligatorischen, empfohlenen und optionalen Datenelemente, die für die Erstellung und Schulung eines Modells zur Betrugserkennung für Ihren geschäftlichen Anwendungsfall erforderlich sind. Verwenden Sie die Informationen im Bereich Einblicke, um Ihre Ereignisdaten zu sammeln und Ihren Datensatz zu erstellen.

Sammeln Sie Veranstaltungsdaten

Das Sammeln Ihrer Ereignisdaten ist ein wichtiger Schritt bei der Erstellung Ihres Modells. Dies liegt daran, dass die Leistung Ihres Modells bei der Vorhersage von Betrug von der Qualität Ihres Datensatzes abhängt. Denken Sie bei der Erfassung Ihrer Ereignisdaten an die Liste der Datenelemente, die Ihnen der Datenmodell-Explorer für die Erstellung Ihres Datensatzes bereitgestellt hat. Sie müssen alle obligatorischen Daten (Event-Metadaten) sammeln und anhand Ihrer Ziele bei der Modellerstellung entscheiden, welche empfohlenen und optionalen Datenelemente (Ereignisvariablen) Sie einbeziehen möchten. Es ist auch wichtig, das Format der einzelnen Ereignisvariablen, die Sie einbeziehen möchten, und die Gesamtgröße Ihres Datensatzes festzulegen.

Qualität der Ereignisdatensätze

Um qualitativ hochwertige Datensätze für Ihr Modell zu sammeln, empfehlen wir Folgendes:

  • Sammeln Sie ausgereifte Daten — Die Verwendung der neuesten Daten hilft dabei, das neueste Betrugsmuster zu identifizieren. Um jedoch Betrugsfälle zu erkennen, sollten Sie die Daten erst reifen lassen. Die Laufzeit hängt von Ihrem Unternehmen ab und kann zwischen zwei Wochen und drei Monaten liegen. Wenn Ihre Veranstaltung beispielsweise eine Kreditkartentransaktion beinhaltet, kann die Fälligkeit der Daten von der Rückbuchungsfrist der Kreditkarte oder der Zeit abhängen, die ein Prüfer benötigt, um eine Entscheidung zu treffen.

    Stellen Sie sicher, dass der Datensatz, der zum Trainieren des Modells verwendet wurde, ausreichend Zeit hatte, um Ihren Anforderungen gerecht zu werden.

  • Stellen Sie sicher, dass die Datenverteilung nicht erheblich schwankt. Amazon Fraud Detector modelliert den Trainingsprozess und partitioniert Ihren Datensatz auf der Grundlage von EVENT_TIMESTAMP. Wenn Ihr Datensatz beispielsweise aus Betrugsereignissen besteht, die aus den letzten 6 Monaten abgerufen wurden, aber nur legitime Ereignisse des letzten Monats enthalten sind, wird die Datenverteilung als schwankend und instabil angesehen. Ein instabiler Datensatz kann zu Verzerrungen bei der Bewertung der Modellleistung führen. Wenn Sie feststellen, dass die Datenverteilung stark schwankt, sollten Sie erwägen, Ihren Datensatz auszubalancieren, indem Sie Daten sammeln, die der aktuellen Datenverteilung ähneln.

  • Stellen Sie sicher, dass der Datensatz für den Anwendungsfall repräsentativ ist, in dem das Modell implementiert/getestet wird. Andernfalls könnte die geschätzte Leistung verzerrt sein. Nehmen wir an, Sie verwenden ein Modell, mit dem alle internen Bewerber automatisch abgelehnt werden. Ihr Modell wurde jedoch mit einem Datensatz trainiert, der historische Daten/Labels enthält, die zuvor genehmigt wurden. Dann ist die Bewertung Ihres Modells möglicherweise ungenau, da die Bewertung auf dem Datensatz basiert, der keine Angaben von abgelehnten Bewerbern enthält.

Format der Ereignisdaten

Amazon Fraud Detector wandelt die meisten Ihrer Daten im Rahmen seines Modellschulungsprozesses in das erforderliche Format um. Es gibt jedoch einige Standardformate, die Sie problemlos für die Bereitstellung Ihrer Daten verwenden können, um Probleme zu vermeiden, wenn Amazon Fraud Detector Ihren Datensatz später validiert. Die folgende Tabelle enthält Hinweise zu den Formaten für die Bereitstellung der empfohlenen Event-Metadaten.

Anmerkung

Achten Sie beim Erstellen Ihrer CSV-Datei darauf, den Namen der Event-Metadaten wie unten aufgeführt in Großbuchstaben einzugeben.

Name der Metadaten Format Erforderlich

EVENT_ID

Falls angegeben, muss es die folgenden Anforderungen erfüllen:

  • Es ist einzigartig für diese Veranstaltung.

  • Es stellt Informationen dar, die für Ihr Unternehmen von Bedeutung sind.

  • Es folgt dem Muster regulärer Ausdrücke (zum Beispiel ^[0-9a-z_-]+$.)

  • Zusätzlich zu den oben genannten Anforderungen empfehlen wir, keinen Zeitstempel an EVENT_ID anzuhängen. Dies kann zu Problemen führen, wenn Sie das Ereignis aktualisieren. Dies liegt daran, dass Sie in diesem Fall genau dieselbe EVENT_ID angeben müssen.

Hängt vom Modelltyp ab

EVENT_TIMESTAMP

  • Es muss in einem der folgenden Formate angegeben werden:

    • %yyyy-%mm-%ddt%HH: %mm: %sSz (ISO 8601-Standard nur in UTC ohne Millisekunden)

      Beispiel: 2019-11-30T 13:01:01 Z

    • %yyyy/%mm/%dd %hh: %mm: %ss (AM/PM)

      Beispiele: 30.11.2019 13:01:01 Uhr oder 30.11.2019 13:01:01

    • %mm/%dd/%yyyy %hh: %mm: %ss

      Beispiele: 30.11.2019 13:01:01 Uhr, 30.11.2019 13:01:01

    • %mm/%dd/%yy %hh: %mm: %ss

      Beispiele: 30.11.19 13:01:01 Uhr, 30.11.19 13:01:01

  • Amazon Fraud Detector geht bei der Analyse von Datums- und Zeitstempelformaten für Ereigniszeitstempel von den folgenden Annahmen aus:

    • Wenn Sie den ISO 8601-Standard verwenden, muss dieser exakt mit der vorherigen Spezifikation übereinstimmen

    • Wenn Sie eines der anderen Formate verwenden, gibt es zusätzliche Flexibilität:

      • Für Monate und Tage können Sie ein- oder zweistellige Zahlen angeben. Zum Beispiel ist der 12.01.2019 ein gültiges Datum.

      • Sie müssen hh:mm:ss nicht angeben, wenn Sie sie nicht haben (das heißt, Sie können einfach ein Datum angeben). Sie können auch nur eine Teilmenge von Stunden und Minuten angeben (z. B. hh:mm). Die bloße Angabe von Stunden wird nicht unterstützt. Millisekunden werden ebenfalls nicht unterstützt.

      • Wenn Sie AM/PM labels, a 12-hour clock is assumed. If there is no AM/PM Informationen angeben, wird von einer 24-Stunden-Uhrzeit ausgegangen.

      • Sie können „/“ oder „-“ als Trennzeichen für die Datumselemente verwenden. Für die Zeitstempelelemente wird „:“ vorausgesetzt.

Ja

ENTITY_ID

  • Es muss dem Muster für reguläre Ausdrücke folgen:. ^[0-9A-Za-z_.@+-]+$

  • Wenn die Entitäts-ID zum Zeitpunkt der Auswertung nicht verfügbar ist, geben Sie die Entitäts-ID als unbekannt an.

Hängt vom Modelltyp ab

ENTITY_TYPE

Sie können eine beliebige Zeichenfolge verwenden

Hängt vom Modelltyp ab

EVENT_LABEL

Sie können beliebige Labels verwenden, z. B. „Betrug“, „legitim“, „1" oder „0".

Erforderlich, wenn LABEL_TIMESTAMP enthalten ist

LABEL_TIMESTAMP

Es muss dem Timestamp-Format entsprechen.

Erforderlich, wenn EVENT_LABEL enthalten ist

Hinweise zu Ereignisvariablen finden Sie unter Variablen.

Wichtig

Wenn Sie ein Account Takeover Insights (ATI) -Modell erstellen, finden Sie weitere Informationen Vorbereiten von Daten zur Vorbereitung und Auswahl von Daten unter.

Null oder fehlende Werte

Die Variablen EVENT_TIMESTAMP und EVENT_LABEL dürfen keine Nullwerte oder fehlenden Werte enthalten. Sie können Nullwerte oder fehlende Werte für andere Variablen angeben. Wir empfehlen jedoch, nur eine kleine Anzahl von Nullen für diese Variablen zu verwenden. Wenn Amazon Fraud Detector feststellt, dass zu viele Nullwerte oder fehlende Werte für eine Ereignisvariable vorhanden sind, wird die Variable automatisch aus Ihrem Modell ausgelassen.

Minimale Variablen

Wenn Sie Ihr Modell erstellen, muss der Datensatz zusätzlich zu den erforderlichen Ereignismetadaten mindestens zwei Ereignisvariablen enthalten. Die beiden Ereignisvariablen müssen die Gültigkeitsprüfung bestehen.

Größe des Ereignisdatensatzes

Erforderlich

Ihr Datensatz muss die folgenden Grundvoraussetzungen für ein erfolgreiches Modelltraining erfüllen.

  • Daten von mindestens 100 Ereignissen.

  • Der Datensatz muss mindestens 50 Ereignisse (Zeilen) enthalten, die als betrügerisch eingestuft wurden.

Empfohlen

Für ein erfolgreiches Modelltraining und eine gute Modellleistung empfehlen wir, dass Ihr Datensatz Folgendes umfasst.

  • Schließen Sie historische Daten für mindestens drei Wochen ein, bestenfalls jedoch Daten für sechs Monate.

  • Geben Sie mindestens 10.000 Gesamtdaten zu Ereignissen an.

  • Geben Sie mindestens 400 Ereignisse (Zeilen) an, die als betrügerisch eingestuft wurden, und 400 Ereignisse (Zeilen), die als legitim eingestuft wurden.

  • Schließen Sie mehr als 100 eindeutige Entitäten ein, wenn Ihr Modelltyp ENTITY_ID erfordert.

Validierung von Datensätzen

Bevor Amazon Fraud Detector mit der Erstellung Ihres Modells beginnt, prüft es, ob die im Datensatz enthaltenen Variablen für das Training des Modells die Größe, das Format und andere Anforderungen erfüllen. Wenn der Datensatz die Validierung nicht besteht, wird das Modell nicht erstellt. Sie müssen zuerst die Variablen korrigieren, die die Validierung nicht bestanden haben, bevor Sie das Modell erstellen. Amazon Fraud Detector bietet Ihnen einen Datenprofiler, mit dem Sie Probleme mit Ihrem Datensatz identifizieren und beheben können, bevor Sie mit dem Training Ihres Modells beginnen.

Datenprofiler

Amazon Fraud Detector bietet ein Open-Source-Tool zur Profilerstellung und Vorbereitung Ihrer Daten für das Modelltraining. Dieser automatisierte Datenprofiler hilft Ihnen dabei, häufige Fehler bei der Datenvorbereitung zu vermeiden und potenzielle Probleme wie falsch zugeordnete Variablentypen zu identifizieren, die sich negativ auf die Modellleistung auswirken würden. Der Profiler generiert einen intuitiven und umfassenden Bericht über Ihren Datensatz, der Variablenstatistiken, Labelverteilung, kategoriale und numerische Analysen sowie Variablen- und Labelkorrelationen umfasst. Es bietet Anleitungen zu Variablentypen sowie eine Option zur Umwandlung des Datensatzes in ein Format, das Amazon Fraud Detector benötigt.

Verwenden Sie den Data Profiler

Der automatisierte Datenprofiler besteht aus einem AWS CloudFormation Stack, den Sie mit wenigen Klicks einfach starten können. Alle Codes sind auf Github verfügbar. Informationen zur Verwendung von Data Profiler finden Sie in unserem Blog Trainieren Sie Modelle schneller mit einem automatisierten Datenprofiler für Amazon Fraud Detector

Häufige Fehler im Ereignisdatensatz

Im Folgenden sind einige der häufigsten Probleme aufgeführt, auf die Amazon Fraud Detector bei der Validierung eines Ereignisdatensatzes stößt. Nachdem Sie den Data Profiler ausgeführt haben, verwenden Sie diese Liste, um Ihren Datensatz auf Fehler zu überprüfen, bevor Sie Ihr Modell erstellen.

  • Die CSV-Datei hat nicht das UTF-8-Format.

  • Die Anzahl der Ereignisse im Datensatz beträgt weniger als 100.

  • Die Anzahl der Ereignisse, die als betrügerisch oder legitim eingestuft wurden, liegt unter 50.

  • Die Anzahl der eindeutigen Entitäten, die mit einem Betrugsereignis verknüpft sind, liegt unter 100.

  • Mehr als 0,1% der Werte in EVENT_TIMESTAMP enthalten Nullwerte oder andere Werte als die unterstützten Datums-/Zeitstempelformate.

  • Mehr als 1% der Werte in EVENT_LABEL enthalten Nullen oder Werte, die nicht im Ereignistyp definiert sind.

  • Für das Modelltraining stehen weniger als zwei Variablen zur Verfügung.

Speicherung von Datensätzen

Nachdem Sie Ihren Datensatz erfasst haben, speichern Sie ihn intern mit Amazon Fraud Detector oder extern mit Amazon Simple Storage Service (Amazon S3). Wir empfehlen Ihnen, den Speicherort Ihres Datensatzes auf der Grundlage des Modells auszuwählen, das Sie für die Erstellung von Betrugsprognosen verwenden. Weitere Informationen zu Modelltypen finden Sie unter Wählen Sie einen Modelltyp. Weitere Informationen zum Speichern Ihres Datensatzes finden Sie unterSpeicherung von Ereignisdaten.