Almacene los datos de los eventos mediante la importación por lotes - Amazon Fraud Detector

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Almacene los datos de los eventos mediante la importación por lotes

Con la función de importación por lotes, puede cargar de forma rápida y sencilla grandes conjuntos de datos de eventos históricos en Amazon Fraud Detector mediante la consola, la API o el SDK de AWS. Para utilizar la importación por lotes, cree un archivo de entrada en formato CSV que contenga todos los datos del evento, suba el archivo CSV al bucket de Amazon S3 e inicie un trabajo de importación. Amazon Fraud Detector primero valida los datos en función del tipo de evento y, a continuación, importa automáticamente todo el conjunto de datos. Una vez importados los datos, están listos para usarse para entrenar nuevos modelos o para volver a entrenar modelos existentes.

Archivos de entrada y salida

El archivo CSV de entrada debe contener encabezados que coincidan con las variables definidas en el tipo de evento asociado, además de cuatro variables obligatorias. Para obtener más información, consulte Prepara los datos del evento para almacenarlos. El tamaño máximo del archivo de datos de entrada es de 20 gigabytes (GB), es decir, unos 50 millones de eventos. La cantidad de eventos variará en función del tamaño del evento. Si el trabajo de importación se realizó correctamente, el archivo de salida está vacío. Si la importación no se realizó correctamente, el archivo de salida contiene los registros de errores.

Cree un archivo CSV

Amazon Fraud Detector importa datos únicamente de archivos que estén en formato de valores separados por comas (CSV). La primera fila del archivo CSV debe contener encabezados de columna que coincidan exactamente con las variables definidas en el tipo de evento asociado, además de cuatro variables obligatorias: EVENT_ID, EVENT_TIMESTAMP, ENTITY_ID y ENTITY_TYPE. Si lo desea, también puede incluir EVENT_LABEL y LABEL_TIMESTAMP (se requiere LABEL_TIMESTAMP si se incluye EVENT_LABEL).

Defina las variables obligatorias

Las variables obligatorias se consideran metadatos de eventos y deben especificarse en mayúsculas. Los metadatos de los eventos se incluyen automáticamente para la formación de modelos. En la siguiente tabla se enumeran las variables obligatorias, la descripción de cada variable y el formato obligatorio para la variable.

Nombre Descripción Requisitos

EVENT_ID

Un identificador del evento. Por ejemplo, si el evento es una transacción en línea, el EVENT_ID podría ser el número de referencia de la transacción que se le proporcionó al cliente.

  • El EVENT_ID es obligatorio para los trabajos de importación por lotes.

  • Debe ser único para ese evento.

  • Debe representar información significativa para su empresa.

  • Debe cumplir con el patrón de expresión regular (por ejemplo, ^[0-9a-z_-]+$.)

  • No se recomienda añadir una marca de tiempo al EVENT_ID. Si lo haces, podrían producirse problemas al actualizar el evento. Esto se debe a que debes proporcionar exactamente el mismo EVENT_ID si lo haces.

EVENT_TIMESTAMP

La marca de tiempo del momento en que ocurrió el evento. La marca de tiempo debe estar en la norma ISO 8601 en UTC.

  • El campo EVENT_TIMESTAMP es obligatorio para los trabajos de importación por lotes.

  • Debe especificarse en uno de los siguientes formatos:

    • %aaay-%mm-%DDt%HH: %mm: %ssZ (estándar ISO 8601 solo en UTC, sin milisegundos)

      Ejemplo: 2019-11-30T 13:01:01 Z

    • %aaay/%mm/%dd %hh: %mm: %ss (AM/PM)

      Ejemplos: 30 de noviembre de 2019 a las 13:01:01 p. m., o 30 de noviembre de 2019 a las 13:01:01

    • %mm/%dd/%aaaa %hh: %mm: %ss

      Ejemplos: 30/11/2019 13:01:01 p.m., 30/11/2019 13:01:01

    • %mm/%dd/%yy %hh: %mm: %ss

      Ejemplos: 30/11/19 13:01:01 p. m., 30/11/19 13:01:01

  • Amazon Fraud Detector hace las siguientes suposiciones al analizar los formatos de fecha y hora de las marcas horarias de los eventos:

    • Si utiliza la norma ISO 8601, debe coincidir exactamente con la especificación anterior

    • Si utiliza uno de los otros formatos, hay flexibilidad adicional:

      • Para meses y días, puede proporcionar un dígito o doble dígito. Por ejemplo, el 1 de diciembre de 2019 es una fecha válida.

      • No necesitas incluir hh:mm:ss si no los tienes (es decir, puedes simplemente indicar una fecha). También puede proporcionar un subconjunto de solo la hora y los minutos (por ejemplo, hh:mm). No se admite el simple hecho de proporcionar una hora. Tampoco se admiten milisegundos.

      • Si proporciona AM/PM labels, a 12-hour clock is assumed. If there is no AM/PM información, se asume un reloj de 24 horas.

      • Puede utilizar «/» o «-» como delimitadores para los elementos de fecha. Se utiliza «:» para los elementos de marca de tiempo.

ENTITY_ID

Un identificador de la entidad que realiza el evento.

  • Se requiere ENTITY_ID para los trabajos de importación por lotes

  • Debe seguir el patrón de expresión regular:. ^[0-9A-Za-z_.@+-]+$

  • Si el identificador de la entidad no está disponible en el momento de la evaluación, especifique el identificador de la entidad como desconocido.

TIPO_ENTIDAD

La entidad que realiza el evento, como un comerciante o un cliente

ENTITY_TYPE es obligatorio para los trabajos de importación por lotes

EVENT_LABEL

Clasifica el evento como o fraudulent legitimate

EVENT_LABEL es obligatorio si se incluye LABEL_TIMESTAMP

LABEL_TIMESTAMP

La marca de tiempo de la última vez que se rellenó o actualizó la etiqueta del evento

  • LABEL_TIMESTAMP es obligatorio si se incluye EVENT_LABEL.

  • Debe seguir el formato de marca de tiempo.

Cargue un archivo CSV a Amazon S3 para importarlo por lotes

Tras crear un archivo CSV con los datos, cárguelo en su bucket de Amazon Simple Storage Service (Amazon S3).

Para cargar datos de eventos a un bucket de Amazon S3
  1. Inicie sesión en la consola de Amazon S3 AWS Management Console y ábrala en https://console.aws.amazon.com/s3/.

  2. Elija Create bucket (Crear bucket).

    Se abrirá el asistente Crear bucket (Crear bucket).

  3. En Bucket name (Nombre del bucket), escriba un nombre compatible con DNS para el bucket.

    El nombre del bucket debe:

    • Ser único en todo Amazon S3.

    • Tener entre 3 y 63 caracteres.

    • No contiene caracteres en mayúsculas.

    • Comenzar por una letra minúscula o un número.

    Una vez que haya creado el bucket, no podrá modificar su nombre. Para obtener información sobre la denominación de los depósitos, consulte las reglas de denominación de los depósitos en la Guía del usuario de Amazon Simple Storage Service.

    importante

    Evite incluir información confidencial, como números de cuenta, en el nombre del bucket. El nombre del depósito está visible en el punto URLs que apunta a los objetos del depósito.

  4. En Región, elige la AWS región en la que quieres que resida el depósito. Debes seleccionar la misma región en la que utilizas Amazon Fraud Detector, es decir, EE.UU. Este (Norte de Virginia), EE.UU. Este (Ohio), EE.UU. Oeste (Oregón), Europa (Irlanda), Asia-Pacífico (Singapur) o Asia-Pacífico (Sídney).

  5. En Configuración del bucket para Block Public Access, elija la configuración de Block Public Access que desee aplicar al bucket.

    Le recomendamos que deje todos los ajustes activados. Para obtener más información sobre cómo bloquear el acceso público, consulte Bloquear el acceso público a su almacenamiento de Amazon S3 en la Guía del usuario de Amazon Simple Storage Service.

  6. Elija Crear bucket.

  7. Sube el archivo de datos de entrenamiento a tu bucket de Amazon S3. Anote la ruta de ubicación de Amazon S3 para su archivo de formación (por ejemplo, s3://bucketname/object.csv).

Importación por lotes de datos de eventos en la consola Amazon Fraud Detector

Puede importar fácilmente una gran cantidad de conjuntos de datos de eventos en la consola de Amazon Fraud Detector, mediante la CreateBatchImportJob API o el SDK de AWS. Antes de continuar, asegúrese de haber seguido las instrucciones para preparar el conjunto de datos como un archivo CSV. Asegúrese de haber cargado también el archivo CSV en un bucket de Amazon S3.

Uso de la consola Amazon Fraud Detector

Para importar por lotes los datos de eventos en la consola
  1. Abra la consola de AWS, inicie sesión en su cuenta y diríjase a Amazon Fraud Detector.

  2. En el panel de navegación izquierdo, elija Events.

  3. Elija el tipo de evento.

  4. Selecciona la pestaña Eventos almacenados.

  5. En el panel de detalles de los eventos almacenados, asegúrese de que la ingesta de eventos esté activada.

  6. En el panel Importar datos de eventos, seleccione Nueva importación.

  7. En la página de importación de nuevos eventos, proporcione la siguiente información:

    • [Recomendado] Deje Activar la validación inteligente de datos para este conjunto de datos; el nuevo conjunto de datos está configurado con la configuración predeterminada.

    • En Función de IAM para datos, seleccione la función de IAM que creó para el bucket de Amazon S3 que contiene el archivo CSV que planea importar.

    • En Ubicación de datos de entrada, introduzca la ubicación de S3 en la que se encuentra el archivo CSV.

    • Si desea especificar una ubicación independiente para almacenar los resultados de la importación, haga clic en el botón Separar ubicación de datos para las entradas y los resultados y proporcione una ubicación de bucket de Amazon S3 válida.

    importante

    Asegúrese de que el rol de IAM que ha seleccionado tiene permisos de lectura en el bucket de Amazon S3 de entrada y permisos de escritura en el bucket de Amazon S3 de salida.

  8. Elija Iniciar.

  9. La columna Estado del panel de datos de eventos de importación muestra el estado de su trabajo de validación e importación. El banner de la parte superior proporciona una descripción detallada del estado, ya que el conjunto de datos pasa primero por la validación y, después, por la importación.

  10. Siga las instrucciones que se proporcionan aSupervise el progreso del trabajo de validación e importación del conjunto de datos.

Supervise el progreso del trabajo de validación e importación del conjunto de datos

Si utilizas la consola de Amazon Fraud Detector para realizar un trabajo de importación por lotes, Amazon Fraud Detector valida tu conjunto de datos de forma predeterminada antes de la importación. Puedes supervisar el progreso y el estado de los trabajos de validación e importación en la página de importación de nuevos eventos de la consola de Amazon Fraud Detector. Un banner en la parte superior de la página ofrece una breve descripción de los resultados de la validación y del estado del trabajo de importación. En función de los resultados de la validación y del estado del trabajo de importación, es posible que tengas que tomar medidas para garantizar que la validación e importación del conjunto de datos se hayan realizado correctamente.

En la siguiente tabla se proporcionan detalles de las acciones que debe realizar en función del resultado de las operaciones de validación e importación.

Mensaje de cabecera Estado Qué significa ¿Qué debo hacer
Se ha iniciado la validación de datos Validación en curso SDV ha empezado a validar su conjunto de datos Espere a que cambie el estado
La validación de datos no puede continuar debido a errores en el conjunto de datos. Corrija los errores en el archivo de datos e inicie un nuevo trabajo de importación. Consulte el informe de validación para obtener más información Falló la validación El SDV identificó problemas en el archivo de datos. Estos problemas deben abordarse para que la importación del conjunto de datos se realice correctamente. En el panel Importar datos de eventos, seleccione el ID del trabajo y consulte el informe de validación. Siga las recomendaciones del informe para corregir todos los errores de la lista. Para obtener más información, consulte Uso del informe de validación.
Se ha iniciado la importación de datos. La validación se ha completado correctamente Importación en curso Tu conjunto de datos ha superado la validación. La AFD ha empezado a importar tu conjunto de datos Espere a que cambie el estado
La validación se completó con advertencias. Se ha iniciado la importación de datos Importación en curso Algunos de los datos de su conjunto de datos no se validaron correctamente. Sin embargo, los datos que han superado la validación cumplen con los requisitos de tamaño mínimo para la importación. Supervise el mensaje del banner y espere a que cambie el estado
Sus datos se importaron parcialmente. Algunos de los datos no se validaron y no se importaron. Consulte el informe de validación para obtener más información. Importado. El estado muestra un icono de advertencia. Algunos de los datos del archivo de datos que no superaron la validación no se importaron. El resto de los datos que superaron la validación se importaron. En el panel Importar datos de eventos, seleccione el ID del trabajo y consulte el informe de validación. Siga las recomendaciones de la tabla de advertencias a nivel de datos para abordar las advertencias de la lista. No es necesario abordar todas las advertencias. Sin embargo, asegúrese de que su conjunto de datos contenga más del 50% de los datos que pasen la validación para que la importación se realice correctamente. Una vez que haya respondido a las advertencias, inicie un nuevo trabajo de importación. Para obtener más información, consulte Uso del informe de validación.
La importación de datos falló debido a un error de procesamiento. Inicie un nuevo trabajo de importación de datos Error al importar La importación falló debido a un error transitorio en tiempo de ejecución Inicie un nuevo trabajo de importación
Los datos se importaron correctamente Importado Tanto la validación como la importación se han completado correctamente Seleccione el ID de trabajo de su trabajo de importación para ver los detalles y, a continuación, continúe con el entrenamiento del modelo.
nota

Te recomendamos esperar 10 minutos después de que el conjunto de datos se haya importado correctamente a Amazon Fraud Detector para asegurarte de que el sistema lo haya asimilado por completo.

Informe de validación de datos inteligentes

La validación de datos inteligentes crea un informe de validación una vez finalizada la validación. El informe de validación proporciona detalles de todos los problemas que la SDV ha identificado en su conjunto de datos, con sugerencias de acciones para solucionar los problemas más impactantes. Puedes usar el informe de validación para determinar cuáles son los problemas, dónde se encuentran en el conjunto de datos, su gravedad y cómo solucionarlos. El informe de validación se crea incluso cuando la validación se completa correctamente. En este caso, puede ver el informe para ver si hay algún problema en la lista y, si lo hay, decidir si desea corregir alguno de ellos.

nota

La versión actual de SDV analiza el conjunto de datos en busca de problemas que puedan provocar un error en la importación por lotes. Si la validación y la importación por lotes se realizan correctamente, el conjunto de datos puede seguir teniendo problemas que podrían provocar un error en el entrenamiento del modelo. Te recomendamos que consultes tu informe de validación aunque la validación y la importación se hayan realizado correctamente y que abordes cualquier problema que aparezca en el informe para que el entrenamiento del modelo se lleve a cabo correctamente. Una vez resueltos los problemas, cree un nuevo trabajo de importación por lotes.

Acceder al informe de validación

Puede acceder al informe de validación en cualquier momento una vez finalizada la validación mediante una de las siguientes opciones:

  1. Una vez finalizada la validación y mientras el trabajo de importación está en curso, en la barra superior, selecciona Ver informe de validación.

  2. Una vez finalizado el trabajo de importación, en el panel Importar datos de eventos, elija el ID de trabajo del trabajo de importación que acaba de finalizar.

Uso del informe de validación

La página del informe de validación de su trabajo de importación proporciona los detalles de este trabajo de importación, una lista de errores críticos, si se encuentran, una lista de advertencias sobre eventos específicos (filas) en su conjunto de datos, si se encuentran, y un breve resumen del conjunto de datos que incluye información como los valores que no son válidos y los valores que faltan para cada variable.

  • Importa los detalles del trabajo

    Proporciona detalles del trabajo de importación. Si el trabajo de importación ha fallado o el conjunto de datos se ha importado parcialmente, selecciona Ir al archivo de resultados para ver los registros de errores de los eventos que no se pudieron importar.

  • Errores críticos

    Proporciona detalles de los problemas más impactantes de su conjunto de datos identificados por SDV. Todos los problemas enumerados en este panel son críticos y debe abordarlos antes de continuar con la importación. Si intenta importar el conjunto de datos sin abordar los problemas críticos, es posible que el trabajo de importación falle.

    Para abordar los problemas críticos, sigue las recomendaciones que se proporcionan para cada advertencia. Una vez que haya resuelto todos los problemas enumerados en el panel de errores críticos, cree un nuevo trabajo de importación por lotes.

  • Advertencias a nivel de datos

    Proporciona un resumen de las advertencias de eventos (filas) específicos del conjunto de datos. Si el panel de advertencias a nivel de datos está lleno, significa que algunos de los eventos del conjunto de datos no se validaron y no se importaron.

    Para cada advertencia, la columna Descripción muestra el número de eventos que tienen el problema. Además, el evento de muestra IDs proporciona una lista parcial de los eventos de ejemplo IDs que puede utilizar como punto de partida para localizar el resto de los eventos que tienen el problema. Utilice la recomendación incluida en la advertencia para solucionar el problema. Utilice también los registros de errores del archivo de salida para obtener información adicional sobre el problema. Los registros de errores se generan para todos los eventos en los que no se pudo realizar la importación por lotes. Para acceder a los registros de errores, en el panel Importar detalles del trabajo, seleccione Ir al archivo de resultados.

    nota

    Si más del 50% de los eventos (filas) del conjunto de datos fallaron en la validación, el trabajo de importación también fallará. En este caso, debe corregir los datos antes de iniciar un nuevo trabajo de importación.

  • Resumen del conjunto de datos

    Proporciona un resumen del informe de validación del conjunto de datos. Si la columna Número de advertencias muestra más de 0 advertencias, decide si necesitas corregir esas advertencias. Si la columna Número de advertencias muestra 0 segundos, continúe entrenando su modelo.

Importación por lotes de datos de eventos mediante el AWS SDK para Python (Boto3)

En el siguiente ejemplo, se muestra un ejemplo CreateBatchImportJobde solicitud de API. Un trabajo de importación por lotes debe incluir un JobID, InputPath, OutputPath y. eventTypeNameiamRoleArn El JobID no puede contener el mismo ID de un trabajo anterior, a menos que el trabajo esté en el estado CREATE_FAILED. Las rutas InputPath y OutputPath deben ser rutas S3 válidas. Puede optar por no especificar el nombre del archivo en la ruta de salida; sin embargo, tendrá que proporcionar una ubicación de depósito de S3 válida. El eventTypeName y iamRoleArn debe existir. El rol de IAM debe conceder permisos de lectura para introducir el bucket de Amazon S3 y permisos de escritura para generar el bucket de Amazon S3.

import boto3 fraudDetector = boto3.client('frauddetector') fraudDetector.create_batch_import_job ( jobId = 'sample_batch_import', inputPath = 's3://bucket_name/input_file_name.csv', outputPath = 's3://bucket_name/', eventTypeName = 'sample_registration', iamRoleArn: 'arn:aws:iam::************:role/service-role/AmazonFraudDetector-DataAccessRole-*************' )

Cancela el trabajo de importación por lotes

Puede cancelar un trabajo de importación por lotes en curso en cualquier momento en la consola de Amazon Fraud Detector, mediante la CancelBatchImportJob API o el SDK de AWS.

Para cancelar un trabajo de importación por lotes en la consola,
  1. Abra la consola de AWS, inicie sesión en su cuenta y diríjase a Amazon Fraud Detector.

  2. En el panel de navegación izquierdo, elija Events.

  3. Elija el tipo de evento.

  4. Selecciona la pestaña Eventos almacenados.

  5. En el panel Importar datos de eventos, elija el identificador del trabajo de importación en curso que desee cancelar.

  6. En la página del trabajo del evento, haga clic en Acciones y seleccione Cancelar la importación de eventos.

  7. Seleccione Detener la importación de eventos para cancelar el trabajo de importación por lotes.

Cancelación de un trabajo de importación por lotes mediante el AWS SDK para Python (Boto3)

En el siguiente ejemplo, se muestra un ejemplo de solicitud para la API. CancelBatchImportJob El trabajo de cancelación de importación debe incluir el identificador de trabajo de un trabajo de importación por lotes en curso.

import boto3 fraudDetector = boto3.client('frauddetector') fraudDetector.cancel_batch_import_job ( jobId = 'sample_batch' )