Creación de su primer proyecto de Automatización de Datos Referencia de parámetros completa Creación de un esquema Uso del esquema Procesa documentos de forma asíncrona Comprobación de estado de procesamiento Recuperación de los resultados Procese los documentos de forma sincrónica Procesa imágenes de forma sincrónica

Uso de la CLI de automatización de Amazon Bedrock datos

La función Amazon Bedrock de automatización de datos (BDA) proporciona un flujo de trabajo de CLI optimizado para procesar los datos. Para todas las modalidades, este flujo de trabajo consta de tres pasos principales: crear un proyecto, crear esquemas para una salida personalizada y procesar documentos. En esta guía se explican los comandos principales de la CLI para trabajar con BDA.

Creación de su primer proyecto de Automatización de Datos

Para empezar a trabajar con BDA, cree primero un proyecto con el comando create-data-automation-project.

Considere este ejemplo de pasaporte que procesaremos:

Al crear un proyecto, debe definir los ajustes de configuración para el tipo de archivo que va a procesar. El siguiente comando representa un ejemplo funcional mínimo para crear un proyecto de procesamiento de imágenes:


aws bedrock-data-automation create-data-automation-project \
    --project-name "ImageProcessingProject" \
    --standard-output-configuration '{
        "image": {
            "extraction": {
                "category": {
                    "state": "ENABLED",
                    "types": ["TEXT_DETECTION"]
                },
                "boundingBox": {
                    "state": "ENABLED"
                }
            },
            "generativeField": {
                "state": "ENABLED"
            }
        }
    }'

El comando valida la configuración de entrada y crea un nuevo proyecto con un ARN único. Una respuesta incluiría el ARN y la etapa del proyecto:


{
    "projectArn": "Amazon Resource Name (ARN)",
    "projectStage": "DEVELOPMENT",
    "status": "IN_PROGRESS"
}

Si se crea un proyecto sin parámetros, se aplicará la configuración predeterminada. Por ejemplo, al procesar imágenes, el resumen de imágenes y la detección de texto estarán habilitadas de forma predeterminada.

Referencia de parámetros completa

El ejemplo de código siguiente muestra todos los parámetros disponibles para el comando create-data-automation-project:

Parámetros para create-data-automation-project
Parámetro	Obligatorio	Predeterminado	Description (Descripción)
`--project-name`	Sí	N/A	Nombre del proyecto de Automatización de Datos
`--project-type`	No	El tipo de proyecto define con qué API de procesamiento en tiempo de ejecución se puede usar. `ASYNC`los proyectos solo se pueden usar con la `invoke-bedrock-data-automation-async` API, mientras que `SYNC` los proyectos solo se pueden usar con la `invoke-bedrock-data-automation` API.
`--project-stage`	No	ACTIVA	Etapa del proyecto (EN DESARROLLO o EN DIRECTO)
`--standard-output-configuration`	Sí	N/A	Configuración JSON para el procesamiento de salida estándar
`--custom-output-configuration`	No	N/A	Configuración JSON para el procesamiento de salida personalizada
`--encryption-configuration`	No	N/A	Configuración de cifrado para el proyecto
`--client-token`	No	Generado automáticamente	Identificador único para la idempotencia de la solicitud

Creación de un esquema

Tras crear un proyecto, puede crear un esquema para definir la estructura del procesamiento de datos mediante el comando create-blueprint.

Este es un ejemplo funcional mínimo para crear un esquema adaptado al procesamiento de pasaportes:


aws bedrock-data-automation create-blueprint \
    --blueprint-name "passport-blueprint" \
    --type "IMAGE" \
    --blueprint-stage "DEVELOPMENT" \
    --schema '{
        "class": "Passport",
        "description": "Blueprint for processing passport images",
        "properties": {
            "passport_number": {
                "type": "string",
                "inferenceType": "explicit",
                "instruction": "The passport identification number"
            },
            "full_name": {
                "type": "string",
                "inferenceType": "explicit",
                "instruction": "The full name of the passport holder"
            }
        }
    }'

El comando crea un nuevo esquema con la estructura especificada. A continuación, puede utilizar este esquema al procesar documentos para extraer datos estructurados de acuerdo con la estructura que haya definido.

Uso del esquema

Adición de un esquema a un proyecto

Para añadir un esquema a su proyecto, utilice el comando update-data-automation-project:


aws bedrock-data-automation update-data-automation-project \
    --project-arn "Amazon Resource Name (ARN)" \
    --standard-output-configuration '{
        "image": {
            "extraction": {
                "category": {
                    "state": "ENABLED",
                    "types": ["TEXT_DETECTION"]
                },
                "boundingBox": {
                    "state": "ENABLED"
                }
            },
            "generativeField": {
                "state": "ENABLED",
                "types": ["IMAGE_SUMMARY"]
            }
        }
    }' \
    --custom-output-configuration '{
        "blueprints": [
            {
                "blueprintArn": "Amazon Resource Name (ARN)",
                "blueprintVersion": "1",
                "blueprintStage": "LIVE"
            }
        ]
    }'

Verificación de la integración del esquema

Puede verificar la integración del esquema mediante el comando get-data-automation-project:


aws bedrock-data-automation get-data-automation-project \
    --project-arn "Amazon Resource Name (ARN)"

Administración de varios esquemas

Use el comando list-blueprints para ver todos tus esquemas:


aws bedrock-data-automation list-blueprints

Procesa documentos de forma asíncrona

Antes de procesar documentos con BDA, primero debe cargarlos en un depósito de S3. Una vez que haya configurado un proyecto, podrá procesar los documentos mediante el comando: invoke-data-automation-async


aws bedrock-data-automation-runtime invoke-data-automation-async \
    --input-configuration '{
        "s3Uri": "s3://my-bda-documents/invoices/invoice-123.pdf"
    }' \
    --output-configuration '{
        "s3Uri": "s3://my-bda-documents/output/"
    }' \
    --data-automation-configuration '{
        "dataAutomationProjectArn": "Amazon Resource Name (ARN)",
        "stage": "LIVE"
    }' \
    --data-automation-profile-arn "Amazon Resource Name (ARN)"

El comando devuelve un ARN de invocación que puede utilizar para comprobar el estado del procesamiento:


{
    "invocationArn": "Amazon Resource Name (ARN)"
}

Comprobación de estado de procesamiento

Para comprobar el estado del trabajo de procesamiento, utilice el comando get-data-automation-status:


aws bedrock-data-automation-runtime get-data-automation-status \
    --invocation-arn "Amazon Resource Name (ARN)"

El comando devuelve el estado actual del trabajo de procesamiento:


{
    "status": "COMPLETED",
    "creationTime": "2025-07-09T12:34:56.789Z",
    "lastModifiedTime": "2025-07-09T12:45:12.345Z",
    "outputLocation": "s3://my-bda-documents/output/efgh5678/"
}

Los valores de estado posibles son:

IN_PROGRESS: el trabajo de procesamiento se está ejecutando actualmente.
COMPLETED: el trabajo de procesamiento se ha completado correctamente.
FAILED: el trabajo de procesamiento ha fallado. Compruebe la respuesta para ver los detalles del error.
STOPPED: el trabajo de procesamiento se ha detenido manualmente.

Recuperación de los resultados

Una vez finalizado el procesamiento, puede mostrar los archivos de salida en su bucket de S3:


aws s3 ls s3://my-bda-documents/output/efgh5678/

Cómo descargar los resultados en el equipo local:


aws s3 cp s3://my-bda-documents/output/efgh5678/ ~/Downloads/bda-results/ --recursive

La salida incluye datos estructurados basados en la configuración del proyecto y en los esquemas que haya aplicado.

Procese los documentos de forma sincrónica

Antes de procesar documentos con BDA, primero debe cargarlos en un bucket de S3. La API de sincronización admite tanto la entrada mediante un depósito de S3 como la de bytes de imagen (es decir, el procesamiento de documentos sin S3). El comando devuelve datos estructurados en función de la configuración del proyecto y de los planos que haya aplicado:


aws bedrock-data-automation-runtime invoke-data-automation \
    --input-configuration '{
        "s3Uri": "s3://my-bda-documents/invoices/invoice-123.pdf"
    }' \
    --data-automation-configuration '{
        "dataAutomationProjectArn": "Amazon Resource Name (ARN)",
        "stage": "LIVE"
    }' \
    --data-automation-profile-arn "Amazon Resource Name (ARN)"

Procesa imágenes de forma sincrónica

El comando devuelve datos estructurados en función de la configuración del proyecto y de los planos que haya aplicado:


aws bedrock-data-automation-runtime invoke-data-automation \
    --input-configuration '{
        "s3Uri": "s3://my-bda-documents/invoices/advertisement_latest.jpeg"
    }' \
    --data-automation-configuration '{
        "dataAutomationProjectArn": "Amazon Resource Name (ARN)",
        "stage": "LIVE"
    }' \
    --data-automation-profile-arn "Amazon Resource Name (ARN)"

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Requisitos previos para utilizar Automatización de Datos de Bedrock

CLI de operaciones con esquemas