View a markdown version of this page

Añadir nuevas entidades de vocabulario - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Añadir nuevas entidades de vocabulario

Puedes añadir vocabulario a tu biblioteca mediante la InvokeDataAutomationLibraryIngestionJobAPI. Puedes proporcionar vocabulario a través de un archivo de manifiesto de S3 o de una carga útil integrada.

importante

Las operaciones de UPSERT utilizan un sistema de reemplazo similar al de la entidad, lo que significa que toda la entidad se reemplaza en lugar de fusionarse con el contenido existente.

Opción 1: usar el archivo de manifiesto de S3

Paso 1: Crear un archivo de manifiesto JSONL

Ejemplo: vocabulary-manifest.json

{"entityId":"medical-en","description":"Medication terms in English language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"EN"} {"entityId":"medical-es","description":"Medication terms in Spanish language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"ES"}

Requisitos del archivo de manifiesto:

  • Formato de archivo: JSONL (líneas JSON)

  • Entidad JSON:

    • EntityID (obligatorio): identificador único (máximo 128 caracteres)

    • descripción (opcional): descripción del ID de entidad

    • idioma (obligatorio): código de idioma ISO (idiomas compatibles)

    • frases (obligatorio): matriz de objetos de texto. Cada objeto contiene:

      • texto (obligatorio): palabra o frase individual

      • displayAsText(opcional): utilícelo para reemplazar la palabra real en la transcripción (NOTA: distingue mayúsculas y minúsculas)

Paso 2: Sube el manifiesto a S3

aws s3 cp vocabulary-manifest.json s3://my-bucket/manifests/

Paso 3: Iniciar el trabajo de ingestión

Úselo InvokeDataAutomationLibraryIngestionJobpara iniciar un trabajo de ingestión de vocabulario.

Ejemplo de AWS CLI:

Solicitud

aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \ --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \ --entity-type "VOCABULARY" \ --operation-type "UPSERT" \ --input-configuration '{"s3Object":{"s3Uri":"s3://my-bucket/manifests/vocabulary-manifest.json"}}' \ --output-configuration '{"s3Uri":"s3://my-bucket/outputs/"}'

Respuesta:

{ "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345" }

Ejemplo de consola AWS:

  1. Vaya a la página «Detalles de la biblioteca»

  2. Selecciona «Añadir una lista de vocabulario personalizada»

  3. Elige «Cargar/seleccionar el manifiesto»

  4. Elija si desea cargar el archivo de manifiesto directamente o desde una ubicación de S3

Opción 2: usar la carga útil en línea

Esta opción se puede utilizar para actualizaciones rápidas con hasta 100 frases.

InvokeDataAutomationLibraryIngestionJobUtilícela para iniciar un trabajo de ingestión de vocabulario.

Ejemplo de AWS CLI:

Solicitud

aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \ --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \ --entity-type "VOCABULARY" \ --operation-type "UPSERT" \ --input-configuration '{"inlinePayload":{"upsertEntitiesInfo":[{"vocabulary":{"entityId":"medical-en","language":"EN","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"}]}}]}}' \ --output-configuration '{"s3Uri":"s3://bda-data-bucket/output/"}'

Respuesta:

{ "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345" }

Ejemplo de consola AWS:

  1. Vaya a la página «Detalles de la biblioteca»

  2. Selecciona «Añadir una lista de vocabulario personalizada»

  3. Elige «Añadir manualmente»