Preparación de los conjuntos de datos de entrenamiento para destilación - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preparación de los conjuntos de datos de entrenamiento para destilación

Antes de iniciar un trabajo de personalización de modelos, se debe preparar al menos un conjunto de datos de entrenamiento. Para preparar conjuntos de datos para el modelo personalizado, debe crear archivos .jsonl. Cada línea del archivo es un objeto JSON que se corresponde con un registro. Los archivos que cree deben tener el formato de destilación del modelo y modelo que elija. Los registros que contiene también deben cumplir los requisitos de tamaño.

Proporcione los datos de entrada como peticiones. Amazon Bedrock utiliza los datos de entrada para generar respuestas del modelo instructor y utiliza las respuestas generadas para refinar el modelo aprendiz. Para obtener más información sobre las entradas que utiliza Amazon Bedrock y para elegir la opción que mejor se adapte a su caso de uso, consulte Cómo funciona Destilación de modelos de Amazon Bedrock. Hay un par de opciones para preparar el conjunto de datos de entrada.

nota

Los modelos Amazon Nova tienen diferentes requisitos de destilación. Para obtener más información, consulte Destilación de modelos Amazon Nova.

Modalidades de destilación compatibles

Los modelos enumerados en Modelos y regiones compatibles con Destilación de modelos de Amazon Bedrock. solo admiten la modalidad de texto a texto.

Optimización de sus peticiones de entrada para la generación de datos sintéticos

Durante la destilación de modelos, Amazon Bedrock genera un conjunto de datos sintéticos que utiliza para refinar el modelo aprendiz para su caso de uso específico. Para obtener más información, consulte Cómo funciona Destilación de modelos de Amazon Bedrock.

Puede optimizar el proceso de generación de datos sintéticos formateando las peticiones de entrada para el caso de uso que desee. Por ejemplo, si el caso de uso de su modelo destilado fuera la generación aumentada por recuperación (RAG), formatearía las peticiones de forma diferente que si quisiera que el modelo se centrara en los casos de uso de agentes.

Los siguientes son ejemplos de cómo puede formatear las peticiones de entrada para casos de uso de RAG o agentes.

RAG prompt example
{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a financial analyst charged with answering questions about 10K and 10Q SEC filings. Given the context below, answer the following question." } ], "messages": [ { "role": "user", "content": [ { "text": "<context>\nDocument 1: Multiple legal actions have been filed against us as a result of the October 29, 2018 accident of Lion Air Flight 610 and the March 10, 2019 accident of Ethiopian Airlines Flight 302.\n</context>\n\n<question>Has Boeing reported any materially important ongoing legal battles from FY2022?</question>" } ] } ] }
Agent prompt example
{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": 'You are an expert in composing functions. You are given a question and a set of possible functions. Based on the question, you will need to make one or more function/tool calls to achieve the purpose. Here is a list of functions in JSON format that you can invoke. [ { "name": "lookup_weather", "description: "Lookup weather to a specific location", "parameters": { "type": "dict", "required": [ "city" ], "properties": { "location": { "type": "string", }, "date": { "type": "string", } } } } ]' } ], "messages": [ { "role": "user", "content": [ { "text": "What's the weather tomorrow?" } ] }, { "role": "assistant", "content": [ { "text": "[lookup_weather(location=\"san francisco\", date=\"tomorrow\")]" } ] } ] }