Prepare un conjunto de datos para un trabajo retrieve-and-generate de evaluación en el que Amazon Bedrock invoque su base de conocimientos Prepare un conjunto de datos para un trabajo de retrieve-and-generate evaluación utilizando sus propios datos de respuesta a la inferencia

Creación de un conjunto de datos rápido para los trabajos de evaluación retrieve-and-generate de RAG

Los trabajos retrieve-and-generate de evaluación requieren un conjunto de datos rápido con el formato de líneas JSON. Puede tener hasta 1000 peticiones en el conjunto de datos.

Prepare un conjunto de datos para un trabajo retrieve-and-generate de evaluación en el que Amazon Bedrock invoque su base de conocimientos

Para crear un trabajo de evaluación de solo recuperación en el que Amazon Bedrock invoque su base de conocimiento, el conjunto de datos de peticiones debe contener los siguientes pares de clave-valor:

referenceResponses: esta clave principal se utiliza para especificar la respuesta basada en los datos de referencia que cabría esperar de RetrieveAndGenerate. Especifique los datos de referencia en la clave text. referenceResponses es obligatorio si elige la métrica Cobertura de contexto en su trabajo de evaluación.
prompt: esta clave principal se utiliza para especificar la petición (consulta del usuario) a la que desea que responda el modelo mientras se ejecuta el trabajo de evaluación.

A continuación presentamos un ejemplo de conjunto de datos personalizado que contiene 6 entradas y utiliza el formato de línea JSON.


{"conversationTurns":[{"prompt":{"content":[{"text":"Provide the prompt you want to use during inference"}]},"referenceResponses":[{"content":[{"text":"Specify a ground-truth response"}]}]}]}
{"conversationTurns":[{"prompt":{"content":[{"text":"Provide the prompt you want to use during inference"}]},"referenceResponses":[{"content":[{"text":"Specify a ground-truth response"}]}]}]}
{"conversationTurns":[{"prompt":{"content":[{"text":"Provide the prompt you want to use during inference"}]},"referenceResponses":[{"content":[{"text":"Specify a ground-truth response"}]}]}]}
{"conversationTurns":[{"prompt":{"content":[{"text":"Provide the prompt you want to use during inference"}]},"referenceResponses":[{"content":[{"text":"Specify a ground-truth response"}]}]}]}
{"conversationTurns":[{"prompt":{"content":[{"text":"Provide the prompt you want to use during inference"}]},"referenceResponses":[{"content":[{"text":"Specify a ground-truth response"}]}]}]}
{"conversationTurns":[{"prompt":{"content":[{"text":"Provide the prompt you want to use during inference"}]},"referenceResponses":[{"content":[{"text":"Specify a ground-truth response"}]}]}]}

La siguiente petición se ha ampliado para mayor claridad. En el conjunto de datos de peticiones real, cada línea (una petición) debe ser un objeto JSON válido.


{
    "conversationTurns": [
        {
            "prompt": {
                "content": [
                    {
                        "text": "What is the recommended service interval for your product?"
                    }
                ]
            },
            "referenceResponses": [
                {
                    "content": [
                        {
                            "text": "The recommended service interval for our product is two years."
                        }
                    ]
                }
            ]
        }
    ]
}

Prepare un conjunto de datos para un trabajo de retrieve-and-generate evaluación utilizando sus propios datos de respuesta a la inferencia

Para crear un trabajo de retrieve-and-generate evaluación en el que proporciones tus propios datos de respuesta a la inferencia, tu conjunto de datos de preguntas es una lista de los turnos de conversación y contiene lo siguiente para cada turno. Solo puede evaluar un origen de RAG por trabajo.

prompt: la petición que proporcionó a su modelo para generar los resultados.
referenceResponses: esta clave principal se utiliza para especificar la respuesta basada en los datos de referencia que cabría esperar en la salida final de su LLM después de haber ingerido los resultados de recuperación y la consulta de entrada.
referenceContexts (opcional): esta clave principal opcional se utiliza para especificar los pasajes de los datos de referencia que debería recuperar el origen de RAG. Solo necesita incluir esta clave si quiere utilizarla en sus propias métricas de evaluación personalizadas. Las métricas integradas que proporciona Amazon Bedrock no utilizan esta propiedad.
output: la salida de su origen de RAG, que incluye lo siguiente:
- text: la salida final del LLM en su sistema RAG.
- retrievedPassages: esta clave principal se utiliza para especificar el contenido que ha recuperado su origen de RAG.

Sus datos de output también deben incluir la cadena knowledgeBaseIdentifier, que define el origen de RAG que utilizó para generar las respuestas de inferencia. También puede incluir una cadena modelIdentifier opcional que identifique el LLM que utilizó. Para retrievalResults y retrievedReferences, puede proporcionar nombres y metadatos opcionales.

A continuación presentamos un ejemplo de conjunto de datos personalizado que contiene 6 entradas y utiliza el formato de línea JSON.


{"conversationTurns":[{"prompt":{"content":[{"text":"Provide the prompt you used to generate the response"}]},"referenceResponses":[{"content":[{"text":"A ground truth for the final response generated by the LLM"}]}],"referenceContexts":[{"content":[{"text":"A ground truth for a received passage"}]}],"output":{"text":"The output of the LLM","modelIdentifier":"(Optional) a string identifying your model","knowledgeBaseIdentifier":"A string identifying your RAG source","retrievedPassages":{"retrievalResults":[{"name":"(Optional) a name for your retrieval","content":{"text":"The retrieved content"},"metadata":{"(Optional) a key for your metadata":"(Optional) a value for your metadata"}}]}}}]}
{"conversationTurns":[{"prompt":{"content":[{"text":"Provide the prompt you used to generate the response"}]},"referenceResponses":[{"content":[{"text":"A ground truth for the final response generated by the LLM"}]}],"referenceContexts":[{"content":[{"text":"A ground truth for a received passage"}]}],"output":{"text":"The output of the LLM","modelIdentifier":"(Optional) a string identifying your model","knowledgeBaseIdentifier":"A string identifying your RAG source","retrievedPassages":{"retrievalResults":[{"name":"(Optional) a name for your retrieval","content":{"text":"The retrieved content"},"metadata":{"(Optional) a key for your metadata":"(Optional) a value for your metadata"}}]}}}]}
{"conversationTurns":[{"prompt":{"content":[{"text":"Provide the prompt you used to generate the response"}]},"referenceResponses":[{"content":[{"text":"A ground truth for the final response generated by the LLM"}]}],"referenceContexts":[{"content":[{"text":"A ground truth for a received passage"}]}],"output":{"text":"The output of the LLM","modelIdentifier":"(Optional) a string identifying your model","knowledgeBaseIdentifier":"A string identifying your RAG source","retrievedPassages":{"retrievalResults":[{"name":"(Optional) a name for your retrieval","content":{"text":"The retrieved content"},"metadata":{"(Optional) a key for your metadata":"(Optional) a value for your metadata"}}]}}}]}
{"conversationTurns":[{"prompt":{"content":[{"text":"Provide the prompt you used to generate the response"}]},"referenceResponses":[{"content":[{"text":"A ground truth for the final response generated by the LLM"}]}],"referenceContexts":[{"content":[{"text":"A ground truth for a received passage"}]}],"output":{"text":"The output of the LLM","modelIdentifier":"(Optional) a string identifying your model","knowledgeBaseIdentifier":"A string identifying your RAG source","retrievedPassages":{"retrievalResults":[{"name":"(Optional) a name for your retrieval","content":{"text":"The retrieved content"},"metadata":{"(Optional) a key for your metadata":"(Optional) a value for your metadata"}}]}}}]}
{"conversationTurns":[{"prompt":{"content":[{"text":"Provide the prompt you used to generate the response"}]},"referenceResponses":[{"content":[{"text":"A ground truth for the final response generated by the LLM"}]}],"referenceContexts":[{"content":[{"text":"A ground truth for a received passage"}]}],"output":{"text":"The output of the LLM","modelIdentifier":"(Optional) a string identifying your model","knowledgeBaseIdentifier":"A string identifying your RAG source","retrievedPassages":{"retrievalResults":[{"name":"(Optional) a name for your retrieval","content":{"text":"The retrieved content"},"metadata":{"(Optional) a key for your metadata":"(Optional) a value for your metadata"}}]}}}]}
{"conversationTurns":[{"prompt":{"content":[{"text":"Provide the prompt you used to generate the response"}]},"referenceResponses":[{"content":[{"text":"A ground truth for the final response generated by the LLM"}]}],"referenceContexts":[{"content":[{"text":"A ground truth for a received passage"}]}],"output":{"text":"The output of the LLM","modelIdentifier":"(Optional) a string identifying your model","knowledgeBaseIdentifier":"A string identifying your RAG source","retrievedPassages":{"retrievalResults":[{"name":"(Optional) a name for your retrieval","content":{"text":"The retrieved content"},"metadata":{"(Optional) a key for your metadata":"(Optional) a value for your metadata"}}]}}}]}

A continuación, se muestra el formato del conjunto de datos de peticiones ampliado para mayor claridad. En el conjunto de datos de peticiones real, cada línea (una petición) debe ser un objeto JSON válido.


{
    "conversationTurns": [
        {
            "prompt": {
                "content": [
                    {
                        "text": "Provide the prompt you used to generate the responses"
                    }
                ]
            },
            "referenceResponses": [
                {
                    "content": [
                        {
                            "text": "A ground truth for the final response generated by the LLM"
                        }
                    ]
                }
            ],
            "referenceContexts": [
                {
                    "content": [
                        {
                            "text": "A ground truth for a received passage"
                        }
                    ]
                }
            ],
            "output": {
                "text": "The output of the LLM",
                "modelIdentifier": "(Optional) a string identifying your model",
                "knowledgeBaseIdentifier": "A string identifying your RAG source",
                "retrievedPassages": {
                    "retrievalResults": [
                        {
                            "name": "(Optional) a name for your retrieval",
                            "content": {
                                "text": "The retrieved content"
                            },
                            "metadata": {
                                "(Optional) a key for your metadata": "(Optional) a value for your metadata"
                            }
                        }
                    ]
                }
            }
        }
    ]
}

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Solo recuperación

Métricas de evaluación