Los componentes básicos de los agentes de software - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Los componentes básicos de los agentes de software

El siguiente diagrama presenta los módulos funcionales clave que se encuentran en la mayoría de los agentes inteligentes. Cada componente contribuye a la capacidad del agente para operar de forma autónoma en entornos complejos.

Módulos y submódulos funcionales clave de los agentes inteligentes.

En el contexto del ciclo de percibir, razonar y actuar, la capacidad de razonamiento de un agente se distribuye entre sus módulos cognitivos y de aprendizaje. Mediante la integración de la memoria y el aprendizaje, el agente desarrolla un razonamiento adaptativo basado en la experiencia pasada. A medida que el agente actúa dentro de su entorno, crea un circuito de retroalimentación emergente: cada acción influye en las percepciones futuras y la experiencia resultante se incorpora a la memoria y a los modelos internos a través del módulo de aprendizaje. Este ciclo continuo de percepción, razonamiento y acción permite al agente mejorar con el tiempo y completa el ciclo completo de percibir, razonar y actuar.

Módulo de percepción

El módulo de percepción permite al agente interactuar con su entorno a través de diversas modalidades de entrada, como texto, audio y sensores. Estas entradas forman los datos sin procesar en los que se basan todos los razonamientos y las acciones. Las entradas de texto pueden incluir indicaciones en lenguaje natural, comandos estructurados o documentos. Las entradas de audio incluyen instrucciones habladas o sonidos ambientales. Las entradas de los sensores incluyen datos físicos, como señales visuales, señales de movimiento o coordenadas GPS. La función principal de la percepción es extraer características y representaciones significativas de estos datos sin procesar. Esto permite al agente construir una comprensión precisa y procesable de su contexto actual. El proceso puede implicar la extracción de características, el reconocimiento de objetos o eventos y la interpretación semántica, y constituye el primer paso fundamental en el ciclo de percibir, razonar y actuar. La percepción efectiva garantiza que el razonamiento y la toma de decisiones posteriores se basen en una conciencia situacional relevante. up-to-date

Módulo cognitivo

El módulo cognitivo sirve como núcleo deliberativo del agente de software. Es responsable de interpretar las percepciones, formar la intención y guiar el comportamiento intencional mediante la planificación y la toma de decisiones basadas en objetivos. Este módulo transforma las entradas en procesos de razonamiento estructurados, lo que permite al agente operar de forma intencionada en lugar de reactiva. Estos procesos se gestionan a través de tres submódulos clave: objetivos, planificación y toma de decisiones.

Submódulo de objetivos

El submódulo de objetivos define la intención y la dirección del agente. Los objetivos pueden ser explícitos (por ejemplo, «ir a una ubicación» o «enviar un informe») o implícitos (por ejemplo, «maximizar la participación de los usuarios» o «minimizar la latencia»). Son fundamentales para el ciclo de razonamiento del agente y proporcionan un estado objetivo para su planificación y sus decisiones.

El agente evalúa continuamente el progreso hacia sus objetivos y puede cambiar las prioridades o regenerar los objetivos en función de las nuevas percepciones o el aprendizaje. Este conocimiento de los objetivos permite que el agente se adapte a entornos dinámicos.

Submódulo de planificación

El submódulo de planificación construye estrategias para alcanzar los objetivos actuales del agente. Genera secuencias de acciones, descompone las tareas jerárquicamente y selecciona planes predefinidos o generados dinámicamente.

Para operar con eficacia en entornos no deterministas o cambiantes, la planificación no es estática. Los agentes modernos pueden generar chain-of-thought secuencias, introducir subobjetivos como pasos intermedios y revisar los planes en tiempo real cuando las condiciones cambian.

Este submódulo está estrechamente relacionado con la memoria y el aprendizaje, y permite al agente refinar su planificación a lo largo del tiempo en función de los resultados anteriores.

Submódulo de toma de decisiones

El submódulo de toma de decisiones evalúa los planes y acciones disponibles para seleccionar el siguiente paso más apropiado. Integra los aportes de la percepción, el plan actual, los objetivos del agente y el contexto ambiental.

La toma de decisiones tiene en cuenta:

  • Compensaciones entre objetivos contradictorios

  • Umbrales de confianza (por ejemplo, incertidumbre en la percepción)

  • Consecuencias de las acciones

  • La experiencia aprendida por el agente

Según la arquitectura, los agentes pueden basarse en el razonamiento simbólico, la heurística, el aprendizaje por refuerzo o los modelos lingüísticos (LLMs) para tomar decisiones informadas. Este proceso garantiza que el comportamiento del agente sea consciente del contexto, alineado con los objetivos y adaptativo.

Módulo de acción

El módulo de acción es responsable de ejecutar las decisiones seleccionadas por el agente y de interactuar con el mundo externo o los sistemas internos para producir efectos significativos. Representa la fase de acto del ciclo de percepción, razón y acción, en la que la intención se transforma en comportamiento.

Cuando el módulo cognitivo selecciona una acción, coordina la ejecución a través de submódulos especializados, en los que cada submódulo se alinea con el entorno integrado del agente:

  • Actuación física: para los agentes que están integrados en sistemas robóticos o dispositivos de IoT, este submódulo traduce las decisiones en movimientos físicos del mundo real o en instrucciones a nivel de hardware.

    Ejemplos: dirigir un robot, activar una válvula o encender un sensor.

  • Interacción integrada: este submódulo gestiona acciones no físicas pero visibles desde el exterior, como la interacción con sistemas de software, plataformas o. APIs

    Ejemplos: enviar un comando a un servicio en la nube, actualizar una base de datos o enviar un informe mediante una API.

  • Invocación de herramientas: los agentes suelen ampliar sus capacidades mediante el uso de herramientas especializadas para realizar subtareas, como las siguientes:

    • Búsqueda: consulta fuentes de conocimiento estructuradas o no estructuradas

    • Resumen: comprimir entradas de texto de gran tamaño para convertirlas en descripciones generales de alto nivel

    • Cálculo: realizar cálculos lógicos, numéricos o simbólicos

    La invocación de herramientas permite componer comportamientos complejos mediante habilidades modulares e invocables.

Módulo de aprendizaje

El módulo de aprendizaje permite a los agentes adaptarse, generalizar y mejorar con el tiempo en función de la experiencia. Apoya el proceso de razonamiento al refinar continuamente los modelos internos, las estrategias y las políticas de decisión del agente mediante el uso de la retroalimentación de la percepción y la acción.

Este módulo funciona en coordinación con la memoria a corto y largo plazo:

  • Memoria a corto plazo: almacena el contexto transitorio, como el estado del diálogo, la información de la tarea actual y las observaciones recientes. Ayuda al agente a mantener la continuidad en las interacciones y tareas.

  • Memoria a largo plazo: codifica el conocimiento persistente de experiencias pasadas, incluidos los objetivos alcanzados anteriormente, los resultados de las acciones y los estados ambientales. La memoria a largo plazo permite al agente reconocer patrones, reutilizar estrategias y evitar la repetición de errores.

Modos de aprendizaje

El módulo de aprendizaje admite una variedad de paradigmas, como el aprendizaje supervisado, no supervisado y el aprendizaje por refuerzo, que admiten diferentes entornos y funciones de los agentes:

  • Aprendizaje supervisado: actualiza los modelos internos basándose en ejemplos etiquetados, a menudo a partir de comentarios humanos o conjuntos de datos de formación.

    Ejemplo: aprender a clasificar la intención de los usuarios en función de conversaciones anteriores.

  • Aprendizaje no supervisado: identifica patrones o estructuras ocultos en los datos sin etiquetas explícitas.

    Ejemplo: agrupar señales ambientales para detectar anomalías.

  • Aprendizaje reforzado: optimiza el comportamiento mediante prueba y error al maximizar la recompensa acumulada en entornos interactivos.

    Ejemplo: aprender qué estrategia lleva a completar las tareas más rápido.

El aprendizaje se integra estrechamente con el módulo cognitivo del agente. Perfecciona las estrategias de planificación en función de los resultados pasados, mejora la toma de decisiones mediante la evaluación del éxito histórico y mejora continuamente el mapeo entre la percepción y la acción. A través de este circuito cerrado de aprendizaje y retroalimentación, los agentes evolucionan más allá de la ejecución reactiva para convertirse en sistemas que se mejoran a sí mismos y son capaces de adaptarse a nuevos objetivos, condiciones y contextos a lo largo del tiempo.