Acelere el desarrollo de la IA generativa mediante la IA gestionada MLflow en Amazon SageMaker - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Acelere el desarrollo de la IA generativa mediante la IA gestionada MLflow en Amazon SageMaker

La MLflow versión 3.0 totalmente gestionada en Amazon SageMaker AI le permite acelerar la IA generativa al facilitar el seguimiento de los experimentos y la supervisión del rendimiento de los modelos y las aplicaciones de IA mediante una sola herramienta.

Desarrollo de IA generativa con 3.0 MLflow

A medida que los clientes de todos los sectores aceleran su desarrollo de la IA generativa, requieren capacidades para realizar un seguimiento de los experimentos, observar el comportamiento y evaluar el rendimiento de los modelos y las aplicaciones de IA. Los científicos y desarrolladores de datos carecen de herramientas para analizar el rendimiento de los modelos y las aplicaciones de IA desde la experimentación hasta la producción, lo que dificulta la identificación de las causas y la resolución de los problemas. Los equipos dedican más tiempo a integrar herramientas que a mejorar sus modelos o aplicaciones de IA generativa.

El entrenamiento o refinamiento de la IA generativa o machine learning es un proceso iterativo que requiere experimentar con varias combinaciones de datos, algoritmos y parámetros, mientras se observa su impacto en la exactitud de los modelos. La naturaleza iterativa de la experimentación da lugar a numerosas versiones y ejecuciones de entrenamiento de modelos, lo que dificulta el seguimiento de los modelos con mejor rendimiento y sus configuraciones. La complejidad de administrar y comparar las ejecuciones iterativas de entrenamiento aumenta con GenAI, donde la experimentación implica no solo refinar los modelos, sino también explorar resultados creativos y diversos. Los investigadores deben ajustar los hiperparámetros, seleccionar las arquitecturas de modelos adecuadas y seleccionar diversos conjuntos de datos para optimizar tanto la calidad como la creatividad del contenido generado. La evaluación de los modelos de IA generativa requiere métricas cuantitativas y cualitativas, lo que añade otro nivel de complejidad al proceso de experimentación. Las funciones de seguimiento de la experimentación de la MLflow versión 3.0 de Amazon SageMaker AI le permiten realizar un seguimiento, organizar, ver, analizar y comparar la experimentación iterativa de aprendizaje automático para obtener información comparativa y registrar e implementar los modelos con mejor rendimiento.

Las funciones de rastreo de la MLflow versión 3.0, totalmente gestionada, le permiten registrar las entradas, las salidas y los metadatos en cada paso de una aplicación de IA generativa, lo que le ayuda a identificar rápidamente el origen de los errores o los comportamientos inesperados. Al mantener registros de cada modelo y versión de la aplicación, Fully Managed MLflow 3.0 ofrece trazabilidad para conectar las respuestas de la IA con sus componentes de origen, lo que permite rastrear rápidamente un problema directamente hasta el código, los datos o los parámetros específicos que lo generaron. Esto reduce drásticamente el tiempo de resolución de problemas y permite a los equipos centrarse más en la innovación.

MLflow integraciones

Úsalo MLflow mientras entrenas y evalúas modelos para encontrar los mejores candidatos para tu caso de uso. Puedes comparar el rendimiento, los parámetros y las métricas de los distintos experimentos en la MLflow interfaz de usuario, realizar un seguimiento de tus mejores modelos en el MLflow registro de modelos, registrarlos automáticamente como un modelo de SageMaker IA e implementar los modelos registrados en los puntos finales de la SageMaker IA.

Amazon SageMaker AI con MLflow

Úselo MLflow para realizar un seguimiento y gestionar la fase de experimentación del ciclo de vida del aprendizaje automático (ML) con AWS integraciones para el desarrollo, la gestión, la implementación y el seguimiento de los modelos.

Amazon SageMaker Studio

Crea y gestiona servidores de seguimiento, ejecuta cuadernos para crear experimentos y accede a la MLflow interfaz de usuario para ver y comparar las ejecuciones de los experimentos en Studio.

SageMaker Registro de modelos

Administre las versiones de los modelos y catalogue los modelos para la producción registrando automáticamente los MLflow modelos del registro de SageMaker modelos al registro de modelos. Para obtener más información, consulte Registro automático de los modelos de SageMaker AI con la opción Registro de modelos de SageMaker.

SageMaker Inferencia de IA

Prepare sus mejores modelos para su implementación en un punto final de SageMaker IA utilizandoModelBuilder. Para obtener más información, consulte Implementación de modelos de MLflow con ModelBuilder.

AWS Identity and Access Management

Configure el acceso para MLflow utilizar el control de acceso basado en roles (RBAC) con IAM. Escriba políticas de identidad de IAM para autorizar las llamadas a las MLflow APIs que pueda llamar un cliente de un servidor de seguimiento. MLflow Todos los MLflow REST APIs se representan como acciones de IAM con el prefijo de sagemaker-mlflow servicio. Para obtener más información, consulte Configure los permisos de IAM para MLflow.

AWS CloudTrail

Consulta los inicios de sesión AWS CloudTrail para ayudarte a habilitar la auditoría operativa y de riesgos, la gobernanza y el cumplimiento de tu AWS cuenta. Para obtener más información, consulte AWS CloudTrailregistros.

Amazon EventBridge

Automatice la revisión del modelo y el ciclo de vida de la implementación mediante MLflow los eventos capturados por Amazon EventBridge. Para obtener más información, consulte EventBridge Eventos de Amazon.

Compatible Regiones de AWS

Amazon SageMaker AI with MLflow está disponible de forma general en todas las regiones AWS comerciales en las que está disponible Amazon SageMaker Studio, excepto en las regiones de China. SageMaker La IA con solo MLflow está disponible AWS CLI en la región de Europa (Zúrich), la región de Asia Pacífico (Hyderabad), la región de Asia Pacífico (Melbourne) y la región de Canadá oeste (Calgary).

Los servidores de seguimiento se inician en una única zona de disponibilidad dentro de la región especificada.

Funcionamiento

Un servidor MLflow de seguimiento tiene tres componentes principales: procesamiento, almacenamiento de metadatos en el servidor y almacenamiento de artefactos. La computación que aloja el servidor de seguimiento y el almacenamiento de metadatos de fondo se alojan de forma segura en la cuenta de servicio de SageMaker IA. El almacenamiento de artefactos reside en un depósito de Amazon S3 en tu propia AWS cuenta.

Un diagrama que muestra el almacén de procesamiento y metadatos de un servidor MLflow de seguimiento.

Un servidor de seguimiento tiene un ARN. Puedes usar este ARN para conectar el MLflow SDK a tu servidor de seguimiento y empezar a registrar tus sesiones de entrenamiento. MLflow

Siga leyendo para obtener más información sobre los siguientes conceptos clave:

Almacenamiento de metadatos de backend

Al crear un servidor de MLflow seguimiento, se configura automáticamente en la cuenta de servicio de IA un almacén interno que conserva varios metadatos para cada ejecución, como el identificador de la ejecución, las horas de inicio y finalización, los parámetros y las métricas, y se gestiona por completo en la cuenta de servicio de SageMaker IA.

Almacenamiento de artefactos

Para proporcionar MLflow un almacenamiento persistente para los metadatos de cada ejecución, como pesos de modelos, imágenes, archivos de modelos y archivos de datos para las ejecuciones de sus experimentos, debe crear un almacén de artefactos con Amazon S3. El almacén de artefactos debe estar configurado en su AWS cuenta y debe dar MLflow acceso a Amazon S3 de forma explícita para poder acceder a su almacén de artefactos. Para obtener más información, consulta Artifact Stores en la MLflow documentación.

nota

SageMaker AI MLflow tiene un límite de tamaño de descarga de 200 MB.

MLflow versiones de la aplicación

Las siguientes MLflow versiones están disponibles para su uso con MLflow las aplicaciones de SageMaker IA:

MLflow versión Versión de Python
MLflow 3.4 (última versión) Python 3.9 o posterior

La última versión de la MLflow aplicación incluye las funciones, los parches de seguridad y las correcciones de errores más recientes. Al crear una nueva MLflow aplicación, se actualizará automáticamente a la última versión compatible. Para obtener más información sobre la creación de una MLflow aplicación, consulteMLflow Configuración de la aplicación.

MLflow Las aplicaciones utilizan el control de versiones semántico. Las versiones están en el siguiente formato: major-version.minor-version.patch-version.

MLflow Seguimiento del tamaño de los servidores

Si lo desea, puede especificar el tamaño del servidor de seguimiento en la interfaz de usuario de Studio o con el AWS CLI parámetro--tracking-server-size. Puede elegir entre "Small", "Medium" y "Large". El tamaño de configuración predeterminado del servidor de MLflow rastreo es"Small". Puede elegir un tamaño en función del uso previsto del servidor de seguimiento, como, por ejemplo, el volumen de datos registrados, el número de usuarios y la frecuencia de uso.

Recomendamos utilizar un servidor de seguimiento pequeño para equipos de hasta 25 usuarios, un servidor de seguimiento mediano para equipos de hasta 50 usuarios y un servidor de seguimiento grande para equipos de hasta 100 usuarios. Suponemos que todos los usuarios realizarán solicitudes simultáneas a su servidor MLflow de seguimiento para hacer estas recomendaciones. Debe seleccionar el tamaño del servidor de seguimiento en función del patrón de uso previsto y del valor de TPS (transacciones por segundo) que admite cada servidor de seguimiento.

nota

La naturaleza de la carga de trabajo y el tipo de solicitudes que realice al servidor de seguimiento determinan el valor de TPS que se muestre.

Tamaño del servidor de seguimiento TPS sostenidas TPS de ráfaga
Small Hasta 25 Hasta 50
Medio Hasta 50 Hasta 100
Grande Hasta 100 Hasta 200

Versiones del servidor de seguimiento

Las siguientes MLflow versiones están disponibles para su uso con SageMaker IA:

MLflow versión Versión de Python
MLflow 3.0 (última versión) Python 3.9 o posterior
MLflow 2.16 Python 3.8 o posterior
MLflow 2.13 Python 3.8 o posterior

La versión más reciente del servidor de seguimiento incluye las características más recientes, parches de seguridad y correcciones de errores. Al crear un nuevo servidor de seguimiento, recomendamos utilizar la versión más reciente. Para obtener más información sobre cómo crear un servidor de seguimiento, consulte MLflow Servidores de seguimiento.

MLflow los servidores de seguimiento utilizan el control de versiones semántico. Las versiones están en el siguiente formato: major-version.minor-version.patch-version.

Las últimas características, como los nuevos elementos de la interfaz de usuario y la funcionalidad de la API, están en la versión secundaria.

AWS CloudTrailregistros

AWS CloudTrailregistra automáticamente la actividad relacionada con su servidor MLflow de seguimiento. Se registran las siguientes llamadas a la API del plano de control CloudTrail:

  • CreateMlflowTrackingServer

  • DescribeMlflowTrackingServer

  • UpdateMlflowTrackingServer

  • DeleteMlflowTrackingServer

  • ListMlflowTrackingServers

  • CreatePresignedMlflowTrackingServer

  • StartMlflowTrackingServer

  • StopMlflowTrackingServer

AWS CloudTrailtambién registra automáticamente la actividad relacionada con su plano MLflow de datos. Se registran las siguientes llamadas a la API del plano de datos CloudTrail. Para los nombres de los eventos, añada el prefijo Mlflow (por ejemplo, MlflowCreateExperiment).

  • CreateExperiment

  • CreateModelVersion

  • CreateRegisteredModel

  • CreateRun

  • DeleteExperiment

  • DeleteModelVersion

  • DeleteModelVersionTag

  • DeleteRegisteredModel

  • DeleteRegisteredModelAlias

  • DeleteRegisteredModelTag

  • DeleteRun

  • DeleteTag

  • GetDownloadURIForModelVersionArtifacts

  • GetExperiment

  • GetExperimentByName

  • GetLatestModelVersions

  • GetMetricHistory

  • GetModelVersion

  • GetModelVersionByAlias

  • GetRegisteredModel

  • GetRun

  • ListArtifacts

  • LogBatch

  • LogInputs

  • LogMetric

  • LogModel

  • LogParam

  • RenameRegisteredModel

  • RestoreExperiment

  • RestoreRun

  • SearchExperiments

  • SearchModelVersions

  • SearchRegisteredModels

  • SearchRuns

  • SetExperimentTag

  • SetModelVersionTag

  • SetRegisteredModelAlias

  • SetRegisteredModelTag

  • SetTag

  • TransitionModelVersionStage

  • UpdateExperiment

  • UpdateModelVersion

  • UpdateRegisteredModel

  • UpdateRun

  • FinalizeLoggedModel

  • GetLoggedModel

  • DeleteLoggedModel

  • SearchLoggedModels

  • SetLoggedModelTags

  • DeleteLoggedModelTag

  • ListLoggedModelArtifacts

  • LogLoggedModelParams

  • LogOutputs

Para obtener más información al respecto CloudTrail, consulte la Guía AWS CloudTrail del usuario.

EventBridge Eventos de Amazon

Úselo EventBridge para redirigir los eventos desde su uso MLflow con la SageMaker IA hasta las aplicaciones de consumo en toda su organización. Se emiten los siguientes eventos a EventBridge:

  • «Creación SageMaker de un servidor de seguimiento»

  • «Se creó SageMaker un servidor de rastreo»

  • «Falló la creación del servidor de SageMaker rastreo»

  • «Actualización del servidor de SageMaker seguimiento»

  • «Servidor SageMaker de seguimiento actualizado»

  • «Falló la actualización del servidor de SageMaker rastreo»

  • «Eliminación del servidor de SageMaker rastreo»

  • «Servidor SageMaker de rastreo eliminado»

  • «Falló la eliminación del servidor de SageMaker rastreo»

  • «Se está SageMaker iniciando el servidor de rastreo»

  • «Se inició SageMaker el servidor de rastreo»

  • «Falló el inicio del servidor de SageMaker rastreo»

  • «SageMaker El servidor de rastreo se detiene»

  • «SageMaker El servidor de rastreo se detuvo»

  • «Falló la parada del servidor de SageMaker rastreo»

  • «SageMaker El mantenimiento del servidor de seguimiento está en curso»

  • «Se SageMaker ha completado el mantenimiento del servidor de rastreo»

  • «Falló el mantenimiento del servidor de SageMaker rastreo»

  • «SageMaker MLFlow El servidor de seguimiento está creando una ejecución»

  • «Creación SageMaker MLFlow de un servidor de seguimiento RegisteredModel»

  • «Creación SageMaker MLFlow de un servidor de seguimiento ModelVersion»

  • « ModelVersion Etapa de transición del servidor de SageMaker MLFlow seguimiento»

  • «SageMaker MLFlow El servidor de seguimiento establece un alias de modelo registrado»

Para obtener más información al respecto EventBridge, consulta la Guía del EventBridge usuario de Amazon.