Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Acelere MLOps con las plantillas Backstage y de autoservicio de Amazon AI SageMaker
Ashish Bhatt, Shashank Hirematt y Shivanshu Suryakar, de Amazon Web Services
Resumen
Las organizaciones que utilizan sistemas de operaciones de aprendizaje automático (MLOps) se enfrentan a importantes desafíos a la hora de escalar, estandarizar y proteger su infraestructura de aprendizaje automático. Este patrón presenta un enfoque transformador que combina Backstage
Los módulos de IaC para este patrón se proporcionan en el repositorio de módulos. GitHub AWS AIOps
Al utilizar Backstage como plataforma de autoservicio e integrar plantillas de SageMaker IA preconfiguradas, puede:
Acelere la rentabilidad de sus iniciativas de aprendizaje automático.
Ayude a garantizar una seguridad y una gobernanza coherentes.
Proporcione a los científicos de datos entornos estandarizados y que cumplan con las normas.
Reduzca los gastos operativos y la complejidad de la infraestructura.
Este patrón proporciona una solución que aborda los desafíos críticos MLOps y también proporciona un marco escalable y repetible que permite la innovación y, al mismo tiempo, mantiene los estándares organizacionales.
Público objetivo
Este patrón está dirigido a una amplia audiencia relacionada con el aprendizaje automático, la arquitectura de nube y la ingeniería de plataformas dentro de una organización. Esto incluye:
Ingenieros de aprendizaje automático que desean estandarizar y automatizar las implementaciones de flujos de trabajo de aprendizaje automático.
Científicos de datos que desean un acceso de autoservicio a entornos de aprendizaje automático preconfigurados y que cumplan con las normas.
Ingenieros de plataformas que se encargan de crear y mantener las plataformas internas para desarrolladores y la infraestructura compartida.
Arquitectos de nube que diseñan soluciones en la nube escalables, seguras y rentables para MLOps.
DevOps ingenieros interesados en extender las prácticas de integración continua y entrega continua (CI/CD) al aprovisionamiento de infraestructuras y flujos de trabajo de aprendizaje automático.
Líderes técnicos y gerentes que supervisan las iniciativas de aprendizaje automático y desean mejorar la productividad del equipo, la gobernanza y el tiempo de comercialización.
Para obtener más información sobre MLOps los desafíos, los MLOps módulos de SageMaker IA y cómo la solución proporcionada por este patrón puede satisfacer las necesidades de sus equipos de aprendizaje automático, consulte la sección de información adicional.
Requisitos previos y limitaciones
Requisitos previos
AWS Identity and Access Management Funciones y permisos
(IAM) para aprovisionar recursos en su Cuenta de AWS Comprensión de los conceptos de Amazon SageMaker Studio, SageMaker Projects, SageMaker Pipelines y SageMaker Model Registry
Comprensión de los principios de la IaC y experiencia con herramientas como la AWS Cloud Development Kit (AWS CDK)
Limitaciones
Cobertura limitada de plantillas. Actualmente, la solución solo admite los AIOps módulos SageMaker relacionados con la IA de la AIOps solución
más amplia. Otros módulos, como Ray en Amazon Elastic Kubernetes Service (Amazon EKS), MLflow Apache Airflow y el ajuste de precisión para Amazon Bedrock, aún no están disponibles como plantillas de Backstage. Ajustes predeterminados no configurables. Las plantillas utilizan configuraciones predeterminadas fijas de los AIOps SageMaker módulos sin personalización. No puede modificar los tipos de instancias, los tamaños de almacenamiento, las configuraciones de red ni las políticas de seguridad a través de la interfaz Backstage, lo que limita la flexibilidad para casos de uso específicos.
AWS-solo soporte. La plataforma está diseñada exclusivamente para AWS despliegues y no admite escenarios multinube. Organizations que utilizan servicios en la nube de forma externa Nube de AWS no pueden usar estas plantillas para sus necesidades de infraestructura de aprendizaje automático.
Administración manual de credenciales. Debe proporcionar manualmente sus AWS credenciales para cada implementación. Esta solución no proporciona la integración con los proveedores de identidad corporativa ni la rotación automática de credenciales. AWS IAM Identity Center
Administración del ciclo de vida limitado. Las plantillas carecen de funciones integrales de gestión del ciclo de vida de los recursos, como políticas de limpieza automatizadas, recomendaciones de optimización de costes y detección de desviaciones en la infraestructura. Debe gestionar y supervisar manualmente los recursos desplegados tras su creación.
Arquitectura
El siguiente diagrama muestra la arquitectura de la solución para un portal de desarrolladores unificado que estandariza y acelera la implementación de la infraestructura de aprendizaje automático con SageMaker IA en todos los entornos.

En esta arquitectura:
AWS los planes de modernización de aplicaciones
proporcionan la configuración de la infraestructura con un clúster de Amazon EKS como base para el marco Cloud Native Operational Excellence (CNOE) . Esta solución integral aborda los complejos desafíos de administración de la infraestructura nativa de la nube al proporcionar una plataforma de desarrollador interna (IDP) escalable. Los planes ofrecen un enfoque estructurado para configurar una infraestructura sólida y flexible que pueda adaptarse a las cambiantes necesidades organizativas. El marco de código abierto CNOE consolida las DevOps herramientas y resuelve la fragmentación del ecosistema mediante un enfoque unificado de ingeniería de plataformas. Al reunir herramientas y tecnologías dispares, simplifica el complejo panorama del desarrollo nativo de la nube para que sus equipos puedan centrarse en la innovación en lugar de en la gestión de la cadena de herramientas. El marco proporciona una metodología estandarizada para seleccionar, integrar y gestionar las herramientas de desarrollo.
Con CNOE, Backstage se implementa como una out-of-the-box solución dentro del clúster de Amazon EKS. Backstage incluye una autenticación sólida a través de Keycloak
y flujos de trabajo de implementación integrales a través de Argo CD. Esta plataforma integrada crea un entorno centralizado para gestionar los procesos de desarrollo y proporciona un único lugar para que los equipos accedan, desplieguen y supervisen su infraestructura y aplicaciones en varios entornos. Un GitHub repositorio contiene plantillas de AIOps software preconfiguradas que cubren todo el ciclo de vida de la SageMaker IA. Estas plantillas abordan las necesidades críticas de infraestructura de aprendizaje automático, como el aprovisionamiento de SageMaker Studio, la formación de modelos, los procesos de inferencia y la supervisión de modelos. Estas plantillas te ayudan a acelerar tus iniciativas de aprendizaje automático y a garantizar la coherencia entre los distintos proyectos y equipos.
GitHub Actions
implementa un flujo de trabajo automatizado que activa de forma dinámica el aprovisionamiento de recursos a través de la utilidad Seed-Farmer . Este enfoque integra el catálogo de Backstage con el repositorio de AIOps módulos y crea un proceso de despliegue de infraestructura simplificado. La automatización reduce la intervención manual, minimiza los errores humanos y garantiza una creación de infraestructura rápida y coherente en diferentes entornos. AWS CDKEsto le ayuda a definir y aprovisionar la infraestructura como código, y garantiza un despliegue de recursos repetible, seguro y compatible en todos los entornos especificados. Cuentas de AWS Este enfoque proporciona el máximo control con una intervención manual mínima, de modo que puede crear plantillas de infraestructura estandarizadas que se puedan replicar, controlar las versiones y auditar fácilmente.
Herramientas
Servicios de AWS
AWS Cloud Development Kit (AWS CDK)es un marco de desarrollo de software que le ayuda a definir y aprovisionar Nube de AWS la infraestructura en código.
Amazon Elastic Kubernetes Service (Amazon EKS) le ayuda a ejecutar AWS Kubernetes sin necesidad de instalar ni mantener su propio plano de control o nodos de Kubernetes.
Amazon SageMaker AI es un servicio de aprendizaje automático gestionado que le ayuda a crear y entrenar modelos de aprendizaje automático y, a continuación, implementarlos en un entorno hospedado listo para la producción.
Otras herramientas
Backstage
es un marco de código abierto que le ayuda a crear portales internos para desarrolladores. GitHub Actions
es una CI/CD plataforma que automatiza los flujos de trabajo de desarrollo de software, incluidas tareas como la creación, las pruebas y la implementación de código.
Repositorios de código
Este patrón utiliza código y plantillas de los siguientes GitHub repositorios:
Implementación
Esta implementación utiliza un patrón de despliegue de nivel de producción para Backstage tomado del repositorio Modern Engineering on
La sección Epics de este patrón describe el enfoque de implementación. Para obtener instrucciones de step-by-step implementación detalladas, consulte la guía de implementación
Despliegue inicial de la plataforma Backstage
Integración de plantillas de SageMaker software con Backstage
Consumo y mantenimiento de plantillas de Backstage
La guía de implementación también incluye instrucciones para el mantenimiento continuo, la solución de problemas y el escalado de la plataforma.
Prácticas recomendadas
Siga estas prácticas recomendadas para garantizar la seguridad, la gobernanza y la excelencia operativa en sus implementaciones de MLOps infraestructura.
Administración de plantillas
Nunca realices cambios importantes en las plantillas activas.
Pruebe siempre las actualizaciones minuciosamente antes de implementarlas en producción.
Mantenga versiones de plantillas claras y bien documentadas.
Seguridad
Fije GitHub las acciones a algoritmos de hash seguros y específicos (SHAs) para ayudar a prevenir los ataques a la cadena de suministro.
Utilice funciones de IAM con privilegios mínimos con permisos granulares.
Guarde las credenciales confidenciales en GitHub Secrets
y. AWS Secrets Manager Nunca codifique las credenciales de forma rígida en las plantillas.
Gobernanza y seguimiento
Implemente estándares integrales de etiquetado de recursos.
Permita un seguimiento preciso de los costes y la supervisión del cumplimiento.
Mantenga registros de auditoría claros para detectar los cambios en la infraestructura.
Esta guía proporciona una base sólida para implementar estas mejores prácticas mediante el uso de los módulos Backstage, SageMaker AI e IaC.
Epics
| Tarea | Descripción | Habilidades requeridas |
|---|---|---|
Implemente Backstage. | En este paso, se utilizan los planos del AWS repositorio Modern Engineering on La infraestructura utiliza Amazon EKS como plataforma de organización de contenedores para implementar componentes de IDP. La arquitectura Amazon EKS incluye configuraciones de red seguras para establecer patrones estrictos de acceso y aislamiento de la red. La plataforma se integra con los mecanismos de autenticación para ayudar a proteger el acceso de los usuarios a todos los servicios y entornos. | Ingeniero de plataformas |
Configura tus plantillas de SageMaker IA. | En este paso, se utilizan los scripts de la plataforma GitHub AIOps interna para desarrolladores (IDP) con el repositorio de Backstage Este proceso crea un repositorio que contiene las plantillas de SageMaker IA necesarias para la integración con Backstage. | Ingeniero de plataformas |
Integre las plantillas de SageMaker IA con Backstage. | Siga las instrucciones de la sección de integración de SageMaker plantillas Este paso integra los AIOps módulos (plantillas de SageMaker IA del último paso) en tu implementación de Backstage para que puedas gestionar tus necesidades de infraestructura de aprendizaje automático de forma autogestionada. | Ingeniero de plataformas |
Usa las plantillas de SageMaker IA de Backstage. | Siga las instrucciones de la sección Uso de SageMaker plantillas En el portal de Backstage, puedes seleccionar entre las plantillas de SageMaker IA disponibles, incluidas opciones para entornos de SageMaker Studio, SageMaker libretas, plantillas de SageMaker proyectos personalizadas y procesos de implementación de modelos. Tras proporcionar los parámetros de configuración, la plataforma crea repositorios dedicados automáticamente y aprovisiona los AWS recursos a través GitHub de Actions y Seed-Farmer. Puede supervisar el progreso mediante los registros de GitHub acciones y el catálogo de componentes de Backstage. | Científico de datos, ingeniero de datos, desarrollador |
| Tarea | Descripción | Habilidades requeridas |
|---|---|---|
Actualice las plantillas de SageMaker IA. | Para actualizar una plantilla de SageMaker IA en Backstage, sigue estos pasos.
| Ingeniero de plataformas |
Cree y gestione varias versiones de una plantilla. | Para realizar cambios o mejoras importantes, es posible que desees crear varias versiones de una plantilla de SageMaker IA.
| Ingeniero de plataformas |
| Tarea | Descripción | Habilidades requeridas |
|---|---|---|
Amplíe la cobertura de plantillas más allá de la SageMaker IA. | La solución actual solo implementa AIOps plantillas SageMaker relacionadas con la IA. Puede ampliar el entorno de aprendizaje automático añadiendo AIOps módulos También puede implementar patrones de herencia de plantillas para crear versiones especializadas de plantillas base. Esta extensibilidad le permite administrar diversos AWS recursos y aplicaciones además de la SageMaker IA, al tiempo que conserva la experiencia simplificada de los desarrolladores y mantiene los estándares de su organización. | Ingeniero de plataformas |
Utilice la inyección dinámica de parámetros. | Las plantillas actuales utilizan configuraciones predeterminadas sin personalización y ejecutan la CLI de Seed-Farmer para implementar recursos con variables predeterminadas. Puede ampliar la configuración predeterminada mediante la inyección dinámica de parámetros para las configuraciones específicas del módulo. | Ingeniero de plataformas |
Mejore la seguridad y el cumplimiento. | Para mejorar la seguridad en la creación de los recursos de AWS, puede habilitar la integración del control de acceso basado en roles (RBAC) con el inicio de sesión único (SSO), SAML, OpenID Connect (OIDC) y políticas como aplicación del código. | Ingeniero de plataformas |
Añada una limpieza de recursos automatizada. | Puede habilitar funciones para políticas de limpieza automatizadas y, además, añadir funciones de detección y corrección de desviaciones en la infraestructura. | Ingeniero de plataformas |
| Tarea | Descripción | Habilidades requeridas |
|---|---|---|
Elimine la infraestructura y los recursos de SageMaker IA de Backstage. | Cuando haya terminado de usar su entorno de aprendizaje automático, siga las instrucciones de la sección Limpieza y administración de recursos | Ingeniero de plataformas |
Solución de problemas
| Problema | Solución |
|---|---|
AWS CDK errores de arranque | Compruebe AWS las credenciales y la configuración de la región. |
Problemas de acceso al clúster de Amazon EKS | Compruebe la configuración de kubectl y los permisos de IAM. |
Problemas de conectividad de Application Load Balancer | Asegúrese de que los grupos de seguridad permitan el tráfico entrante en el puerto 80/443. |
GitHub problemas de integración | Verifique los permisos de los GitHub tokens y el acceso a la organización. |
SageMaker Fallos de implementación de la IA | Compruebe Servicio de AWS las cuotas y los permisos de IAM. |
Recursos relacionados
Ingeniería de plataformas (en la guía AWS Cloud Adoption Framework: Platform perspective)
Plantillas de software Backstage (sitio
web de Backstage) AIOps repositorio de módulos
(colección de módulos IaC reutilizables para ML) AIOps plataforma interna para desarrolladores (IDP) con repositorio Backstage
Ingeniería moderna
en el repositorio AWS
Información adicional
Retos empresariales
Las organizaciones que se embarcan en sus MLOps iniciativas o las amplían con frecuencia se enfrentan a los siguientes desafíos empresariales y técnicos:
Entornos incoherentes. La falta de entornos de desarrollo e implementación estandarizados dificulta la colaboración y aumenta los riesgos de implementación.
Gastos generales de aprovisionamiento manual. La configuración manual de una infraestructura de aprendizaje automático con SageMaker Studio, los depósitos de Amazon Simple Storage Service (Amazon S3), las funciones de IAM y las canalizaciones lleva mucho tiempo CI/CD y es propensa a errores, y desvía a los científicos de datos de su tarea principal de desarrollar modelos.
Falta de capacidad de descubrimiento y reutilización. La falta de un catálogo centralizado dificulta la búsqueda de los modelos, conjuntos de datos y canalizaciones de aprendizaje automático existentes. Esto lleva a que el trabajo sea redundante y a que se pierdan oportunidades de reutilización.
Gobernanza y cumplimiento complejos. Garantizar que los proyectos de aprendizaje automático cumplan con las políticas de seguridad de la organización, las normas de privacidad de datos y las normas de cumplimiento, como la Ley de Portabilidad y Responsabilidad de los Seguros de Salud (HIPAA) y el Reglamento General de Protección de Datos (GDPR), puede ser un desafío sin barreras automatizadas.
Reduzca el tiempo para generar valor. El efecto acumulativo de estos desafíos se traduce en ciclos de vida prolongados de los proyectos de aprendizaje automático y retrasa la obtención del valor empresarial derivado de las inversiones en aprendizaje automático.
Riesgos de seguridad. Las configuraciones incoherentes y los procesos manuales pueden introducir vulnerabilidades de seguridad que dificultan la aplicación de los privilegios mínimos y el aislamiento de la red.
Estos problemas prolongan los ciclos de desarrollo, aumentan la sobrecarga operativa e introducen riesgos de seguridad. La naturaleza iterativa del aprendizaje automático requiere flujos de trabajo repetibles y una colaboración eficiente.
Gartner prevé que para 2026, el 80% de las organizaciones de ingeniería de software contarán con equipos de plataformas. (Consulte La ingeniería de plataformas permite a los desarrolladores ser mejores, más rápidos y más felices en el sitio web
MLOps SageMaker módulos
Los AIOps módulos
El uso directo de AIOps los módulos suele requerir que los equipos de plataformas implementen y administren estas plantillas de IaC, lo que puede suponer un desafío para los científicos de datos que desean un acceso de autoservicio. Para descubrir y comprender las plantillas disponibles, configurar los parámetros necesarios y activar su implementación, es posible que sea necesario navegar por las Servicio de AWS consolas o interactuar directamente con las herramientas de la iAc. Esto puede generar fricciones, aumentar la carga cognitiva de los científicos de datos que prefieren centrarse en las tareas de aprendizaje automático y, si estas plantillas no se gestionan a través de una interfaz centralizada y fácil de usar, puede provocar una parametrización incoherente o desviarse de los estándares de la organización. La integración de estos potentes AIOps módulos con un IDP como Backstage ayuda a abordar estos desafíos, ya que proporciona una experiencia de autoservicio optimizada, una mayor capacidad de detección y controles de gobierno más sólidos para utilizar estos componentes estandarizados. MLOps
Entre bastidores como IDP
Una plataforma interna para desarrolladores (IDP) es una capa de autoservicio creada por equipos de plataformas para simplificar y estandarizar la forma en que los desarrolladores crean, implementan y administran las aplicaciones. Abstrae la complejidad de la infraestructura y proporciona a los desarrolladores un fácil acceso a las herramientas, los entornos y los servicios a través de una interfaz unificada.
El objetivo principal de un IDP es mejorar la experiencia y la productividad de los desarrolladores mediante:
Habilitar el autoservicio para tareas como la creación y el despliegue de servicios.
Promover la coherencia y el cumplimiento mediante plantillas estándar.
Integrar herramientas en todo el ciclo de vida del desarrollo (CI/CD, monitoreo y documentación).
Backstage es un portal para desarrolladores de código abierto creado por Spotify y que ahora forma parte de la Cloud Native Computing Foundation (CNCF). Ayuda a las organizaciones a crear su propio IDP al proporcionar una plataforma centralizada y ampliable para administrar los componentes, las herramientas y la documentación del software. Con Backstage, los desarrolladores pueden:
Descubra y gestione todos los servicios internos a través de un catálogo de software.
Cree nuevos proyectos utilizando plantillas predefinidas a través del complemento scaffolder.
Acceda a herramientas integradas, como CI/CD canalizaciones, paneles de Kubernetes y sistemas de monitoreo desde un solo lugar.
Mantenga una documentación coherente y basada en rebajas en todo momento. TechDocs
PREGUNTAS FRECUENTES
¿Cuál es la diferencia entre usar esta plantilla de Backstage y desplegar SageMaker Studio manualmente a través de la consola? SageMaker
La plantilla Backstage ofrece varias ventajas en comparación con el despliegue manual de la AWS consola, como las configuraciones estandarizadas que siguen las mejores prácticas de la organización, el despliegue automatizado del iAC con Seed-Farmer y las políticas de seguridad integradas y las medidas de cumplimiento AWS CDK, y la integración mediante los flujos de trabajo de los desarrolladores de la organización. GitHub La plantilla también crea despliegues reproducibles con control de versiones, lo que facilita la replicación de los entornos en diferentes etapas (desarrollo, puesta en escena, producción) y mantiene la coherencia entre los equipos. Además, la plantilla incluye funciones de limpieza automatizadas y se integra con el sistema de gestión de identidades de su organización a través de Backstage. La implementación manual a través de la consola requiere una AWS amplia experiencia y no proporciona control de versiones ni el mismo nivel de estandarización y gobernanza que ofrece la plantilla. Por estas razones, las implementaciones de consola son más adecuadas para experimentos puntuales que los entornos de aprendizaje automático de producción.
¿Qué es Seed-Farmer y por qué lo utiliza esta solución?
Seed-Farmer es una herramienta de organización de AWS despliegues que gestiona los módulos de infraestructura mediante el uso de. AWS CDK Este patrón utiliza Seed-Farmer porque proporciona componentes de infraestructura estandarizados y reutilizables que están diseñados específicamente para las AI/ML cargas de trabajo, gestiona Servicios de AWS automáticamente las complejas dependencias entre ellos y garantiza despliegues consistentes en diferentes entornos.
¿Necesito instalar el para usar estas plantillas? AWS CLI
No, no es necesario que lo instales AWS CLI en tu ordenador. Las plantillas se ejecutan íntegramente a través de GitHub Actions en la nube. AWS Las credenciales (clave de acceso, clave secreta y token de sesión) se proporcionan a través de la interfaz de Backstage y el despliegue se realiza automáticamente en el entorno de GitHub Actions.
¿Cuánto tiempo se tarda en implementar un entorno de SageMaker Studio?
Una implementación típica de SageMaker Studio tarda entre 15 y 25 minutos en completarse. Esto incluye el AWS CDK arranque (de 2 a 3 minutos), la configuración de la cadena de herramientas de Seed-Farmer (de 3 a 5 minutos) y la creación de recursos (de 10 a 15 minutos). El tiempo exacto depende de su configuración de red Región de AWS y de la complejidad de la misma.
¿Puedo implementar varios SageMaker entornos en el mismo Cuenta de AWS?
Sí, puede. Cada implementación crea recursos con nombres únicos en función del nombre del componente que proporcione en la plantilla. Sin embargo, tenga en cuenta las Servicio de AWS cuotas: cada cuenta puede tener un número limitado de SageMaker dominios por región, así que compruebe sus cuotas antes de crear varios entornos.