Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Implementación de modelos en Amazon SageMaker HyperPod
Amazon SageMaker HyperPod ahora va más allá de la formación para ofrecer una plataforma de inferencia integral que combina la flexibilidad de Kubernetes con la excelencia operativa de los servicios gestionados. AWS Implemente, escale y optimice sus modelos de aprendizaje automático con una confiabilidad de nivel empresarial utilizando el mismo HyperPod cómputo durante todo el ciclo de vida del modelo.
Amazon SageMaker HyperPod ofrece interfaces de implementación flexibles que le permiten implementar modelos a través de varios métodos, incluidos kubectl, Python SDK, Amazon SageMaker Studio UI o CLI. HyperPod Este servicio proporciona capacidades avanzadas de escalado automático con una asignación dinámica de recursos que se ajusta automáticamente en función de la demanda. Además, incluye funciones integrales de observabilidad y monitoreo que rastrean métricas críticas como time-to-first-token la latencia y el uso de la GPU para ayudarlo a optimizar el rendimiento.
nota
Al realizar la implementación en instancias habilitadas para la GPU, puede utilizar la partición de la GPU con la tecnología de GPU de instancias múltiples (MIG) para ejecutar varias cargas de trabajo de inferencia en una sola GPU. Esto permite un mejor uso de la GPU y una optimización de los costes. Para obtener más información sobre la configuración de las particiones de la GPU, consulteUso de particiones de GPU en Amazon SageMaker HyperPod.
Infraestructura unificada para entrenamiento e inferencia
Maximice el uso de la GPU mediante una transición sin interrupciones de los recursos de computación entre las cargas de trabajo de entrenamiento y de inferencia. De este modo, se reduce el costo total de propiedad y, al mismo tiempo, se mantiene la continuidad operativa.
Opciones de implementación listas para la empresa
Implemente modelos de múltiples fuentes, incluidos modelos de pesos abiertos y cerrados de Amazon SageMaker JumpStart y modelos personalizados de Amazon S3 y Amazon FSx con soporte para arquitecturas de inferencia de un solo nodo y de varios nodos.
Almacenamiento en caché de valores clave (KV) por niveles gestionado y enrutamiento inteligente
El almacenamiento en caché KV guarda los vectores clave-valor precalculados después de procesar los tokens anteriores. Cuando se procesa el siguiente token, no es necesario volver a calcular los vectores. Mediante una arquitectura de almacenamiento en caché de dos niveles, puede configurar una caché de nivel 1 que utilice la memoria de la CPU para la reutilización local de baja latencia y una caché de nivel 2 que utilice Redis para permitir el uso compartido de la caché a nivel de nodo de forma escalable.
El enrutamiento inteligente analiza las solicitudes entrantes y las dirige a la instancia de inferencia que tiene más probabilidades de tener los pares clave-valor relevantes almacenados en caché. El sistema examina la solicitud y, a continuación, la enruta en función de una de las siguientes estrategias de enrutamiento:
prefixaware— Las solicitudes posteriores con el mismo prefijo de solicitud se envían a la misma instanciakvaware— Las solicitudes entrantes se envían a la instancia con la tasa de aciertos de caché de KV más alta.session— Las solicitudes de la misma sesión de usuario se envían a la misma instancia.roundrobin— Distribución uniforme de las solicitudes sin tener en cuenta el estado de la caché KV.
Para obtener más información sobre cómo habilitar esta función, consulteConfigure el almacenamiento en caché KV y el enrutamiento inteligente para mejorar el rendimiento.
Almacenamiento en niveles de caché L2 incorporado: soporte para almacenamiento en caché KV
Basándose en la infraestructura de caché KV existente, HyperPod ahora integra el almacenamiento por niveles como una opción de backend L2 adicional junto con Redis. Con el almacenamiento en niveles SageMaker gestionado incorporado, esto ofrece un rendimiento mejorado. Esta mejora proporciona a los clientes una opción más escalable y eficiente para la descarga de caché, lo que resulta especialmente beneficioso para las cargas de trabajo de inferencia LLM de alto rendimiento. La integración mantiene la compatibilidad con los servidores modelo VLLM existentes y las capacidades de enrutamiento, a la vez que ofrece un mejor rendimiento.
nota
Recopilamos ciertas métricas operativas de rutina para proporcionar la disponibilidad de los servicios esenciales. La creación de estas métricas está totalmente automatizada y no implica una revisión humana de la carga de trabajo de inferencia del modelo subyacente. Estas métricas se refieren a las operaciones de despliegue, la administración de recursos y el registro de los terminales.
Temas
Configuración de los HyperPod clústeres para la implementación de modelos
Implementación de modelos fundacionales y modelos de ajuste fino personalizados
Políticas de escalado automático para la implementación de su modelo de HyperPod inferencia
Implementación de la observabilidad de inferencias en clústeres HyperPod
Gobierno de tareas para el despliegue del modelo en HyperPod