Características admitidas

Amazon SageMaker AI ofrece las siguientes cuatro opciones para implementar modelos de inferencia.

Real-time inferencia para cargas de trabajo de inferencia con requisitos de baja latencia, interactivos y en tiempo real.
Transformación por lotes para inferencias fuera de línea con grandes conjuntos de datos.
Inferencia asíncrona para realizar inferencias prácticamente en tiempo real con entradas de gran tamaño que requieren tiempos de preprocesamiento más prolongados.
Inferencia sin servidor para cargas de trabajo de inferencia que tienen períodos de inactividad entre picos de tráfico repentinos.

En la siguiente tabla se resumen las funciones principales de la plataforma compatibles con cada opción de inferencia. No muestra las funciones que pueden proporcionar los marcos, los contenedores Docker personalizados o el encadenamiento de diferentes servicios AWS .

Característica	Real-time inferencia	Transformación por lotes	Inferencia asíncrona	Inferencia sin servidor	Contenedores de Docker
Soporte de escalado automático	✓	N/A	✓	✓	N/A
Soporte de GPU	✓¹	✓¹	✓¹		1P, prediseñado, BYOC
Modelo único	✓	✓	✓	✓	N/A
Multi-model punto de conexión	✓				^{K-nn, XGBoost, Linear Learner, RCF, Apache MXNet TensorFlow, scikit-learn 2 PyTorch}
Multi-container punto de conexión	✓				1P, prediseñado, Extend prediseñado, BYOC
Canalización de inferencia en serie	✓	✓			1P, prediseñado, Extend prediseñado, BYOC
Recomendador de inferencias	✓				1P, prediseñado, Extend prediseñado, BYOC
Compatibilidad con enlace privado	✓	✓	✓		N/A
capture/Model Soporte para monitores de datos	✓	✓			N/A
Compatible con DLC	1P, prediseñado, Extend prediseñado, BYOC	1P, prediseñado, Extend prediseñado, BYOC	1P, prediseñado, Extend prediseñado, BYOC	1P, prediseñado, Extend prediseñado, BYOC	N/A
Protocolos admitidos	HTTP(S)	HTTP(S)	HTTP(S)	HTTP(S)	N/A
Tamaño de carga	< 6 MB	≤ 100 MB	≤ 1 GB	≤ 4 MB
Codificación fragmentada HTTP	Depende del marco, no se admite 1P	N/A	Depende del marco, no se admite 1P	Depende del marco, no se admite 1P	N/A
Solicita tiempo de espera	< 60 segundos	Días	1 hora	< 60 segundos	N/A
Barandillas de despliegue: despliegues blue/green	✓	N/A	✓		N/A
Barreras de protección de implementación: implementaciones continuas	✓	N/A	✓		N/A
Pruebas de sombra	✓				N/A
Escalado a cero		N/A	✓	✓	N/A
Compatibilidad con los paquetes modelo de Market Place	✓	✓	✓		N/A
Compatibilidad con nubes virtuales privadas	✓	✓	✓		N/A
Compatibilidad con múltiples variantes de producción	✓				N/A
Aislamiento de red	✓		✓		N/A
Compatibilidad con servicio paralelo modelo	✓³	✓	✓³		✓³
Cifrado de volumen	✓	✓	✓	✓	N/A
¿Cliente AWS KMS	✓	✓	✓	✓	N/A
Instancias compatibles d	✓	✓	✓		N/A
soporte inf1	✓				✓

Con la SageMaker IA, puede implementar un solo modelo o varios modelos detrás de un único punto final de inferencia para realizar inferencias en tiempo real. En la siguiente tabla se resumen las funciones principales compatibles con las distintas opciones de alojamiento que vienen con la inferencia en tiempo real.

Característica	Puntos de conexión de modelo único	Multi-model puntos finales	Canalización de inferencia en serie	Multi-container puntos finales
Soporte de escalado automático	✓	✓	✓	✓
Soporte de GPU	✓ ¹	✓	✓
Modelo único	✓	✓	✓	✓
Multi-model puntos finales		✓	✓	N/A
Multi-container puntos finales	✓			N/A
Canalización de inferencia en serie	✓	✓	N/A
Recomendador de inferencias	✓
Compatibilidad con enlace privado	✓	✓	✓	✓
Soporte para capture/Model monitores de datos	✓	N/A	N/A	N/A
Compatible con DLC	1P, prediseñado, Extend prediseñado, BYOC	^{K-nn, XGBoost, Linear Learner, RCF, Apache MXNet TensorFlow, scikit-learn 2 PyTorch}	1P, prediseñado, Extend prediseñado, BYOC	1P, prediseñado, Extend prediseñado, BYOC
Protocolos admitidos	HTTP(S)	HTTP(S)	HTTP(S)	HTTP(S)
Tamaño de carga	< 6 MB	< 6 MB	< 6 MB	< 6 MB
Tiempo de espera de solicitud	< 60 segundos	< 60 segundos	< 60 segundos	< 60 segundos
Barandillas de despliegue: despliegues blue/green	✓	✓	✓	✓
Barreras de protección de implementación: implementaciones continuas	✓	✓	✓	✓
Pruebas de sombra	✓
Compatibilidad con los paquetes modelo de Market Place	✓
Compatibilidad con nubes virtuales privadas	✓	✓	✓	✓
Compatibilidad con múltiples variantes de producción	✓		✓	✓
Aislamiento de red	✓	✓	✓	✓
Compatibilidad con servicio paralelo modelo	✓ ³		✓ ³
Cifrado de volumen	✓	✓	✓	✓
¿Cliente AWS KMS	✓	✓	✓	✓
Instancias compatibles d	✓	✓	✓	✓
soporte inf1	✓

¹ La disponibilidad de los tipos de instancias de Amazon EC2 depende de la AWS región. Para conocer la disponibilidad de instancias específicas de Amazon AI AWS, consulte los precios de Amazon SageMaker AI.

² Para utilizar cualquier otro marco o algoritmo, utilice el kit de herramientas de inferencia de SageMaker IA para crear un contenedor que admita puntos finales multimodelo.

³ Con la SageMaker IA, puede implementar modelos grandes (hasta 500 GB) para realizar inferencias. Puede configurar la comprobación del estado del contenedor y los tiempos de espera de descarga, de hasta 60 minutos. Esto le permitirá disponer de más tiempo para descargar y cargar el modelo y los recursos asociados. Para obtener más información, consulte SageMaker Parámetros de punto final de IA para inferencia de modelos grandes. Puede utilizar contenedores de inferencia de modelos grandes compatibles con la SageMaker IA. También puede utilizar bibliotecas de paralelización de modelos de terceros, como Triton with y. FasterTransformer DeepSpeed Tienes que asegurarte de que sean compatibles con la IA. SageMaker

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Actualización de los contenedores para el kit de herramientas de contenedores de NVIDIA

Recursos