Alojamiento general Inferencia en tiempo real Inferencia sin servidor Transformación por lotes Inferencia asíncrona

Hospedaje de modelos FAQs

Consulte las siguientes preguntas frecuentes para obtener respuestas a las preguntas más frecuentes sobre SageMaker AI Inference Hosting.

Alojamiento general

Los siguientes artículos de preguntas frecuentes responden a preguntas generales comunes sobre la inferencia de SageMaker IA.

R: Después de crear y entrenar modelos, Amazon SageMaker AI ofrece cuatro opciones para implementarlos para que pueda empezar a hacer predicciones. La inferencia en tiempo real es adecuada para cargas de trabajo con requisitos de latencia de milisegundos, tamaños de carga útil de hasta 25 MB y tiempos de procesamiento de hasta 60 segundos para las respuestas regulares y 8 segundos para las respuestas de transmisión. La transformación por lotes es ideal para realizar predicciones sin conexión en grandes lotes de datos que están disponibles por adelantado. La inferencia asíncrona está diseñada para cargas de trabajo que no requieren una latencia inferior a un segundo, tamaños de carga útil de hasta 1 GB y tiempos de procesamiento de hasta 60 minutos. Con la inferencia sin servidor, puede implementar rápidamente modelos de machine learning para realizar inferencias sin tener que configurar ni administrar la infraestructura subyacente, y solo paga por la capacidad de cómputo utilizada para procesar las solicitudes de inferencia, lo que resulta ideal para cargas de trabajo intermitentes.

Si desea procesar las solicitudes en lotes, puede elegir la transformación por lotes. De lo contrario, si desea recibir inferencias para cada solicitud a su modelo, es posible que prefiera elegir la inferencia asíncrona, la inferencia sin servidor o la inferencia en tiempo real. Puede elegir la inferencia asíncrona si tiene tiempos de procesamiento prolongados o grandes cargas útiles y desea poner en cola las solicitudes. Puede elegir la inferencia sin servidor si su carga de trabajo tiene tráfico impredecible o intermitente. Puede elegir la inferencia en tiempo real si tiene un tráfico constante y necesita una latencia menor y uniforme para sus solicitudes.

R: Para optimizar sus costos con SageMaker AI Inference, debe elegir la opción de alojamiento adecuada para su caso de uso. También puede utilizar funciones de inferencia como Amazon SageMaker AI Savings Plans, la optimización de modelos con SageMaker Neo, puntos de conexión multimodelo y puntos de conexión multicontenedor , o el escalado automático. Para obtener consejos sobre cómo optimizar los costos de inferencia, consulte Prácticas recomendadas de optimización de costos de inferencia.

R: Debe utilizar Amazon SageMaker Inference Recommender si necesita recomendaciones para la configuración correcta de los puntos de conexión a fin de mejorar el rendimiento y reducir los costes. Anteriormente, los científicos de datos que deseaban implementar sus modelos tenían que realizar pruebas de rendimiento manuales para seleccionar la configuración adecuada del punto de conexión. En primer lugar, tenían que seleccionar el tipo de instancia de machine learning adecuada entre los más de 70 tipos de instancias disponibles en función de los requisitos de recursos de sus modelos y las cargas útiles de muestra, y luego optimizar el modelo para tener en cuenta los diferentes tipos de hardware. Luego tenían que realizar pruebas de carga exhaustivas para comprobar que se cumplían los requisitos de latencia y rendimiento y que los costos eran bajos. El recomendador de inferencias elimina esta complejidad al ayudarle a hacer lo siguiente:

Comience en cuestión de minutos con una recomendación de instancias.
Realice pruebas de carga en todos los tipos de instancias para obtener recomendaciones sobre la configuración de sus puntos de conexión en cuestión de horas.
Ajuste automáticamente los parámetros del servidor de contenedores y modelos, y realice optimizaciones de modelos para un tipo de instancia determinado.

R: Los puntos de enlace de SageMaker IA son puntos de enlace HTTP REST que utilizan un servidor web en contenedores, que incluye un servidor modelo. Estos contenedores se encargan de cargar y atender las solicitudes de un modelo de machine learning. Implementan un servidor web que responde a /invocations y /ping en el puerto 8080.

Los servidores modelo más comunes incluyen TensorFlow Serving TorchServe y Multi Model Server. SageMaker Los contenedores AI Framework tienen estos servidores modelo integrados.

R: Todo en SageMaker AI Inference está en contenedores. SageMaker La IA proporciona contenedores gestionados para marcos populares como TensorFlow, y SKlearn. HuggingFace Para obtener una lista completa y actualizada de esas imágenes, consulte Imágenes disponibles.

A veces, hay marcos personalizados para los que es posible que necesite crear un contenedor. Este enfoque se conoce como Bring Your Own Container o BYOC. Con el enfoque BYOC, usted proporciona la imagen de Docker para configurar su marco o biblioteca. A continuación, inserta la imagen en Amazon Elastic Container Registry (Amazon ECR) para poder utilizarla con IA. SageMaker

Como alternativa, en lugar de crear una imagen desde cero, puede ampliar un contenedor. Puede tomar una de las imágenes base que proporciona la SageMaker IA y añadir sus dependencias sobre ella en su Dockerfile.

R: La SageMaker IA ofrece la posibilidad de crear tu propio modelo de marco entrenado que hayas formado fuera de la SageMaker IA e implementarlo en cualquiera de las opciones de alojamiento de SageMaker IA.

SageMaker La IA requiere empaquetar el modelo en un model.tar.gz archivo y tener una estructura de directorios específica. Cada marco tiene su propia estructura de modelo (consulte la siguiente pregunta para ver ejemplos de estructuras). Para obtener más información, consulte la documentación del SDK de SageMaker Python para TensorFlow PyTorch, y MXNet.

Si bien puede elegir entre imágenes de marco prediseñadas TensorFlow, como PyTorch, y MXNet alojar su modelo entrenado, también puede crear su propio contenedor para alojar sus modelos entrenados en puntos finales de SageMaker IA. Para ver un tutorial, consulte el ejemplo del cuaderno de Jupyter: Creación de su propio contenedor de algoritmos.

R: La SageMaker IA requiere que los artefactos del modelo se compriman en un .tar.gz archivo o en un tarball. SageMaker La IA extrae automáticamente este .tar.gz archivo al /opt/ml/model/ directorio de su contenedor. El tarball no debe contener symlinks ni archivos innecesarios. Si utilizas uno de los contenedores del framework, por ejemplo, o TensorFlow PyTorch, el contenedor MXNet, espera que tu estructura TAR sea la siguiente:

TensorFlow


model.tar.gz/
             |--[model_version_number]/
                                       |--variables
                                       |--saved_model.pb
            code/
                |--inference.py
                |--requirements.txt

PyTorch


model.tar.gz/
             |- model.pth
             |- code/
                     |- inference.py
                     |- requirements.txt  # only for versions 1.3.1 and higher

MXNet


model.tar.gz/
            |- model-symbol.json
            |- model-shapes.json
            |- model-0000.params
            |- code/
                    |- inference.py
                    |- requirements.txt # only for versions 1.6.0 and higher

R: ContentType es el tipo MIME de los datos de entrada en el cuerpo de la solicitud (el tipo MIME de los datos que se envían a su punto de conexión). El servidor de modelos utiliza el ContentType para determinar si puede gestionar el tipo proporcionado o no.

Accept es el tipo MIME de la respuesta de inferencia (el tipo MIME de los datos que devuelve su punto de conexión). El servidor de modelos utiliza el tipo Accept para determinar si puede gestionar la devolución del tipo proporcionado o no.

Los tipos MIME más comunes incluyen text/csv, application/json, y application/jsonlines.

R: SageMaker La IA transfiere cualquier solicitud al contenedor del modelo sin modificarla. El contenedor debe contener la lógica necesaria para deserializar la solicitud. Para obtener información sobre los formatos definidos para los algoritmos integrados, consulte Formatos de datos comunes para la inferencia. Si está creando su propio contenedor o utilizando un contenedor de SageMaker AI Framework, puede incluir la lógica para aceptar el formato de solicitud que prefiera.

Del mismo modo, la SageMaker IA también devuelve la respuesta sin modificarla y, a continuación, el cliente debe deserializarla. En el caso de los algoritmos integrados, devuelven las respuestas en formatos específicos. Si está creando su propio contenedor o utilizando un contenedor de SageMaker AI Framework, puede incluir la lógica para devolver una respuesta en el formato que elija.

Utilice la llamada a la API Invoke Endpoint para hacer inferencias a su punto de conexión.

Al pasar la entrada como carga útil a la API InvokeEndpoint, debe proporcionar el tipo de datos de entrada correcto que espera el modelo. Al transferir una carga útil a la llamada a la API InvokeEndpoint, los bytes de la solicitud se reenvían directamente al contenedor del modelo. Por ejemplo, para una imagen, puede utilizar application/jpeg para el ContentType y asegurarse de que su modelo pueda realizar inferencias con este tipo de datos. Esto se aplica a JSON, CSV, vídeo o cualquier otro tipo de entrada con la que pueda estar trabajando.

Otro factor que tener en cuenta son los límites de tamaño de la carga útil. Los límites de carga útil son de 25 MB para los puntos de conexión en tiempo real y de 4 MB para los puntos de conexión sin servidor. Puede dividir el vídeo en varios fotogramas e invocar el punto de conexión con cada fotograma de forma individual. Como alternativa, si su caso de uso lo permite, puede enviar todo el vídeo de la carga útil mediante un punto de conexión asíncrono, que admita cargas útiles de hasta 1 GB.

Para ver un ejemplo que muestra cómo ejecutar la inferencia por visión artificial en vídeos de gran tamaño con la inferencia asíncrona, consulte esta entrada de blog.

Inferencia en tiempo real

Los siguientes artículos de preguntas frecuentes responden a preguntas frecuentes sobre la inferencia en tiempo real de SageMaker IA.

R: Puede crear un punto final AWS de SageMaker IA mediante herramientas compatibles AWS SDKs, como el SDK de SageMaker Python Consola de administración de AWS AWS CloudFormation, el y el. AWS Cloud Development Kit (AWS CDK)

Hay tres entidades clave en la creación de puntos finales: un modelo de SageMaker IA, una configuración de puntos finales de SageMaker IA y un punto final de SageMaker IA. El modelo de SageMaker IA apunta hacia los datos y la imagen del modelo que está utilizando. La configuración del punto de conexión define las variantes de producción, que pueden incluir el tipo de instancia y el número de instancias. A continuación, puede utilizar la llamada a la API create_endpoint o la llamada .deploy () para que la SageMaker IA cree un punto final con los metadatos de la configuración de su modelo y punto final.

R: No, puedes usar los distintos AWS SDKs (consulta Invoke/Create para ver si están disponibles SDKs) o incluso llamar directamente a la web APIs correspondiente.

R: Un punto final multimodelo es una opción de inferencia en tiempo real que SageMaker ofrece la IA. Con los puntos de conexión multimodelo, puede alojar miles de modelos en un punto de conexión. El servidor multimodelo es un marco de código abierto para ofrecer modelos de machine learning. Proporciona las capacidades de administración de modelos y front-end HTTP requeridas por los puntos de conexión multimodelo para alojar varios modelos dentro de un único contenedor, cargar y descargar modelos del contenedor dinámicamente y realizar inferencia en un modelo cargado especificado.

R: SageMaker La inferencia en tiempo real mediante IA es compatible con diversas arquitecturas de despliegue de modelos, como terminales multimodelo, terminales multicontenedor y canalizaciones de inferencia en serie.

Puntos de conexión multimodelo (MME): un MME permite a los clientes implementar miles de modelos hiperpersonalizados de forma rentable. Todos los modelos se implementan en una flota de recursos compartidos. El MME funciona mejor cuando los modelos tienen un tamaño y una latencia similares y pertenecen al mismo marco de ML. Estos puntos de conexión son ideales para cuando no es necesario llamar al mismo modelo en todo momento. Puede cargar los modelos respectivos de forma dinámica en el punto final de la IA para atender su solicitud SageMaker .

Terminales multicontenedor (MCE): el MCE permite a los clientes implementar 15 contenedores diferentes con diversos marcos y funcionalidades de aprendizaje automático sin necesidad de arranques en frío y utilizando solo un punto final. SageMaker Puede invocar directamente estos contenedores. Un MCE es ideal para cuando quiera guardar todos los modelos en la memoria.

Canalizaciones de inferencia en serie (SIP): puede utilizar una SIP para encadenar de 2 a 15 contenedores en un único punto de conexión. Una SIP resulta especialmente adecuada para combinar el preprocesamiento y la inferencia de modelos en un punto de conexión y para operaciones de baja latencia.

Inferencia sin servidor

Los siguientes elementos de preguntas frecuentes responden a preguntas frecuentes sobre Amazon SageMaker Serverless Inference.

R: Implemente modelos con Amazon SageMaker Serverless Inference es una opción de provisión de modelos sin servidor diseñada específicamente que facilita la implementación y el escalado de los modelos de ML. Los puntos de conexión de inferencias sin servidor inician automáticamente los recursos de computación y los amplían y reducen en función del tráfico, lo que elimina la necesidad de elegir tipos de instancias, ejecutar capacidades aprovisionadas o administrar el escalado. Puede especificar los requisitos de memoria para su punto de conexión sin servidor. Solo paga por la duración de la ejecución del código de inferencia y la cantidad de datos procesados, no por los períodos de inactividad.

R: La inferencia sin servidor simplifica la experiencia del desarrollador al eliminar la necesidad de aprovisionar la capacidad por adelantado y administrar las políticas de escalado. La inferencia sin servidor puede escalar instantáneamente de decenas a miles de inferencias en cuestión de segundos en función de los patrones de uso, lo que la hace ideal para aplicaciones de machine learning con tráfico intermitente o impredecible. Por ejemplo, un servicio de chatbot que utiliza una empresa de procesamiento de nóminas experimenta un aumento de las consultas al final del mes, mientras que el tráfico es intermitente durante el resto del mes. En estos casos, el aprovisionamiento de instancias durante todo el mes no resulta rentable, ya que se acaba pagando por los períodos de inactividad.

La inferencia sin servidor ayuda a abordar este tipo de casos de uso al proporcionarle un escalado automático y rápido desde el primer momento sin necesidad de pronosticar el tráfico por adelantado ni de administrar las políticas de escalado. Además, solo paga por el tiempo de computación necesario para ejecutar el código de inferencia y para el procesamiento de datos, lo que lo hace ideal para cargas de trabajo con tráfico intermitente.

R: Su punto de conexión sin servidor tiene un tamaño de RAM mínimo de 1024 MB (1 GB) y el tamaño máximo de RAM que puede elegir es de 6144 MB (6 GB). Los tamaños de memoria que puede elegir son 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB o 6144 MB. La inferencia sin servidor asigna automáticamente los recursos de procesamiento proporcionales a la memoria que seleccione. Si elige un tamaño de memoria más grande, su contenedor tiene acceso a más v. CPUs

Seleccione el tamaño de memoria de su punto de conexión de acuerdo con el tamaño de su modelo. Por lo general, el tamaño de la memoria debe ser al menos tan grande como el tamaño del modelo. Es posible que tengas que realizar una evaluación comparativa para elegir la memoria adecuada para tu modelo en función de tu latencia SLAs. Los incrementos de tamaño de memoria tienen precios diferentes; consulta la página de SageMaker precios de Amazon para obtener más información.

Transformación por lotes

Los siguientes artículos de preguntas frecuentes responden a preguntas frecuentes sobre SageMaker AI Batch Transform.

R: Para formatos de archivo específicos, como CSV, Recordio y SageMaker AI TFRecord, puede dividir sus datos en minilotes de un solo registro o de varios registros y enviarlos como carga útil a su contenedor de modelos. Cuando el valor de BatchStrategy esMultiRecord, SageMaker AI envía el número máximo de registros en cada solicitud, hasta el límite. MaxPayloadInMB Cuando el valor de BatchStrategy esSingleRecord, SageMaker AI envía registros individuales en cada solicitud.

R: El tiempo de espera máximo para la transformación por lotes es de 3600 segundos. El tamaño máximo de la carga útil de un registro (por minilote) es de 100 MB.

R: Si está utilizando la API CreateTransformJob, puede reducir el tiempo necesario para completar los trabajos de transformación por lotes utilizando valores óptimos para parámetros como MaxPayloadInMB, MaxConcurrentTransforms o BatchStrategy. El valor ideal para MaxConcurrentTransforms es igual al número de procesos de computación en el trabajo de transformación por lotes. Si utiliza la consola SageMaker AI, puede especificar estos valores de parámetros óptimos en la sección Configuración adicional de la página de configuración del trabajo de transformación por lotes. SageMaker La IA encuentra automáticamente los ajustes de parámetros óptimos para los algoritmos integrados. Para los algoritmos personalizados, proporcione estos valores a través de un punto de conexión execution-parameters.

R: La transformación por lotes es compatible con CSV y JSON.

Inferencia asíncrona

Los siguientes artículos de preguntas frecuentes responden a preguntas generales comunes sobre la inferencia asincrónica de la SageMaker IA.

R: La inferencia asíncrona pone en cola las solicitudes de inferencia entrantes y las procesa de forma asíncrona. Esta opción es ideal para solicitudes con cargas útiles grandes o tiempos de procesamiento prolongados que deben procesarse a medida que llegan. Si lo desea, puede configurar los ajustes de escalado automático para reducir verticalmente el recuento de instancias a cero cuando no se estén procesando solicitudes de forma activa.

R: Amazon SageMaker AI admite el escalado automático (escalado automático) de su punto final asíncrono. El escalado automático ajusta dinámicamente el número de instancias aprovisionadas para un modelo en respuesta a los cambios en su carga de trabajo. A diferencia de otros modelos hospedados que admite la SageMaker IA, con la inferencia asíncrona también puede reducir a cero las instancias de puntos finales asíncronos. Las solicitudes que se reciben cuando no hay ninguna instancia se ponen en cola para su procesamiento cuando el punto de conexión escale verticalmente. Para obtener más información, consulte Escalado automático de un punto de conexión asíncrono.

Amazon SageMaker Serverless Inference también se reduce automáticamente a cero. No lo verá porque la SageMaker IA logra escalar sus puntos de conexión sin servidor, pero si no hay tráfico, se aplica la misma infraestructura.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Solución de problemas y referencia

Implemente MLOps