I/O Interfaz para el algoritmo Object2Vec Recomendación de la instancia EC2 para el algoritmo Object2Vec Cuadernos de ejemplo

Algoritmo Object2Vec

El algoritmo Object2Vec de Amazon SageMaker AI es un algoritmo de incrustación neuronal de uso general que es altamente personalizable. Puede aprender integraciones densas de baja dimensionalidad de objetos de alta dimensionalidad. Las integraciones se aprenden de tal forma que conservan la semántica de la relación entre pares de objetos en el espacio original, en el espacio de integración. Puede utilizar las integraciones aprendidas, por ejemplo, para calcular de forma eficaz los vecinos más próximos de objetos y para visualizar clústeres naturales de objetos relacionados en espacio de baja dimensionalidad. También puede utilizar las integraciones como características de los objetos correspondientes en las tareas supervisadas posteriores, como, por ejemplo, clasificación o regresión.

Object2Vec generaliza la conocida técnica de incrustación de palabras de Word2Vec, que está optimizada en la IA. SageMaker BlazingText algoritmo Para ver una entrada de blog en la que se explica cómo aplicar Object2Vec a algunos casos de uso prácticos, consulte Introducción a Amazon SageMaker AI Object2Vec.

Temas

I/O Interfaz para el algoritmo Object2Vec

Puede utilizar Object2Vec en varios tipos de datos de entrada, incluidos los ejemplos siguientes:

Tipo de datos de entrada	Ejemplo
Sentence-sentence pares	“Un partido de fútbol con varios hombres jugando”. y “Algunos hombres practicando deporte”.
Labels-sequence pares	Las etiquetas de género de la película «Titanic», como «Romance» y «Drama», y su breve descripción: «El Titanic de James Cameron es un romance épico y lleno de acción ambientado en el desafortunado viaje inaugural del. R.M.S Titanic. Fue el navío más lujoso de su época, un barco de ensueño, que acabó llevando a más de 1500 personas a su muerte en las aguas heladas del Atlántico Norte, en la madrugada del 15 de abril de 1912".
Customer-customer parejas	El ID de cliente Jane y el ID de cliente de Jackie.
Product-product pares	El ID de producto de fútbol americano e ID de producto de baloncesto.
Pares de revisión de elemento-elemento de usuario	El ID de un usuario y los productos que ha comprado como, por ejemplo, manzanas, peras y naranjas.

Para transformar los datos de entrada en los formatos admitidos, debe preprocesarlos. Actualmente, Object2Vec admite nativamente dos tipos de entradas:

Un token discreto, que se representa como una lista de un único integer-id. Por ejemplo, [10].
Una secuencia de tokens discretos, que se representa como una lista de integer-ids. Por ejemplo, [0,12,10,13].

El objeto en cada par puede ser asimétrico. Por ejemplo, los pares pueden ser (token, secuencia) o (token, token) o (secuencia, secuencia). Para las entradas de token, el algoritmo admite integraciones simples como codificadores compatibles. Para secuencias de vectores de token, el algoritmo admite lo siguiente como codificadores:

Average-pooled incrustaciones
Redes neuronales convolucionales jerárquicas (CNNs),
Multi-layered memoria bidireccional a largo plazo (BilSTMS)

La etiqueta de entrada de cada par puede ser una de las siguientes:

Una etiqueta categórica que expresa la relación entre los objetos del par.
Una puntuación que expresa el grado de la similitud entre los dos objetos.

Para etiquetas categóricas usadas en clasificación, el algoritmo soporta la función de pérdida entropía cruzada. En el ratings/score caso de las etiquetas basadas en la regresión, el algoritmo admite la función de pérdida por error cuadrático medio (MSE). Especifique estas funciones de pérdida con el hiperparámetro output_layer al crear el trabajo de capacitación de modelo.

Recomendación de la instancia EC2 para el algoritmo Object2Vec

El tipo de instancia Amazon Elastic Compute Cloud (Amazon EC2) que utilice dependerá de si está entrenando o ejecutando inferencias.

Cuando capacite un modelo mediante el algoritmo Object2Vec en una CPU, comience por una instancia ml.m5.2xlarge. Para capacitaciones en una GPU, comience por una instancia ml.p2.xlarge. Si el entrenamiento dura demasiado en esta instancia, puede usar una instancia más grande. En la actualidad, el algoritmo Object2Vec solo puede entrenar en una máquina. Sin embargo, ofrece soporte para varias GPUs. El algoritmo Object2Vec admite las familias de instancias de GPU P2, P3, G4dn y G5 para el entrenamiento y la inferencia.

Para la inferencia con un modelo Object2Vec que tiene una red neuronal profunda, recomendamos que se use la instancia de GPU ml.p3.2xlarge. Debido a la escasez de memoria de GPU, la variable de entorno INFERENCE_PREFERRED_MODE se puede especificar para su optimización en cuanto a si la red de inferencia Optimización de GPU: clasificación o regresión o Optimización de GPU: integraciones de codificador se carga en GPU.

Cuadernos de ejemplo de Object2Vec

Using Object2Vec to Encode Sentences into Fixed Length Embeddings

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Formatos de inferencia

Cómo funciona