Detalles del informe y desglose de los datos - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Detalles del informe y desglose de los datos

SageMaker HyperPodLos informes de uso ofrecen dos perspectivas distintas para analizar el consumo de recursos informáticos: informes resumidos para la asignación de costes e informes detallados para una auditoría pormenorizada. Los informes resumidos agrupan el uso de todo el clúster por equipo o espacio de nombres y destacan las tendencias entre los recursos de computación asignados y prestados de los recursos de GPU, CPU y Neuron Core. Los informes detallados profundizan en las tareas individuales y exponen métricas como los plazos de ejecución, el estado de las tareas y el uso por clase de prioridad. En esta sección, se desglosa la estructura de estos informes, se estudian las métricas clave y se muestra cómo los administradores y los equipos de finanzas pueden cotejar las tendencias resumidas con los datos de las tareas para validar la precisión de la atribución de costos, resolver las discrepancias y optimizar la infraestructura compartida.

Encabezados de informes comunes

Tanto los informes de resumen como los detallados incluyen los siguientes metadatos para contextualizar los datos de uso:

  • ClusterName: El nombre del clúster de Hyperpod orquestado por EKS en el que se consumieron los recursos.

  • Tipo: es la categoría de informe (Summary Utilization Report o Detailed Utilization Report).

  • Fecha de creación: es la fecha de creación del informe (por ejemplo, 2025-04-18).

  • Intervalo de fechas (UTC): es el período cubierto (por ejemplo, 2025-04-16 to 2025-04-18).

  • Períodos de datos que faltan: brechas en la recopilación de datos debido al tiempo de inactividad del clúster o a problemas de supervisión (por ejemplo, 2025-04-16 00:00:00 to 2025-04-19 00:00:00).

Informes de resumen

Los informes de resumen proporcionan una visión general diaria del consumo de los recursos de computación entre los equipos y los espacios de nombres y los tipos de instancias. Además, estos informes permiten distinguir entre el uso asignado (cuota reservada) y el uso prestado (grupo prestado). Estos informes son ideales para la generación de facturas, las instrucciones de atribución de costos o la previsión de la capacidad.

Ejemplo: un informe de resumen podría mostrar que el equipo A ha utilizado 200 horas de GPU: 170 de su cuota asignada y 30 prestadas.

Este es un desglose estructurado de las columnas clave de un informe de resumen:

  • Fecha: es la fecha del uso notificado (por ejemplo, 2025-04-18).

  • Espacio de nombres: es el espacio de nombres de Kubernetes asociado al equipo (por ejemplo, hyperpod-ns-ml-team).

  • Equipo: The Owning team/department (por ejemplo,). ml-team

  • Tipo de instancia: es la instancia de recursos de computación utilizada (por ejemplo, ml.g5.4xlarge).

  • Total/Allocated/BorrowedUtilización (horas): el desglose del uso de la GPU, la CPU o el Neuron Core por categoría.

    Donde:

    • Utilización total = utilización asignada + utilización prestada

    • La utilización asignada son las horas reales de GPU, CPU o Neuron Core que ha utilizado un equipo con un límite del 100 % de la cuota asignada.

    • La utilización prestada son las horas reales de GPU, CPU o Neuron Core que ha utilizado un equipo más allá de la cuota asignada y se obtienen del grupo de clústeres compartidos en función de las reglas de prioridad de la gobernanza de tareas y la disponibilidad de los recursos.

Ejemplo: 72 horas de GPU en total (48 asignadas, 24 prestadas).

nota

Solo se muestra la utilización total de los espacios de nombres no administrador por la Gobernanza de tareas.

Informes detallados

Los informes detallados proporcionan una visión detallada del uso de los recursos de computación donde se desglosa el consumo de los recursos por tarea y se muestran las métricas destalladas como los plazos de ejecución de las tareas, el estado (por ejemplo, si se ha realizado correctamente o ha fallado) y el uso por clases de prioridad. Estos informes son ideales para validar las discrepancias en la facturación o garantizar el cumplimiento de las políticas de gobernanza.

Este es un desglose estructurado de las columnas clave de un informe detallado:

  • Fecha: es la fecha del uso notificado (por ejemplo, 2025-04-18).

  • Inicio/fin del período: ventana de ejecución exacta (UTC) de la tarea (por ejemplo, 19:54:34).

  • Espacio de nombres: es el espacio de nombres de Kubernetes asociado al equipo (por ejemplo, hyperpod-ns-ml-team).

  • Equipo: The Owning team/department (p. ej.,ml-team).

  • Tarea: es el identificador del trabajo o pod (por ejemplo, pytorchjob-ml-pytorch-job-2p5zt-db686).

  • Instancia: es la instancia de computación utilizada (por ejemplo, ml.g5.4xlarge).

  • Estado: es el resultado de la tarea (correcta, fallida, antepuesta).

  • Utilización total: es el consumo total (horas y recuento de instancias) de los recursos de GPU, CPU o Neuron Core.

  • Clase de prioridad: es el nivel de prioridad asignado (por ejemplo, prioridad de entrenamiento).