Descarga de activación

importante

En SMP v2.2.0 no funciona la funcionalidad de descarga de activaciones de la biblioteca de SMP. En su lugar, utilice la descarga de activación nativa PyTorch .

Normalmente, la pasada hacia adelante calcula las activaciones en cada capa y las guarda en la memoria de la GPU hasta que finalice la pasada hacia atrás de la capa correspondiente. Al descargar estos tensores a la memoria de la CPU después de pasarlos hacia adelante y volver a colocarlos en la GPU cuando se necesiten, se puede ahorrar una cantidad considerable de memoria de la GPU. PyTorch admite la descarga de activaciones, pero la implementación hace que permanezca inactiva mientras las activaciones se GPUs recuperan de la CPU durante la transferencia hacia atrás. Esto provoca una degradación importante del rendimiento cuando se utiliza la descarga de activaciones.

SMP v2 mejora esta descarga de activaciones. Realiza captura previa de las activaciones antes de que sean necesarias para que la GPU inicie una pasada hacia atrás sobre ellas. La función de captura previa ayuda a que los avances del entrenamiento se ejecuten de manera más eficiente sin estar inactivos. GPUs El resultado es que ofrece las ventajas de un menor uso de memoria sin que se degrade el rendimiento.

Puedes conservar los PyTorch módulos nativos para descargar las activaciones en tu guion de entrenamiento. A continuación se ofrece un ejemplo de estructura para aplicar la característica de descarga de activaciones de SMP en el script. Tenga en cuenta que la descarga de activaciones solo es aplicable cuando se utiliza junto con Puntos de control de activación. Para obtener más información sobre las herramientas de PyTorch puntos de control nativas para la activación y la descarga, consulte:

checkpoint_wrapper.py en el repositorio PyTorch GitHub
Activation Checkpoints en el PyTorch blog Scaling Multimodal Foundation Models in TorchMultimodal with PyTorch Distributed.

Puede aplicar la función SMP de activación y descarga en los puntos de control de activación. PyTorch Esto se hace añadiendo los parámetros sm_activation_offloading y activation_loading_horizon al diccionario de configuración de SMP durante Paso 2: inicialización de un trabajo de entrenamiento.

En los siguientes fragmentos de código, se muestra cómo añadir el torch.sagemaker.init() del módulo de inicialización de SMP al script de entrenamiento y cómo configurar el diccionario de configuración de SMP en formato JSON para el lanzador de trabajos de entrenamiento mientras se sigue el proceso de dos pasos descrito en Utilice la biblioteca de paralelismo de SageMaker modelos v2. No necesita realizar ningún cambio en el PyTorch modelo ni en la configuración del FSDP. PyTorch Para obtener más información acerca de los parámetros sm_activation_offloading y activation_loading_horizon, consulte Parámetros de configuración de las características esenciales de SMP v2.

Configuración de SMP


{
    "activation_loading_horizon": 2,
    "sm_activation_offloading": True
}

En script de entrenamiento

nota

Al activar la función de activación y descarga de SMP, asegúrese de utilizarla también y aplicarla al PyTorch offload_wrapper módulo raíz. La característica de descarga de activaciones de SMP utiliza el módulo raíz para determinar cuándo se realiza una pasada hacia delante para iniciar la captura previa.


import torch.sagemaker as tsm
tsm.init()

# Native PyTorch module for activation offloading
from torch.distributed.algorithms._checkpoint.checkpoint_wrapper import (
    apply_activation_checkpointing, 
    offload_wrapper,
)

model = FSDP(...)

# Activation offloading requires activation checkpointing.
apply_activation_checkpointing(
    model,
    check_fn=checkpoint_transformer_layers_policy,
)

model = offload_wrapper(model)

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Puntos de control de activación

Paralelismo de tensores