Protección de los datos - SageMaker Mejores prácticas de administración de Studio

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Protección de los datos

Antes de diseñar una carga de trabajo de aprendizaje automático, se deben establecer las prácticas fundamentales que influyen en la seguridad. Por ejemplo, la clasificación de datos proporciona una forma de categorizar los datos en función de los niveles de confidencialidad, y el cifrado protege los datos al hacerlos ininteligibles para el acceso no autorizado. Estos métodos son importantes porque respaldan objetivos como evitar el mal manejo o cumplir con las obligaciones reglamentarias.

SageMaker AI Studio ofrece varias funciones para proteger los datos en reposo y en tránsito. Sin embargo, como se describe en el modelo de responsabilidad AWS compartida, los clientes son responsables de mantener el control sobre el contenido que se aloja en la infraestructura AWS global. En esta sección, describimos cómo los clientes pueden usar esas funciones para proteger sus datos.

Proteja los datos en reposo

Para proteger tus cuadernos de SageMaker AI Studio junto con los datos de creación de modelos y los artefactos de los modelos, la SageMaker IA cifra los cuadernos, así como el resultado de las tareas de entrenamiento y transformación por lotes. SageMaker La IA los cifra de forma predeterminada mediante la clave AWS gestionada de Amazon S3. Esta clave AWS gestionada para Amazon S3 no se puede compartir para el acceso entre cuentas. Para el acceso entre cuentas, especifique su clave administrada por el cliente al crear los recursos de SageMaker IA para poder compartirla para el acceso entre cuentas.

Con SageMaker AI Studio, los datos se pueden almacenar en las siguientes ubicaciones:

  • Depósito de S3: cuando se habilita un bloc de notas para compartir, SageMaker AI Studio comparte las instantáneas y los metadatos del bloc de notas en un depósito de S3.

  • EFSvolumen: SageMaker AI Studio adjunta un EFS volumen a tu dominio para almacenar libretas y archivos de datos. Este EFS volumen se conserva incluso después de eliminar el dominio.

  • EBSvolumen: EBS se adjunta a la instancia en la que se ejecuta el portátil. Este volumen se conserva mientras dure la instancia.

Cifrado en reposo con AWS KMS

  • Puede pasar su AWS KMS clave para cifrar un EBS volumen adjunto a cuadernos, equipos de formación, ajustes, trabajos de transformación por lotes y terminales.

  • Si no especificas una KMS clave, SageMaker AI cifra tanto los volúmenes del sistema operativo (SO) como los volúmenes de datos de aprendizaje automático con una clave administrada por el sistema. KMS

  • Los datos confidenciales que deban cifrarse con una KMS clave por motivos de conformidad deben almacenarse en el volumen de almacenamiento de ML o en Amazon S3, los cuales se pueden cifrar con la KMS clave que especifique.

Protección de los datos en tránsito

SageMaker AI Studio garantiza que los artefactos de los modelos de aprendizaje automático y otros artefactos del sistema estén cifrados tanto en tránsito como en reposo. Las solicitudes a la SageMaker IA API y a la consola se realizan a través de una conexión segura (SSL). Algunos datos dentro de la red en tránsito (dentro de la plataforma de servicios) no están cifrados. Esto incluye:

  • Comando y control de las comunicaciones entre el plano de control de servicio y las instancias de trabajo de capacitación (no los datos del cliente).

  • Comunicaciones entre nodos en trabajos de entrenamiento y procesamiento distribuido (dentro de la red).

Sin embargo, puedes optar por cifrar la comunicación entre los nodos de un clúster de entrenamiento. La habilitación del cifrado de tráfico entre contenedores puede aumentar el tiempo de capacitación, especialmente si se utilizan algoritmos de aprendizaje profundo distribuidos. 

De forma predeterminada, Amazon SageMaker AI realiza trabajos de formación en Amazon VPC para ayudar a mantener tus datos seguros. Puedes añadir otro nivel de seguridad para proteger tus contenedores y datos de entrenamiento configurando una cuenta privadaVPC. Además, puedes configurar tu dominio de SageMaker AI Studio para que se ejecute en modo VPC exclusivo y configurar VPC puntos finales para enrutar el tráfico a través de una red privada sin que el tráfico salga por Internet.

Barandillas de protección de datos

Cifre los volúmenes de alojamiento de SageMaker IA en reposo

Utilice la siguiente política para aplicar el cifrado durante el alojamiento de un punto final de SageMaker IA para realizar inferencias en línea:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "Encryption", "Effect": "Allow", "Action": [ "sagemaker:CreateEndpointConfig" ], "Resource": "*", "Condition": { "Null": { "sagemaker:VolumeKmsKey": "false" } } } ] }

Cifre los cubos S3 utilizados durante la supervisión del modelo

Model Monitoring captura los datos que se envían a su terminal de SageMaker IA y los almacena en un depósito de S3. Al configurar la configuración de captura de datos, debe cifrar el bucket de S3. Actualmente, no existe ningún control compensatorio para ello.

Además de recopilar los resultados de los puntos finales, el servicio de monitorización de modelos comprueba si hay desviaciones respecto a una línea base previamente especificada. Debe cifrar las salidas y los volúmenes de almacenamiento intermedios que se utilizan para controlar la desviación.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "Encryption", "Effect": "Allow", "Action": [ "sagemaker:CreateMonitoringSchedule", "sagemaker:UpdateMonitoringSchedule" ], "Resource": "*", "Condition": { "Null": { "sagemaker:VolumeKmsKey": "false", "sagemaker:OutputKmsKey": "false" } } } ] }

Cifra un volumen de almacenamiento de dominio de SageMaker AI Studio

Aplica el cifrado al volumen de almacenamiento adjunto al dominio de Studio. Esta política requiere que el usuario proporcione un código CMK para cifrar los volúmenes de almacenamiento adjuntos a los dominios de Studio.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "EncryptDomainStorage", "Effect": "Allow", "Action": [ "sagemaker:CreateDomain" ], "Resource": "*", "Condition": { "Null": { "sagemaker:VolumeKmsKey": "false" } } } ] }

Cifre los datos almacenados en S3 que se utilizan para compartir blocs de notas

Esta es la política para cifrar todos los datos almacenados en el depósito que se utiliza para compartir libretas entre los usuarios de un SageMaker dominio de AI Studio:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "EncryptDomainSharingS3Bucket", "Effect": "Allow", "Action": [ "sagemaker:CreateDomain", "sagemaker:UpdateDomain" ], "Resource": "*", "Condition": { "Null": { "sagemaker:DomainSharingOutputKmsKey": "false" } } } ] }

Limitaciones

  • Una vez creado un dominio, no puedes actualizar el EFS volumen de almacenamiento adjunto con una clave personalizada AWS KMS .

  • No puede actualizar los trabajos de formación/procesamiento ni las configuraciones de los terminales con KMS claves una vez que se hayan creado.