Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Creación de una plantilla de análisis SQL
Requisitos previos
Antes de crear una plantilla de análisis SQL, debe tener:
-
Una AWS Clean Rooms colaboración activa
-
Acceso a al menos una tabla configurada de la colaboración
Para obtener información sobre la configuración de tablas en AWS Clean Rooms, consulteCrear una tabla configurada en AWS Clean Rooms.
-
Permisos para crear plantillas de análisis
-
Conocimientos básicos de la sintaxis de consultas SQL
El siguiente procedimiento describe el proceso de creación de una plantilla de análisis SQL mediante la AWS Clean Rooms consola
Para obtener información sobre cómo crear una plantilla de análisis SQL mediante la AWS SDKs, consulte la referencia de la AWS Clean Rooms API.
Para crear una plantilla de análisis SQL
-
Inicie sesión en la AWS Clean Rooms consola Consola de administración de AWS y ábrala
con la Cuenta de AWS que funcionará como creador de la colaboración. -
En el panel de navegación izquierdo, elija Colaboraciones.
-
Seleccione la colaboración.
-
En la pestaña Plantillas, vaya a la sección Plantillas de análisis creadas por usted.
-
Seleccione Crear plantilla de análisis.
-
En la página Crear plantilla de análisis, en Detalles,
-
Introduzca un nombre para la plantilla de análisis.
-
(Opcional) Introduzca una Descripción.
-
En Formato, deje seleccionada la opción SQL.
-
-
En Tablas, consulte las tablas configuradas asociadas a la colaboración.
-
En Definición,
-
Introduzca la definición de la plantilla de análisis.
-
Seleccione Importar desde para importar una definición.
-
(Opcional) Especifique un parámetro en el editor SQL introduciendo dos puntos (
:) delante del nombre del parámetro.Por ejemplo:
WHERE table1.date + :date_period > table1.date
-
-
Si ha añadido parámetros anteriormente, en Parámetros: opcional, para cada Nombre de parámetro, elija el Tipo y el Valor predeterminado (opcional).
-
En el caso de los datos sintéticos, si desea generar datos sintéticos para el entrenamiento del modelo, active la casilla de verificación Requerir que el resultado de la plantilla de análisis sea sintético.
Para obtener más información, consulte Generación de conjuntos de datos sintéticos con privacidad mejorada.
-
Para la clasificación de columnas, elija una columna de la lista desplegable. Se requieren al menos cinco columnas.
-
Elija una clasificación de la lista desplegable. Esto identifica el tipo de datos de cada columna.
Los tipos de clasificación incluyen:
-
Numérico: valores numéricos continuos, como medidas o recuentos
-
Categórico: valores o categorías discretos, como etiquetas o tipos
-
-
Para eliminar una columna, seleccione Eliminar.
-
Para añadir otra columna, selecciona Añadir otra columna. Elija la columna y la clasificación en las listas desplegables.
-
En Valor predictivo, elija una columna de la lista desplegable. Esta es la columna que el modelo personalizado usa para la predicción después de entrenarse en el conjunto de datos sintético.
-
-
La configuración avanzada le permite establecer el nivel de privacidad y el umbral de privacidad. Ajusta la configuración para que se adapte a tus necesidades.
-
En el nivel de privacidad, introduzca un valor épsilon para determinar cuánto ruido añade el modelo sintético para proteger la privacidad del conjunto de datos generado. El valor debe estar entre 0,0001 y 10.
-
Los valores más bajos añaden más ruido, lo que proporciona una mayor protección de la privacidad, pero puede reducir la utilidad del modelo personalizado posterior basado en estos datos.
-
Los valores más altos añaden menos ruido, lo que proporciona más precisión, pero puede reducir la protección de la privacidad.
En Umbral de privacidad, introduzca la probabilidad más alta permitida de que un ataque de inferencia de pertenencia pueda identificar a los miembros del conjunto de datos original. El valor debe estar entre 50,0 y 100.
-
Las puntuaciones del 50% indican que un ataque de inferencia de miembros no puede distinguir mejor a los miembros de los que no lo son mediante una suposición aleatoria.
-
Si no hay límite de privacidad, introduce el 100%.
El valor óptimo depende del caso de uso específico y de los requisitos de privacidad. Si se supera el umbral de privacidad, se produce un error al crear el canal de entrada de ML y no se puede utilizar el conjunto de datos sintético para entrenar un modelo.
-
-
aviso
La generación de datos sintéticos evita que se puedan deducir atributos individuales, ya sea que haya personas específicas presentes en el conjunto de datos original o que estén presentes los atributos de aprendizaje de esas personas. Sin embargo, no impide que los valores literales del conjunto de datos original, incluida la información de identificación personal (PII), aparezcan en el conjunto de datos sintético.
Recomendamos evitar los valores en el conjunto de datos de entrada que estén asociados a un solo sujeto de datos, ya que pueden volver a identificar a un sujeto de datos. Por ejemplo, si solo un usuario vive en un código postal, la presencia de ese código postal en el conjunto de datos sintético confirmaría que el usuario estaba en el conjunto de datos original. Para mitigar este riesgo, se pueden utilizar técnicas como truncar valores de alta precisión o reemplazar catálogos poco comunes por otros. Estas transformaciones pueden formar parte de la consulta utilizada para crear el canal de entrada de ML.
-
-
Si desea habilitar las etiquetas para el recurso, elija Agregar nueva etiqueta y, a continuación, introduzca el par clave y valor.
-
Seleccione Crear.
-
Ahora está listo para informar a su colaborador de que puede revisar una plantilla de análisis. (opcional si desea consultar sus propios datos).