Uso de las API de moderación de imágenes y vídeo - Amazon Rekognition

Uso de las API de moderación de imágenes y vídeo

En la API de Amazon Rekognition Image puede detectar contenido inapropiado, no deseado u ofensivo de forma sincrónica con DetectModerationLabels y de forma asincrónica con las operaciones StartMediaAnalysisJob y GetMediaAnalysisJob. Puede usar la API de Amazon Rekognition Video para detectar este tipo de contenido de forma asincrónica mediante las operaciones StartContentModeration y GetContentModeration.

Categorías de etiquetas

Amazon Rekognition utiliza una taxonomía jerárquica de tres niveles para etiquetar las categorías de contenido inapropiado, no deseado u ofensivo. Cada etiqueta con el nivel de taxonomía (L1) tiene varias etiquetas del nivel de taxonomía 2 (L2) y algunas etiquetas del nivel de taxonomía 2 pueden tener etiquetas del nivel de taxonomía 3 (L3). Esto permite una clasificación jerárquica del contenido.

Para cada etiqueta de moderación detectada, la API también devuelve el valor TaxonomyLevel, que contiene el nivel (1, 2 o 3) al que pertenece la etiqueta. Por ejemplo, una imagen puede etiquetarse de acuerdo con la siguiente categorización:

L1: desnudez no explícita de partes íntimas y besos; L2: desnudez no explícita; L3: desnudez implícita.

nota

Se recomienda usar las categorías L1 o L2 para moderar el contenido y utilizar las categorías L3 solo para eliminar conceptos específicos que no quiera moderar (es decir, para detectar contenido que puede que no quiera categorizar como inapropiado, no deseado u ofensivo en función de su política de moderación).

En la siguiente tabla se muestran las relaciones entre los niveles de las categorías y las posibles etiquetas para cada nivel. Para descargar una lista de las etiquetas de moderación, haga clic aquí.

Categoría de nivel superior (L1) Categoría de segundo nivel (L2) Categoría de tercer nivel (L3) Definiciones
Explicit Explicit Nudity Exposed Male Genitalia Human male genitalia, including the penis (whether erect or flaccid), the scrotum, and any discernible pubic hair. This term is applicable in contexts involving sexual activity or any visual content where male genitals are displayed either completely or partially.
Exposed Female Genitalia External parts of the female reproductive system, encompassing the vulva, vagina, and any observable pubic hair. This term is applicable in scenarios involving sexual activity or any visual content where these aspects of female anatomy are displayed either completely or partially.
Exposed Buttocks or Anus Human buttocks or anus, including instances where the buttocks are nude or when they are discernible through sheer clothing. The definition specifically applies to situations where the buttocks or anus are directly and completely visible, excluding scenarios where any form of underwear or clothing provides complete or partial coverage.
Exposed Female Nipple Human female nipples, including fully visible and partially visible aerola (area surrounding the nipples) and nipples.
Explicit Sexual Activity N/A Depiction of actual or simulated sexual acts which encompasses human sexual intercourse, oral sex, as well as male genital stimulation and female genital stimulation by other body parts and objects. The term also includes ejaculation or vaginal fluids on body parts and erotic practices or roleplaying involving bondage, discipline, dominance and submission, and sadomasochism.
Sex Toys N/A Objects or devices used for sexual stimulation or pleasure, e.g., dildo, vibrator, butt plug, beats, etc.
Non-Explicit Nudity of Intimate parts and Kissing Non-Explicit Nudity Bare Back Human posterior part where the majority of the skin is visible from the neck to the end of the spine. This term does not apply when the individual's back is partially or fully occluded.
Exposed Male Nipple Human male nipples, including partially visible nipples.
Partially Exposed Buttocks Partially exposed human buttocks. This term includes a partially visible region of the buttocks or butt cheeks due to short clothes, or partially visible top portion of the anal cleft. The term does not apply to cases where the buttocks is fully nude.
Partially Exposed Female Breast Partially exposed human female breast where one a portion of the female's breast is visible or uncovered while not revealing the entire breast. This term applies when the region of the inner breast fold is visible or when the lower breast crease is visible with nipple fully covered or occluded.
Implied Nudity An individual who is nude, either topless or bottomless, but with intimate parts such as buttocks, nipples, or genitalia covered, occluded, or not fully visible.
Obstructed Intimate Parts Obstructed Female Nipple Visual depiction of a situation in which a female's nipples is covered by opaque clothing or coverings, but their shapes are clearly visible.
Obstructed Male Genitalia Visual depiction of a situation in which a male's genitalia or penis is covered by opaque clothing or coverings, but its shape is clearly visible. This term applies when the obstructed genitalia in the image is in close-up.
Kissing on the Lips N/A Depiction of one person's lips making contact with another person's lips.
Swimwear or Underwear Female Swimwear or Underwear N/A Human clothing for female swimwear (e.g., one-piece swimsuits, bikinis, tankinis, etc.) and female underwear (e.g., bras, panties, briefs, lingerie, thongs, etc.)
Male Swimwear or Underwear N/A Human clothing for male swimwear (e.g., swim trunks, boardshorts, swim briefs, etc.) and male underwear (e.g., briefs, boxers, etc.)
Violence Weapons N/A Instruments or devices used to cause harm or damage to living beings, structures, or systems. This includes firearms (e.g., guns, rifles, machine gunes, etc.), sharp weapons (e.g., swords, knives, etc.), explosives and ammunition (e.g., missile, bombs, bullets, etc.).
Graphic Violence Weapon Violence The use of weapons to cause harm, damage, injury, or death to oneself, other individuals, or properties.
Physical Violence The act of causing harm to other individuals or property (e.g., hitting, fighting, pulling hair, etc.) or other act of violence involving crowd or multiple individuals.
Self-Harm The act of causing harm to oneself, often by cutting body parts such as arms or legs, where cuts are typically visible.
Blood & Gore Visual representation of violence on a person, a group of individuals, or animals, involving open wounds, bloodshed, and mutilated body parts.
Explosions and Blasts Depiction of a violent and destructive burst of intense flames with thick smoke or dust and smoke erupting from the ground.
Visually Disturbing Death and Emaciation Emaciated Bodies Human bodies that are extremely thin and undernourished with severe physical wasting and depletion of muscle and fat tissue.
Corpses Human corpses in the form of mutilated bodies, hanging corpses, or skeletons.
Crashes Air Crash Incidents of air vehicles, such as airplanes, helicopters, or other flying vehicles, resulting in damage, injury, or death. This term applies when parts of the air vehicles are visible.
Drugs & Tobacco Products Pills Small, solid, often round or oval-shaped tables or capsules. This term applies to pills presented as standalones, in a bottle, or a transparent packet and does not apply to a visual depiction of a person taking pills.
Drugs & Tobacco Paraphernalia & Use Smoking The act of inhaling, exhaling, and lighting up burning substances including cigarettes, cigars, e-cigarettes, hookah, or joint.
Alcohol Alcohol Use Drinking The act of drinking alcoholic beverages from bottles or glasses of alcohol or liquor.
Alcoholic Beverages N/A Close up of one or multiple bottles of alcohol or liquor, glasses or mugs with alcohol or liquor, and glasses or mugs with alcohol or liquor held by an individual. This term does not apply to an individual drinking from bottles or glasses of alcohol or liquor.
Rude Gestures Middle Finger N/A Visual depiction of a hand gesture with middle finger is extended upward while the other fingers are folded down.
Gambling N/A N/A The act of participating in games of chance for a chance to win a prize in casinos, e.g., playing cards, blackjacks, roulette, slot machines at casinos, etc.
Hate Symbols Nazi Party N/A Visual depiction of symbols, flags, or gestures associated with Nazi Party.
White Supremacy N/A Visual depiction of symbols or clothings associated with Ku Klux Klan (KKK) and images with confederate flags.
Extremist N/A Images containing extremist and terrorist group flags.

No todas las etiquetas de la categoría L2 tienen una etiqueta compatible en la categoría L3. Además, las etiquetas L3 bajo las etiquetas L2 “Productos” y “Accesorios y consumo de drogas y tabaco” no son exhaustivas. Estas etiquetas L2 abarcan conceptos que van más allá de las etiquetas L3 mencionadas y, en esos casos, solo se devuelven las etiquetas L2 en la respuesta de la API.

Puede determinar la idoneidad para su aplicación. Por ejemplo, es posible que las imágenes de naturaleza insinuante sean aceptables, pero no lo sean las imágenes que contengan desnudos. Para filtrar imágenes, utilice la matriz de etiquetas ModerationLabel devuelta por DetectModerationLabels (imágenes) y por GetContentModeration (vídeos).

Tipo de contenido

La API también puede identificar si el tipo de contenido es animado o ilustrado, lo que se devuelve como parte de la respuesta:

  • El contenido animado incluye videojuegos y animaciones (por ejemplo, dibujos animados, cómics, manga o anime).

  • El contenido ilustrado incluye dibujos, pinturas y bocetos.

Confianza

Puede configurar el umbral de confianza que Amazon Rekognition utiliza para detectar contenido inapropiado especificando el parámetro de entrada MinConfidence. No se devuelven etiquetas de contenido inapropiado que se detectan con una confianza menor al valor de MinConfidence.

Si se especifica un valor de MinConfidence inferior a un 50 %, es probable que se devuelvan resultados con un número elevado de falsos positivos (es decir, mayor recuperación, menor precisión). Por otro lado, si se especifica un valor de MinConfidence por encima del 50 %, es probable que se devuelvan resultados con un número menor de falsos positivos (es decir, menor recuperación, mayor precisión). Si no especifica ningún valor para MinConfidence, Amazon Rekognition devuelve etiquetas para el contenido inapropiado detectado con una confianza de al menos el 50 %.

La matriz ModerationLabel contiene etiquetas de las categorías anteriores y la confianza estimada en la precisión del contenido reconocido. Se devuelve una etiqueta de nivel superior junto con todas las etiquetas de segundo nivel identificadas. Por ejemplo, Amazon Rekognition puede devolver «Desnudo explícito» con una puntuación de confianza alta como etiqueta de nivel superior. Esto podría ser suficiente para satisfacer sus necesidades de filtrado. Sin embargo, si es necesario, puede utilizar la puntuación de confianza de una etiqueta de segundo nivel (como "Desnudo masculino gráfico") para obtener un filtrado más detallado. Para ver un ejemplo, consulta Detección de imágenes inapropiadas.

Control de versiones

Tanto Amazon Rekognition Image como Amazon Rekognition Video devuelven la versión del modelo de detección de moderación que se utiliza para detectar contenido inapropiado (ModerationModelVersion).

Clasificación y agregación

Al recuperar los resultados con GetContentModeration, puede ordenarlos y agregarlos.

Orden de clasificación: la matriz de etiquetas devueltas está ordenada por tiempo. Para ordenar por etiqueta, especifique NAME en el parámetro de entrada SortBy para GetContentModeration. Si la etiqueta aparece varias veces en el vídeo, habrá varias instancias del elemento ModerationLabel.

Información de etiqueta: el elemento de matriz ModerationLabels contiene un objeto ModerationLabel, que a su vez contiene el nombre de la etiqueta y la confianza que Amazon Rekognition tiene en la precisión de la etiqueta detectada. La marca de tiempo es la hora en que ModerationLabel se detectó, definida como el número de milisegundos transcurridos desde el inicio del vídeo. Para los resultados agregados por vídeo SEGMENTS, se devuelven las estructuras StartTimestampMillis, EndTimestampMillis y DurationMillis, que definen la hora de inicio, la hora de finalización y la duración de un segmento, respectivamente.

Agregación: especifica cómo se agregan los resultados cuando se devuelven. El valor predeterminado es agregar por TIMESTAMPS. También puede optar por agregar por SEGMENTS, lo que agrega los resultados en un intervalo de tiempo. Solo se devuelven las etiquetas detectadas durante los segmentos.

Estados de adaptador de Moderación personalizada

Los adaptadores de Moderación personalizada pueden tener uno de los siguientes estados: TRAINING_IN_PROGRESS, TRAINING_COMPLETED, TRAINING_FAILED, DELETING, DEPRECATED o EXPIRED. Para obtener una explicación completa de estos estados de los adaptadores, consulte Administración de adaptadores.

nota

Amazon Rekognition no es una autoridad en la materia ni pretende en modo alguno ser un filtro exhaustivo de contenido ofensivo o inapropiado. Además, las API de moderación de imágenes y vídeo no detectan si una imagen incluye contenido ilegal, como CSAM.