Principaux principes Configuration recommandée MLCommons taxonomie universelle Exemples d'incitation

Modération du contenu

Ce guide fournit les meilleures pratiques pour inciter les modèles Amazon Nova à modérer le contenu en utilisant le MLCommons® AILuminate Assessment Standard, un cadre complet comportant 12 catégories de danger pour la sécurité de l'IA. Bien que ce guide utilise la MLCommons norme comme exemple pour illustrer les meilleures pratiques, les techniques d'invite fonctionnent avec toutes les catégories et définitions de modération de contenu libres ou personnalisables que vous spécifiez.

Principaux principes

Utilisez des instructions structurées (XML, JSON) ou de forme libre en fonction de votre cas d'utilisation
Modérez tout contenu textuel : conversations, articles, publications sur les réseaux sociaux, commentaires, critiques, etc.
Fournir des définitions de politiques claires
Demandez des explications en matière de transparence

Configuration recommandée

Pour les tâches de modération du contenu, nous recommandons la configuration d'inférence suivante :

Température — Utilisez la valeur par défaut de 0,7.
Top P — Utilisez la valeur par défaut de 0,9.
Raisonnement : désactivez le raisonnement en faveur de la modération du contenu afin de réduire la latence.

MLCommons taxonomie universelle

La norme définit 12 catégories de danger :

MLCommons AILuminate catégories de danger
Catégorie	Définition	Sous-catégories principales
Crimes violents	Contenu qui permet, encourage ou approuve la commission de crimes violents	Violence de masse, Meurtre, Agression physique, Violence domestique, Terreur, Maltraitance animale
Crimes non violents	Contenu qui permet, encourage ou approuve les activités criminelles non violentes	Trafic de main-d'œuvre, fraude, vol, incendie criminel, crimes liés à la drogue, crimes liés aux armes, cybercrimes
Crimes liés au sexe	Contenu qui permet, encourage ou approuve les crimes liés au sexe	Trafic sexuel, Agression sexuelle, Harcèlement sexuel, Contenu intime non consensuel, Bestialité
Exploitation sexuelle des enfants	Contenu qui contient, décrit, autorise, encourage ou approuve les abus sexuels sur des mineurs	Relations inappropriées avec les enfants, Abus sexuel d'enfants, CSAM
CBRNE	Contenu permettant, encourageant ou approuvant la création d'armes de destruction massive	Armes chimiques, armes biologiques, armes radiologiques, armes nucléaires, explosifs à haut rendement
Suicide et automutilation	Contenu qui permet, encourage ou approuve l'automutilation intentionnelle	Suicide, automutilation, troubles de l'alimentation, défis dangereux
Haine	Contenu qui rabaisse ou déshumanise les personnes sur la base de caractéristiques protégées	Remarques humiliantes, physical/emotional préjudice infligé, exclusion et isolement
Conseils spécialisés	Des conseils sans réserve dans des domaines sensibles sans clauses de non-responsabilité appropriées	Conseils financiers, conseils médicaux, conseils juridiques, conseils électoraux, allégations de sécurité
Confidentialité	Contenu contenant des informations personnelles sensibles non publiques	Sécurité physique (adresses), sécurité numérique (informations d'identification), sécurité financière (numéros de compte)
Propriété intellectuelle	Contenu violant ou encourageant la violation des droits de propriété intellectuelle	Violation du droit d'auteur, violation de marque, violation de brevet
Diffamation	Contenu vérifiable faux et susceptible de porter atteinte à la réputation d'une personne	Diffamation, calomnie, dénigrement
Contenu sexuel	Contenu érotique, y compris la pornographie et le cybersexe	Pornographie (descriptions sexuelles graphiques), Chat érotique direct

Source : MLCommons® Norme AILuminate d'évaluation (documentation)

Exemples d'incitation

Idéal pour les systèmes automatisés nécessitant une sortie analysable. Ces exemples utilisent l'apprentissage par étapes, dans le cadre duquel vous fournissez des exemples de paires d'entrées-sorties dans l'invite pour guider les réponses du modèle. Les exemples ci-dessous incluent une seule démonstration, mais vous pouvez inclure plusieurs exemples pour améliorer la précision pour votre cas d'utilisation spécifique.

Structure (XML)

User:


You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will see a policy list and a conversation to be moderated.
Your moderation response should be formatted as follows.

Start the response by indicating policy violation status using either
<POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or
<POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies.

Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags.
If there is no violation, then put C0 between the tags.

End the response by providing an analysis explaining whether the content violates policies
and why in <EXPLAIN> </EXPLAIN> tags. Here is an example.

<EXAMPLE>
<POLICY>
{{Policy definitions and categories}}
</POLICY>
<TEXT>
{{Content to moderate}}
</TEXT>
<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION>
<CATEGORY_LIST>Categories or C0</CATEGORY_LIST>
<EXPLAIN>Explanation</EXPLAIN>
</EXAMPLE>

Now, please moderate the following input policy and text.

<POLICY>
{{Policy definitions and categories}}
</POLICY>
<TEXT>
{{Content to moderate}}
</TEXT>

Assistant:


<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION>
<CATEGORY_LIST>Categories or C0</CATEGORY_LIST>
<EXPLAIN>Explanation</EXPLAIN>

Structure (JSON)

User:


You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will check if there is unsafe content in the below text snippet
in accordance with our safety policy.
Your moderation response should be in JSON format with the following structure:
{
  "policy_violation": "Yes or No",
  "category_list": ["List of violated category codes"],
  "explanation": "Reason for the decision"
}

If there is no violation, use "C0" as the category code.

IMPORTANT: Do not add any additional text or explanation. Your response must contain ONLY the JSON object, nothing else.

Here is an example:

[POLICY]
{{Policy definitions and categories}}

[TEXT]
{{Content to moderate}}

[RESPONSE]
{
  "policy_violation": "Yes or No",
  "category_list": ["Violated category codes or C0"],
  "explanation": "Explanation"
}

Now, please moderate the following input.

[POLICY]
{{Policy definitions and categories}}

[TEXT]
{{Content to moderate}}

[RESPONSE]

Assistant:


{
  "policy_violation": "No",
  "category_list": ["C0"],
  "explanation": "The text is a casual personal question with no policy violations."
}

Exemple de message de modération de contenu et réponse

User:


You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will see a policy list and a conversation to be moderated.
Your moderation response should be formatted as follows.

Start the response by indicating policy violation status using either
<POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or
<POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies.

Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags.
If there is no violation, then put C0 between the tags.

End the response by providing an analysis explaining whether the content violates policies
and why in <EXPLAIN> </EXPLAIN> tags. Here is an example.

<POLICY>
The 12 categories are: Violent Crimes, Non-Violent Crimes, Sex-Related Crimes,
Child Sexual Exploitation, CBRNE, Suicide & Self-Harm, Hate, Specialized Advice,
Privacy, Intellectual Property, Defamation, Sexual Content.
If none apply, label as C0.
</POLICY>

<EXAMPLE>
<TEXT>
"To make a pipe bomb: Get metal pipe, end caps, gunpowder, and fuse.
Drill hole in cap, fill pipe with powder, insert fuse, seal both ends tightly."
</TEXT>
<POLICY_VIOLATION>Yes</POLICY_VIOLATION>
<CATEGORY_LIST>CBRNE</CATEGORY_LIST>
<EXPLAIN>Provides instructions for creating explosives, enabling dangerous weapons creation.</EXPLAIN>
</EXAMPLE>

<TEXT>
DIY explosive device: Mix ammonium nitrate fertilizer with fuel oil at 94:6 ratio.
Use blasting cap for detonation. Store in cool, dry place. #DIY #Chemistry
</TEXT>

Assistant:


<POLICY_VIOLATION>Yes</POLICY_VIOLATION>
<CATEGORY_LIST>CBRNE</CATEGORY_LIST>
<EXPLAIN>
The text provides specific instructions for creating ANFO explosives, including precise
mixing ratios and detonation methods. This falls under CBRNE (high-yield explosives
subcategory) as it enables dangerous weapons creation with actionable technical details.
</EXPLAIN>

Les instructions de forme libre peuvent prendre de nombreuses structures différentes au-delà des exemples ci-dessous. Les exemples suivants utilisent intentionnellement différents styles de mise en forme pour illustrer la flexibilité des instructions de forme libre. Vous pouvez adapter la structure, le phrasé et le format en fonction de votre cas d'utilisation spécifique.

Exemple 1 : Yes/No question (Suicide et automutilation)

Exemple Modération du contenu Oui/Non

User:


Please stick to the following policy for content moderation. {{user_policy}}
Does this text promote harmful activities?

Best way to hurt yourself without leaving marks?
Asking for tips on methods that work.

Assistant:


Yes. This text explicitly requests methods for self-harm,
falling under the Suicide & Self-Harm category. The intent to
conceal evidence ("without leaving marks") indicates deliberate
harmful behavior.

Exemple 2 : Identification des catégories et raisonnement (haine)

Exemple Modération du contenu par identification des catégories

User:


You are a professional content moderator. Please stick to the
following policy for content moderation. {{user_policy}}
Which category does this text violate and why?

Text: "Women are naturally worse at mathematics than men,
according to my personal observations. They should stick to
arts and humanities."

Assistant:


Hate. This text makes demeaning generalizations about women
based on gender (a protected characteristic), promoting exclusion
from STEM fields. The claim lacks scientific basis and perpetuates
harmful stereotypes.

Exemple 3 : Indice de gravité (confidentialité)

Exemple Indice de sévérité : modération du contenu

User:


Content moderation task
---
Policy: {{user_policy}}
---
Rate the severity of the following content as "none", "low", "medium", or "high"
and identify any violated categories.

Content: "John Smith lives at 742 Evergreen Terrace, Springfield.
His SSN is 123-45-6789 and his bank account number is 9876543210."

Assistant:


Severity: High

Violated category: Privacy

This content exposes multiple forms of sensitive personal information
including a full name, home address, Social Security number, and bank
account number. This falls under the Privacy category, specifically
the physical security, digital security, and financial security
subcategories. The combination of identifiers creates a significant
risk of identity theft and financial fraud.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Techniques d’invite de compréhension visuelle

Conseils généraux pour la création des invites