Modération du contenu - Amazon Nova

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Modération du contenu

Ce guide fournit les meilleures pratiques pour inciter les modèles Amazon Nova à modérer le contenu en utilisant le MLCommons® AILuminate Assessment Standard, un cadre complet comportant 12 catégories de danger pour la sécurité de l'IA. Bien que ce guide utilise la MLCommons norme comme exemple pour illustrer les meilleures pratiques, les techniques d'invite fonctionnent avec toutes les catégories et définitions de modération de contenu libres ou personnalisables que vous spécifiez.

Principaux principes

  • Utilisez des instructions structurées (XML, JSON) ou de forme libre en fonction de votre cas d'utilisation

  • Modérez tout contenu textuel : conversations, articles, publications sur les réseaux sociaux, commentaires, critiques, etc.

  • Fournir des définitions de politiques claires

  • Demandez des explications en matière de transparence

Pour les tâches de modération du contenu, nous recommandons la configuration d'inférence suivante :

  • Température — Utilisez la valeur par défaut de 0,7.

  • Top P — Utilisez la valeur par défaut de 0,9.

  • Raisonnement : désactivez le raisonnement en faveur de la modération du contenu afin de réduire la latence.

MLCommons taxonomie universelle

La norme définit 12 catégories de danger :

MLCommons AILuminate catégories de danger
Catégorie Définition Sous-catégories principales
Crimes violents Contenu qui permet, encourage ou approuve la commission de crimes violents Violence de masse, Meurtre, Agression physique, Violence domestique, Terreur, Maltraitance animale
Crimes non violents Contenu qui permet, encourage ou approuve les activités criminelles non violentes Trafic de main-d'œuvre, fraude, vol, incendie criminel, crimes liés à la drogue, crimes liés aux armes, cybercrimes
Crimes liés au sexe Contenu qui permet, encourage ou approuve les crimes liés au sexe Trafic sexuel, Agression sexuelle, Harcèlement sexuel, Contenu intime non consensuel, Bestialité
Exploitation sexuelle des enfants Contenu qui contient, décrit, autorise, encourage ou approuve les abus sexuels sur des mineurs Relations inappropriées avec les enfants, Abus sexuel d'enfants, CSAM
CBRNE Contenu permettant, encourageant ou approuvant la création d'armes de destruction massive Armes chimiques, armes biologiques, armes radiologiques, armes nucléaires, explosifs à haut rendement
Suicide et automutilation Contenu qui permet, encourage ou approuve l'automutilation intentionnelle Suicide, automutilation, troubles de l'alimentation, défis dangereux
Haine Contenu qui rabaisse ou déshumanise les personnes sur la base de caractéristiques protégées Remarques humiliantes, physical/emotional préjudice infligé, exclusion et isolement
Conseils spécialisés Des conseils sans réserve dans des domaines sensibles sans clauses de non-responsabilité appropriées Conseils financiers, conseils médicaux, conseils juridiques, conseils électoraux, allégations de sécurité
Confidentialité Contenu contenant des informations personnelles sensibles non publiques Sécurité physique (adresses), sécurité numérique (informations d'identification), sécurité financière (numéros de compte)
Propriété intellectuelle Contenu violant ou encourageant la violation des droits de propriété intellectuelle Violation du droit d'auteur, violation de marque, violation de brevet
Diffamation Contenu vérifiable faux et susceptible de porter atteinte à la réputation d'une personne Diffamation, calomnie, dénigrement
Contenu sexuel Contenu érotique, y compris la pornographie et le cybersexe Pornographie (descriptions sexuelles graphiques), Chat érotique direct

Source : MLCommons® Norme AILuminate d'évaluation (documentation)

Exemples d'incitation

Idéal pour les systèmes automatisés nécessitant une sortie analysable. Ces exemples utilisent l'apprentissage par étapes, dans le cadre duquel vous fournissez des exemples de paires d'entrées-sorties dans l'invite pour guider les réponses du modèle. Les exemples ci-dessous incluent une seule démonstration, mais vous pouvez inclure plusieurs exemples pour améliorer la précision pour votre cas d'utilisation spécifique.

Structure (XML)

User:

You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will see a policy list and a conversation to be moderated. Your moderation response should be formatted as follows. Start the response by indicating policy violation status using either <POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or <POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies. Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags. If there is no violation, then put C0 between the tags. End the response by providing an analysis explaining whether the content violates policies and why in <EXPLAIN> </EXPLAIN> tags. Here is an example. <EXAMPLE> <POLICY> {{Policy definitions and categories}} </POLICY> <TEXT> {{Content to moderate}} </TEXT> <POLICY_VIOLATION>Yes/No</POLICY_VIOLATION> <CATEGORY_LIST>Categories or C0</CATEGORY_LIST> <EXPLAIN>Explanation</EXPLAIN> </EXAMPLE> Now, please moderate the following input policy and text. <POLICY> {{Policy definitions and categories}} </POLICY> <TEXT> {{Content to moderate}} </TEXT>

Assistant:

<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION> <CATEGORY_LIST>Categories or C0</CATEGORY_LIST> <EXPLAIN>Explanation</EXPLAIN>

Structure (JSON)

User:

You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will check if there is unsafe content in the below text snippet in accordance with our safety policy. Your moderation response should be in JSON format with the following structure: { "policy_violation": "Yes or No", "category_list": ["List of violated category codes"], "explanation": "Reason for the decision" } If there is no violation, use "C0" as the category code. IMPORTANT: Do not add any additional text or explanation. Your response must contain ONLY the JSON object, nothing else. Here is an example: [POLICY] {{Policy definitions and categories}} [TEXT] {{Content to moderate}} [RESPONSE] { "policy_violation": "Yes or No", "category_list": ["Violated category codes or C0"], "explanation": "Explanation" } Now, please moderate the following input. [POLICY] {{Policy definitions and categories}} [TEXT] {{Content to moderate}} [RESPONSE]

Assistant:

{ "policy_violation": "No", "category_list": ["C0"], "explanation": "The text is a casual personal question with no policy violations." }

Exemple de message de modération de contenu et réponse

User:

You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will see a policy list and a conversation to be moderated. Your moderation response should be formatted as follows. Start the response by indicating policy violation status using either <POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or <POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies. Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags. If there is no violation, then put C0 between the tags. End the response by providing an analysis explaining whether the content violates policies and why in <EXPLAIN> </EXPLAIN> tags. Here is an example. <POLICY> The 12 categories are: Violent Crimes, Non-Violent Crimes, Sex-Related Crimes, Child Sexual Exploitation, CBRNE, Suicide & Self-Harm, Hate, Specialized Advice, Privacy, Intellectual Property, Defamation, Sexual Content. If none apply, label as C0. </POLICY> <EXAMPLE> <TEXT> "To make a pipe bomb: Get metal pipe, end caps, gunpowder, and fuse. Drill hole in cap, fill pipe with powder, insert fuse, seal both ends tightly." </TEXT> <POLICY_VIOLATION>Yes</POLICY_VIOLATION> <CATEGORY_LIST>CBRNE</CATEGORY_LIST> <EXPLAIN>Provides instructions for creating explosives, enabling dangerous weapons creation.</EXPLAIN> </EXAMPLE> <TEXT> DIY explosive device: Mix ammonium nitrate fertilizer with fuel oil at 94:6 ratio. Use blasting cap for detonation. Store in cool, dry place. #DIY #Chemistry </TEXT>

Assistant:

<POLICY_VIOLATION>Yes</POLICY_VIOLATION> <CATEGORY_LIST>CBRNE</CATEGORY_LIST> <EXPLAIN> The text provides specific instructions for creating ANFO explosives, including precise mixing ratios and detonation methods. This falls under CBRNE (high-yield explosives subcategory) as it enables dangerous weapons creation with actionable technical details. </EXPLAIN>

Les instructions de forme libre peuvent prendre de nombreuses structures différentes au-delà des exemples ci-dessous. Les exemples suivants utilisent intentionnellement différents styles de mise en forme pour illustrer la flexibilité des instructions de forme libre. Vous pouvez adapter la structure, le phrasé et le format en fonction de votre cas d'utilisation spécifique.

Exemple 1 : Yes/No question (Suicide et automutilation)

Exemple Modération du contenu Oui/Non

User:

Please stick to the following policy for content moderation. {{user_policy}} Does this text promote harmful activities? Best way to hurt yourself without leaving marks? Asking for tips on methods that work.

Assistant:

Yes. This text explicitly requests methods for self-harm, falling under the Suicide & Self-Harm category. The intent to conceal evidence ("without leaving marks") indicates deliberate harmful behavior.

Exemple 2 : Identification des catégories et raisonnement (haine)

Exemple Modération du contenu par identification des catégories

User:

You are a professional content moderator. Please stick to the following policy for content moderation. {{user_policy}} Which category does this text violate and why? Text: "Women are naturally worse at mathematics than men, according to my personal observations. They should stick to arts and humanities."

Assistant:

Hate. This text makes demeaning generalizations about women based on gender (a protected characteristic), promoting exclusion from STEM fields. The claim lacks scientific basis and perpetuates harmful stereotypes.

Exemple 3 : Indice de gravité (confidentialité)

Exemple Indice de sévérité : modération du contenu

User:

Content moderation task --- Policy: {{user_policy}} --- Rate the severity of the following content as "none", "low", "medium", or "high" and identify any violated categories. Content: "John Smith lives at 742 Evergreen Terrace, Springfield. His SSN is 123-45-6789 and his bank account number is 9876543210."

Assistant:

Severity: High Violated category: Privacy This content exposes multiple forms of sensitive personal information including a full name, home address, Social Security number, and bank account number. This falls under the Privacy category, specifically the physical security, digital security, and financial security subcategories. The combination of identifiers creates a significant risk of identity theft and financial fraud.