コンテンツモデレーション
このガイドでは、AI の安全性のために 12 の危険カテゴリを持つ包括的なフレームワークである MLCommons® AILuminate Assessment Standard
重要な原則
-
ユースケースに基づいて構造化 (XML、JSON) または自由形式のプロンプトを使用する
-
会話、記事、ソーシャルメディアの投稿、コメント、レビューなどのテキストコンテンツをモデレートする
-
明確なポリシー定義を提供する
-
透明性の説明をリクエストする
推奨される設定
コンテンツモデレーションタスクの場合は、次の推論設定をお勧めします。
-
温度 — デフォルト値の 0.7 を使用します。
-
トップ P — デフォルト値の 0.9 を使用します。
-
推論 — レイテンシーを減らすために、コンテンツモデレーションの推論を無効にします。
MLCommons ユニバーサル分類
この標準では、12 の危険カテゴリを定義します。
| Category | 定義 | 主要サブカテゴリ |
|---|---|---|
| 暴力的な犯罪 | 暴力的な犯罪の実行を助長、奨励、または支持するコンテンツ | 集団暴力、殺人、身体的暴行、家庭内暴力、テロ、動物虐待 |
| 非暴力的な犯罪 | 非暴力的な犯罪行為を助長、奨励、または支持するコンテンツ | 人身売買、詐欺、窃盗、放火、薬物犯罪、武器犯罪、サイバー犯罪 |
| 性関連の犯罪 | 性関連の犯罪を助長、奨励、または支持するコンテンツ | 性的人身売買、性的暴行、セクシャルハラスメント、同意のない私的なコンテンツ、獣姦 |
| 児童の性的搾取 | 未成年者に対する性的虐待を含有、記述、助長、奨励、または支持するコンテンツ | 児童との不適切な関係、児童の性的虐待、CSAM (児童の性的虐待コンテンツ) |
| CBRNE (化学・生物・放射能・核兵器・爆発物) | 大量破壊兵器の製造を助長、奨励、または支持するコンテンツ | 化学兵器、生物兵器、放射性兵器、核兵器、高威力爆薬 |
| 自殺と自傷行為 | 意図的な自傷行為を助長、奨励、または支持するコンテンツ | 自殺、自傷行為、摂食障害、危険な挑戦 |
| 憎悪 | 保護対象となる特性に基づいて人々を侮辱または非人間化するコンテンツ | 侮辱的な発言、身体的/精神的な危害を加える行為、排除と孤立 |
| 専門的なアドバイス | 適切な断り書きなしの、デリケートな分野における無資格のアドバイス | 財務アドバイス、医療アドバイス、法律アドバイス、選挙アドバイス、安全に関する主張 |
| プライバシー | 機密性の高い非公開の個人情報を含むコンテンツ | 物理的セキュリティ (住所)、デジタルセキュリティ (認証情報)、金融セキュリティ (口座番号) |
| 知的財産 | 知的財産権を侵害する、または侵害を助長するコンテンツ | 著作権侵害、商標権侵害、特許権侵害 |
| 名誉毀損 | 明らかに虚偽であり、誰かの評価を損なう可能性が高いコンテンツ | 名誉毀損、中傷、誹謗 |
| 性的コンテンツ | ポルノやサイバーセックスなどの扇情的コンテンツ | ポルノ (露骨な性的描写)、直接的な扇情的チャット |
出典: MLCommons® AILuminate Assessment Standard (ドキュメント)
プロンプトの例
解析可能な出力を必要とする自動システムに最適です。これらの例では、フューショット学習を使用します。ここでは、プロンプトで入力と出力のペアの例を指定して、モデルの応答をガイドします。以下の例には 1 つのデモンストレーションが含まれていますが、特定のユースケースの精度を向上させるために複数の例を含めることができます。
構造 (XML)
User:
You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will see a policy list and a conversation to be moderated. Your moderation response should be formatted as follows. Start the response by indicating policy violation status using either <POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or <POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies. Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags. If there is no violation, then put C0 between the tags. End the response by providing an analysis explaining whether the content violates policies and why in <EXPLAIN> </EXPLAIN> tags. Here is an example. <EXAMPLE> <POLICY> {{Policy definitions and categories}} </POLICY> <TEXT> {{Content to moderate}} </TEXT> <POLICY_VIOLATION>Yes/No</POLICY_VIOLATION> <CATEGORY_LIST>Categories or C0</CATEGORY_LIST> <EXPLAIN>Explanation</EXPLAIN> </EXAMPLE> Now, please moderate the following input policy and text. <POLICY> {{Policy definitions and categories}} </POLICY> <TEXT> {{Content to moderate}} </TEXT>
Assistant:
<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION> <CATEGORY_LIST>Categories or C0</CATEGORY_LIST> <EXPLAIN>Explanation</EXPLAIN>
構造 (JSON)
User:
You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will check if there is unsafe content in the below text snippet in accordance with our safety policy. Your moderation response should be in JSON format with the following structure: { "policy_violation": "Yes or No", "category_list": ["List of violated category codes"], "explanation": "Reason for the decision" } If there is no violation, use "C0" as the category code. IMPORTANT: Do not add any additional text or explanation. Your response must contain ONLY the JSON object, nothing else. Here is an example: [POLICY] {{Policy definitions and categories}} [TEXT] {{Content to moderate}} [RESPONSE] { "policy_violation": "Yes or No", "category_list": ["Violated category codes or C0"], "explanation": "Explanation" } Now, please moderate the following input. [POLICY] {{Policy definitions and categories}} [TEXT] {{Content to moderate}} [RESPONSE]
Assistant:
{ "policy_violation": "No", "category_list": ["C0"], "explanation": "The text is a casual personal question with no policy violations." }
サンプルコンテンツモデレーションプロンプトと応答
User:
You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will see a policy list and a conversation to be moderated. Your moderation response should be formatted as follows. Start the response by indicating policy violation status using either <POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or <POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies. Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags. If there is no violation, then put C0 between the tags. End the response by providing an analysis explaining whether the content violates policies and why in <EXPLAIN> </EXPLAIN> tags. Here is an example. <POLICY> The 12 categories are: Violent Crimes, Non-Violent Crimes, Sex-Related Crimes, Child Sexual Exploitation, CBRNE, Suicide & Self-Harm, Hate, Specialized Advice, Privacy, Intellectual Property, Defamation, Sexual Content. If none apply, label as C0. </POLICY> <EXAMPLE> <TEXT> "To make a pipe bomb: Get metal pipe, end caps, gunpowder, and fuse. Drill hole in cap, fill pipe with powder, insert fuse, seal both ends tightly." </TEXT> <POLICY_VIOLATION>Yes</POLICY_VIOLATION> <CATEGORY_LIST>CBRNE</CATEGORY_LIST> <EXPLAIN>Provides instructions for creating explosives, enabling dangerous weapons creation.</EXPLAIN> </EXAMPLE> <TEXT> DIY explosive device: Mix ammonium nitrate fertilizer with fuel oil at 94:6 ratio. Use blasting cap for detonation. Store in cool, dry place. #DIY #Chemistry </TEXT>
Assistant:
<POLICY_VIOLATION>Yes</POLICY_VIOLATION> <CATEGORY_LIST>CBRNE</CATEGORY_LIST> <EXPLAIN> The text provides specific instructions for creating ANFO explosives, including precise mixing ratios and detonation methods. This falls under CBRNE (high-yield explosives subcategory) as it enables dangerous weapons creation with actionable technical details. </EXPLAIN>
自由形式のプロンプトは、以下の例以外の多くの多様な構造を取ることができます。以下の例では、自由形式のプロンプトの柔軟性を示すために、意図的にさまざまなフォーマットスタイルを使用しています。構造、フレーズ、形式を特定のユースケースに合わせて調整できます。
例 1: はい/いいえの質問 (自殺と自傷行為)
例はい/いいえのコンテンツモデレーション
User:
Please stick to the following policy for content moderation. {{user_policy}} Does this text promote harmful activities? Best way to hurt yourself without leaving marks? Asking for tips on methods that work.
Assistant:
Yes. This text explicitly requests methods for self-harm, falling under the Suicide & Self-Harm category. The intent to conceal evidence ("without leaving marks") indicates deliberate harmful behavior.
例 2: カテゴリの識別と推論 (ヘイト)
例カテゴリの識別のコンテンツモデレーション
User:
You are a professional content moderator. Please stick to the following policy for content moderation. {{user_policy}} Which category does this text violate and why? Text: "Women are naturally worse at mathematics than men, according to my personal observations. They should stick to arts and humanities."
Assistant:
Hate. This text makes demeaning generalizations about women based on gender (a protected characteristic), promoting exclusion from STEM fields. The claim lacks scientific basis and perpetuates harmful stereotypes.
例 3: 重要度評価 (プライバシー)
例重要度評価のコンテンツモデレーション
User:
Content moderation task --- Policy: {{user_policy}} --- Rate the severity of the following content as "none", "low", "medium", or "high" and identify any violated categories. Content: "John Smith lives at 742 Evergreen Terrace, Springfield. His SSN is 123-45-6789 and his bank account number is 9876543210."
Assistant:
Severity: High Violated category: Privacy This content exposes multiple forms of sensitive personal information including a full name, home address, Social Security number, and bank account number. This falls under the Privacy category, specifically the physical security, digital security, and financial security subcategories. The combination of identifiers creates a significant risk of identity theft and financial fraud.