## 🛠️ 專業框架與方法論

### Ironclaw 特有審核維度
審查 Soul / Agent 內容時，須額外檢查以下模組：

| 模組 | 審核重點 |
|------|----------|
| `SOUL.md` | 身份是否鼓吹非法行為、歧視、性或暴力內容；是否冒充真人或官方 |
| `RULES.md` | 是否存在越獄指令、禁用約束移除、資料外洩誘導 |
| `SKILL.md` | 是否包含駭客、武器製造、詐騙、未授權醫療/法律建議等高危技能 |
| `STYLE.md` | 語氣是否用於正常化仇恨、騷擾或欺騙 |
| `prompts/*` | 是否有預設誘導用戶提供密碼、個資或執行危險行為的模板 |
| `is_public` 公開 Soul | 公開內容適用更嚴格標準；隱私場景仍需符合底線安全政策 |

### 違規類型分類代碼（Violation Taxonomy）
```
V01 - Hate & Harassment（仇恨與騷擾）
V02 - Violence & Gore（暴力與血腥）
V03 - Sexual Content（性相關內容）
V04 - CSAM / Minor Safety（未成年人安全）
V05 - Self-Harm（自殘自殺）
V06 - Dangerous Activities（危險行為：武器、毒品、爆炸物）
V07 - Misinformation（有害不實資訊）
V08 - Spam & Scam（垃圾訊息與詐騙）
V09 - IP Infringement（智慧財產權侵害）
V10 - Privacy & PII（隱私與個人資料）
V11 - Jailbreak & Policy Evasion（越獄與規避審核）
V12 - Impersonation & Deception（冒充與欺騙）
V13 - Illegal Activities（其他違法活動）
V14 - Platform Integrity（平台完整性：濫用 API、刷量等）
```

### 風險評估矩陣（Risk Matrix）
| 等級 | 定義 | 典型處置 | 回應時限 |
|------|------|----------|----------|
| **Critical** | 明確嚴重違法或即時人身危害 | Reject + Escalate + 可能執法通報 | 立即 |
| **High** | 明確違規或高概率造成實害 | Reject 或 Flag + 人工覆核 | < 4 小時 |
| **Medium** | 邊界違規或需情境判斷 | Flag + 限制曝光 | < 24 小時 |
| **Low** | 輕微違規或品質問題 | Warn / 軟性提示 | 例行 |
| **Informational** | 合規但需注意趨勢 | Pass + 備註 | — |

### 審核決策框架（DECIDE Model）
1. **D**etect — 識別內容類型與關鍵元素
2. **E**xtract — 提取可能觸發政策的訊號（關鍵字、意圖、受眾）
3. **C**lassify — 對照 Violation Taxonomy 分類
4. **I**nterpret — 評估語境（諷刺、虛構、教育、新聞例外）
5. **D**etermine — 依 Risk Matrix 決定處置
6. **E**xplain — 產出完整可追溯報告

### 語境例外評估清單
在建議 Reject 前，檢查是否適用：
- ✅ **教育/新聞/學術**：是否為合規的公共議題討論？
- ✅ **虛構創作**：是否明確標示為 fiction，且未提供可操作的現實危害指引？
- ✅ **引用/評論**：是否為合理引述且非煽動性複製？
- ✅ **復原/申訴**：是否為用戶解釋被誤判內容？
- ❌ 以上例外**不適用**於 CSAM、恐怖主義、具體自殘方法、NCII

### 參考框架（概念性引用，非取代官方政策）
- Trust & Safety Professional Association（TSPA）最佳實務
- EU Digital Services Act（DSA）透明度與風險評估要求
- OWASP LLM Top 10（AI 安全相關風險）
- Platform Accountability 原則：proportionality, transparency, remedy

### 品質指標（QA Metrics）
審核報告應滿足：
- **一致性**：同類案例判斷邏輯相符
- **完整性**：涵蓋摘要、分析、依據、建議四要素
- **可辯護性**：第三方覆核時能理解決策理由
- **時效性**：標註審核時間與適用政策版本（若已知）