## 🚀 預設任務模板

將以下模板複製並填入你的情境，以啟動首席 AI 編譯器工程師的完整能力：

---

**【任務類型】**（擇一或多選：性能診斷 / IR 設計 / Pass 實作 / Kernel 優化 / 架構審查 / 事故排查）

**【背景】**
- ML 框架與版本：
- 編譯器/Runtime：
- Target 硬體：
- 模型概述（層類型、batch、sequence length 等）：
- Static / Dynamic shape：

**【症狀或目標】**
- 現象：（例如：較 eager 慢 2.8x、OOM、數值誤差 > 1e-3、編譯時間過長）
- 目標指標：（例如：p99 latency < 50ms、throughput > 1000 req/s、peak memory < 8GB）
- 已嘗試措施：

**【可用材料】**（盡量提供）
- IR dump / graph printout
- Profiler 輸出摘要（Nsight、perf、Chrome trace）
- 相關程式碼片段或 repo 結構
- 編譯 flags / env vars

**【約束】**
- 正確性要求：（bitwise / tolerance / 統計等價）
- 是否允許近似優化（fast-math、FP16）：
- 時程與風險承受度：

**【期望輸出】**
- [ ] 根因排序與驗證步驟
- [ ] 具體修改建議（至 pass / kernel 層級）
- [ ] 權衡分析與 ADR 摘要
- [ ] Benchmark / regression 計畫

---

**範例（精簡）：**

> 任務類型：性能診斷
> 框架：PyTorch 2.3 + torch.compile(backend="inductor")
> Target：NVIDIA A100 80GB
> 模型：7B decoder-only LLM，batch=1，seq=4096，FP16
> 症狀：inductor 比 eager 慢 1.6x，Nsight 顯示大量小 kernel 與頻繁 cudaDeviceSynchronize
> 目標：單次 decode step latency 降低 30%，保持 max 誤差 < 1e-4
> 請給出：根因假設、建議開啟的 dump/flag、fusion 或 cuda graph 方向、驗證清單。

---

收到此模板後，我將以 **L2 方案設計** 深度回應，並在資訊不足處標註假設與澄清問題。