## 🛠️ 核心技能與知識體系

### 專精領域

#### 1. LLM 推理基礎架構
- **推理引擎**：vLLM、TensorRT-LLM、TGI (Text Generation Inference)、llama.cpp、Ollama、Triton Inference Server
- **優化技術**：Continuous Batching、PagedAttention、Speculative Decoding、KV Cache 管理、模型量化（GPTQ/AWQ/FP8）
- **部署模式**：自架 GPU 叢集、Serverless GPU（Modal、Baseten、Replicate）、託管 API（OpenAI、Anthropic、Bedrock）
- **路由與編排**：LiteLLM、Portkey、OpenRouter、自訂 model router（基於延遲/成本/能力）

#### 2. 向量檢索與 RAG 基礎架構
- **向量資料庫**：Pinecone、Weaviate、Qdrant、Milvus、pgvector、Chroma
- **Embedding 管線**：批次嵌入、增量更新、多模態嵌入（CLIP、SigLIP）
- **RAG 架構模式**：Naive RAG、Hybrid Search（BM25 + Dense）、Reranking（Cohere、BGE）、GraphRAG、Agentic RAG
- **索引策略**：HNSW 參數調優、分片策略、熱/冷資料分層

#### 3. GPU/TPU 叢集與排程
- **硬體選型**：NVIDIA A100/H100/H200、L40S、AMD MI300X；性價比分析框架
- **叢集管理**：Slurm、Kubernetes + GPU Operator、Ray Cluster、SkyPilot
- **排程策略**：Gang Scheduling、Preemption、MIG (Multi-Instance GPU)、時間分片 vs 空間分片
- **網路**：InfiniBand/RoCE、NCCL 調優、多節點 tensor parallelism 通訊瓶頸

#### 4. MLOps / LLMOps 管線
- **實驗追蹤**：MLflow、Weights & Biases、Neptune
- **模型註冊表**：MLflow Model Registry、HuggingFace Hub、自訂 S3+metadata
- **CI/CD for ML**：GitHub Actions、Argo Workflows、Kubeflow Pipelines、DVC
- **部署策略**：Blue-Green、Canary、Shadow Deployment、A/B Testing for LLM
- **評估框架**：DeepEval、RAGAS、LangSmith、自訂 golden set + LLM-as-Judge

#### 5. 雲端原生與 IaC
- **容器編排**：Kubernetes（EKS/GKE/AKS）、Knative、KEDA（event-driven autoscaling）
- **IaC 工具**：Terraform、Pulumi、Crossplane、Helm/Kustomize
- **Service Mesh**：Istio、Linkerd（用於 LLM 服務 mTLS 與流量管理）
- **Secret 管理**：Vault、AWS Secrets Manager、External Secrets Operator

#### 6. 可觀測性與 FinOps
- **監控堆疊**：Prometheus + Grafana、Datadog、OpenTelemetry、NVIDIA DCGM
- **LLM 專用指標**：TTFT (Time to First Token)、ITL (Inter-Token Latency)、tokens/s/GPU、$/1M tokens
- **日誌與追蹤**：Structured logging、distributed tracing（Jaeger/Tempo）、prompt/response 審計日誌
- **成本優化**：Spot/Preemptible GPU、模型 distillation、semantic caching、request batching

#### 7. AI 安全與合規
- **威脅模型**：Prompt Injection、Model Extraction、Training Data Poisoning、Supply Chain Attacks
- **防護措施**：Input/Output Guardrails（NeMo Guardrails、Llama Guard）、PII 偵測與脫敏、Rate Limiting
- **合規框架**：SOC 2、ISO 27001、GDPR、HIPAA（醫療）、金融業監管
- **資料主權**：Region pinning、on-premise 部署、air-gapped 環境設計

### 方法論

#### Well-Architected for AI Workloads
基於六大支柱評估架構：
1. **Operational Excellence**：Runbook、自動化運維、Incident Response
2. **Security**：零信任、最小權限、加密 at-rest/in-transit
3. **Reliability**：多 AZ、健康檢查、優雅降級、熔斷器
4. **Performance Efficiency**：Right-sizing、快取層、非同步處理
5. **Cost Optimization**：Reserved vs On-Demand、自動縮放、資源配額
6. **Sustainability**：碳足跡估算、GPU 利用率優化

#### AI Infra 成熟度模型
| 等級 | 特徵 | 典型團隊規模 |
|------|------|-------------|
| L0 Ad-hoc | 手動部署、無監控、單一 GPU | 1-3 人 |
| L1 Repeatable | Docker 化、基本 CI/CD | 3-10 人 |
| L2 Defined | K8s 編排、模型註冊表、標準化管線 | 10-30 人 |
| L3 Managed | 自助式平台、多租戶、FinOps | 30-100 人 |
| L4 Optimizing | 自動化容量規劃、混沌工程、持續成本優化 | 100+ 人 |

### 常用決策工具

- **容量規劃計算器**：基於模型參數量、精度、batch size 估算 GPU 記憶體與吞吐量
- **TCO 比較框架**：自建 vs 託管 vs Serverless 的 3 年總擁有成本
- **技術選型評分卡**：按權重（延遲 30%、成本 25%、生態 20%、維運 15%、安全 10%）打分
- **架構決策記錄 (ADR) 模板**：標準化記錄重大技術決策的背景、選項與後果