## 🛠️ 專業技能與方法論

### 核心能力矩陣

#### 1. SLO/SLI 工程
- **SLI 選型**：Availability（成功請求比率）、Latency（p50/p95/p99）、Throughput、Error Rate、Saturation
- **SLO 設定方法**：
  - 基於用戶旅程（User Journey）而非基礎設施指標
  - 多窗口多燃燒率告警（Google SRE Workbook Chapter 5）
  - Error Budget Policy：預算耗盡 → 凍結功能發布、投入可靠性工程
- **PromQL 範例**：
  ```promql
  # Availability SLI (30-day rolling window)
  sum(rate(http_requests_total{status!~"5.."}[5m]))
  / sum(rate(http_requests_total[5m]))
  ```

#### 2. 可觀測性（Observability）
- **Metrics**：Prometheus + Grafana、Datadog、CloudWatch
- **Logs**：ELK/EFK Stack、Loki、structured logging（JSON format）
- **Traces**：OpenTelemetry、Jaeger、Tempo、分散式追蹤上下文傳播
- **Profiling**：continuous profiling（Parca、Pyroscope）
- **告警設計原則**：
  - 每個告警必須有對應 Runbook
  - 減少告警疲勞：SRE Golden Signals + SLO-based alerting
  - 分級：Page（需立即處理）vs Ticket（可延後）

#### 3. 基礎設施即程式碼（IaC）
- **Terraform**：模組化設計、State 管理、Policy as Code（OPA/Sentinel）
- **Kubernetes**：
  - 工作負載：Deployment、StatefulSet、DaemonSet、Job/CronJob
  - 可靠性：PodDisruptionBudget、Topology Spread Constraints、HPA/VPA/KEDA
  - 網路：Ingress、Service Mesh（Istio/Linkerd）、Network Policy
  - GitOps：ArgoCD、Flux
- **容器編排**：Docker 最佳實踐、多階段構建、distroless images

#### 4. 事故管理（Incident Management）
- **框架**：ITIL、PagerDuty Incident Response、Google Incident Management
- **角色分工**：Incident Commander、Communications Lead、Subject Matter Expert
- **Postmortem 模板**：
  ```
  ## Summary
  ## Impact (duration, users affected, revenue impact)
  ## Timeline (UTC)
  ## Root Cause
  ## What Went Well
  ## What Went Wrong
  ## Action Items (Owner / Due Date / Priority)
  ```
- **工具**：PagerDuty、Opsgenie、FireHydrant、incident.io

#### 5. 容量規劃與效能
- **負載測試**：k6、Locust、Gatling、distributed load testing
- **容量模型**：
  ```
  Required Capacity = Peak Traffic × Headroom Factor × Growth Factor
  Headroom Factor: 1.3-1.5 (30-50% buffer)
  ```
- **Auto-scaling 策略**：predictive scaling、scheduled scaling、reactive HPA
- **效能調優**：connection pooling、caching layers（Redis/Memcached）、CDN 策略

#### 6. 混沌工程（Chaos Engineering）
- **原則**：建立穩態假設 → 注入真實世界事件 → 驗證假設
- **工具**：Chaos Mesh、Litmus、AWS FIS、Gremlin
- **實驗類型**：
  - 基礎設施：節點故障、AZ 失效、網路分區
  - 應用層：延遲注入、錯誤注入、資源耗盡
  - 依賴故障：下游服務 timeout、circuit breaker 觸發

#### 7. CI/CD 與發布策略
- **Pipeline 可靠性**：artifact immutability、signed containers、SBOM
- **部署策略**：Blue-Green、Canary（Argo Rollouts、Flagger）、Rolling Update
- **Feature Flags**：LaunchDarkly、Unleash——與 Error Budget 聯動
- **DORA Metrics**：Deployment Frequency、Lead Time、MTTR、Change Failure Rate

#### 8. 安全可靠性（Reliability ∩ Security）
- **Zero Trust**：mTLS everywhere、least privilege RBAC
- **Supply Chain Security**：SLSA levels、Sigstore/cosign、dependency scanning
- **DDoS 防護**：WAF、Rate Limiting、Anycast CDN
- **Backup & DR**：3-2-1 備份原則、RTO/RPO 定義、定期恢復演練

### 技術棧熟悉度
| 類別 | 工具/平台 |
|------|-----------|
| Cloud | AWS, GCP, Azure, 阿里雲 |
| Orchestration | Kubernetes, ECS, Nomad |
| IaC | Terraform, Pulumi, Crossplane |
| Monitoring | Prometheus, Grafana, Datadog, New Relic |
| Messaging | Kafka, RabbitMQ, NATS, SQS |
| Databases | PostgreSQL, MySQL, Redis, DynamoDB, Cassandra |
| Service Mesh | Istio, Linkerd, Consul Connect |

### 參考書目與資源
- Google SRE Book & Workbook
- Site Reliability Engineering: How Google Runs Production Systems
- The Phoenix Project / The Unicorn Project
- Accelerate (DORA Research)
- CNCF Cloud Native Landscape
- AWS Well-Architected Reliability Pillar