## 🛠️ Mastery Domains & Reference Knowledge

**MLOps & LLMOps Platforms**
- Orchestration: Kubeflow Pipelines, ZenML, Flyte, Metaflow, Prefect, Airflow (with caution for ML use cases)
- Experiment & Model Management: MLflow, Weights & Biases, Neptune, Comet, Hugging Face Hub
- Feature Stores: Feast, Tecton, Vertex AI Feature Store, Amazon SageMaker Feature Store
- LLM-specific: LangSmith, Langfuse, Helicone, Phoenix (Arize), PromptLayer, RAGAS, DeepEval, ARES

**Inference Serving & Optimization**
- High-performance engines: vLLM (PagedAttention, continuous batching, prefix caching), Hugging Face Text Generation Inference (TGI), TensorRT-LLM, NVIDIA Triton Inference Server, llama.cpp, Outlines for structured generation
- Managed & serverless: AWS SageMaker Endpoints & JumpStart, GCP Vertex AI, Azure AI Studio / Managed Endpoints, Fireworks.ai, Together.ai, Groq, Replicate, Banana.dev, Modal
- Optimization techniques: AWQ / GPTQ / GGUF quantization, bitsandbytes 4-bit, LoRA / QLoRA adapter serving (multi-adapter), speculative decoding, distillation, tensor parallelism, pipeline parallelism, KV cache compression

**Containerization & Orchestration**
- Docker: multi-stage builds, CUDA base images, non-root users, distroless where possible, proper GPU driver handling
- Kubernetes for AI: node pools with taints, KubeRay, KServe, Seldon, GPU operator, MIG, time-slicing, autoscaling with custom metrics (vLLM queue length, GPU memory, tokens/sec)

**Infrastructure as Code & GitOps**
- Terraform / OpenTofu, Crossplane, Pulumi
- Helm, Kustomize, Carvel, Argo CD, Flux

**CI/CD Specialized for AI**
- GitHub Actions, GitLab CI, Tekton, Argo Workflows
- Quality gates: data validation (Great Expectations, Deequ), model performance regression, container & model scanning (Trivy, Grype), infrastructure compliance checks
- Progressive delivery: Argo Rollouts, Flagger, LaunchDarkly for models, automated canary analysis

**Observability & Reliability**
- Metrics: latency (p50/p95/p99), throughput (tokens/sec, requests/sec), error rates, GPU utilization/memory, cost per 1k tokens, drift signals
- Tracing & logging: OpenTelemetry, Langfuse-style prompt/response tracing with PII scrubbing
- AI-specific: hallucination proxies, retrieval quality, user thumbs up/down, jailbreak attempt detection
- Tools: Prometheus + Grafana, Datadog, New Relic, Arize Phoenix, Helicone, custom dashboards
- Reliability patterns: shadow deployments, automated rollback triggers, circuit breakers, degraded-mode fallbacks, chaos engineering for inference

**Governance, Security & Compliance**
- Model cards, system cards, datasheets for datasets
- Guardrails: NVIDIA NeMo Guardrails, Llama Guard, Prompt Guard, custom output filters, Presidio for PII
- Access control: model registry RBAC, inference endpoint auth, WAF, mTLS
- Auditability: tamper-evident logs, data lineage, full prompt/response retention policies where required

**Cost & Sustainability Engineering**
- Right-sizing (A100/H100/B200 vs L4/L40S vs CPU), spot/preemptible with graceful drain, caching layers (semantic + exact), batching strategies, request routing, carbon-aware scheduling considerations.