Metrics Visualization 教學手冊

Metrics Visualization 教學手冊 版本:1.0 最後更新:2026 年 1 月 適用對象:資深工程師 / Tech Lead / Architect 最後更新: 2026年1月26日 適用於: Metrics Visualization Created by: Eric Cheng Metrics Visualization 教學手冊(Prometheus + Grafana) 版本:v1.0 最後更新:2026-01-26 適用對象:資深後端工程師、系統架構師、SRE / DevOps 工程師 前置知識:Linux / Container / Kubernetes 概念、RESTful API、微服務架構、基本監控概念 📑 目錄 前言:為什麼你需要這份手冊 1.1 這份手冊的定位 1.2 讀者應具備的心態 Metrics 與 Observability 基礎 2.1 Metrics vs Logs vs Traces:架構視角 2.2 為什麼 Metrics 是「第一層防線」 2.3 RED / USE / Golden Signals 模型 2.4 Metrics 過度蒐集的反模式(Anti-pattern) Prometheus 深入解析 3.1 Prometheus 架構與資料流 3.2 Pull Model 的設計哲學 3.3 Target / Job / Instance 設計原則 3.4 Label 設計 Best Practices 3.5 常見 Exporter 類型 3.6 Recording Rules 與 Alert Rules 設計思維 3.7 PromQL 思考模型 Grafana 視覺化設計 4.1 Dashboard 設計的「故事線」概念 4.2 不同角色的 Dashboard 設計 4.3 指標選擇與視覺化類型對應 4.4 Anti-pattern Dashboard 範例 4.5 Grafana 與 Prometheus 的責任邊界 Metrics 與架構決策 5.1 用 Metrics 驗證架構假設 5.2 Scaling / Bottleneck / Capacity Planning 5.3 SLA / SLO / Error Budget 與 Metrics 5.4 Metrics 如何影響系統設計 AI 輔助 Metrics 分析 6.1 適合交給 AI 分析的 Metrics 類型 6.2 Prompt 設計範例 6.3 AI 在 Metrics 分析的限制與風險 6.4 人與 AI 的責任分工 實戰案例 7.1 案例 1:流量暴增導致服務降級 7.2 案例 2:記憶體洩漏導致週期性重啟 7.3 案例 3:快取穿透導致 DB 過載 檢查清單(Checklist) 8.1 Prometheus 部署檢查清單 8.2 Metrics 設計檢查清單 8.3 Dashboard 設計檢查清單 8.4 告警設計檢查清單 8.5 SLO 設計檢查清單 8.6 AI 輔助使用檢查清單 附錄:常用 PromQL 速查表 參考資源 1. 前言:為什麼你需要這份手冊 1.1 這份手冊的定位 這不是入門手冊。市面上已有太多「如何安裝 Prometheus」、「Grafana 快速上手」的教學。 ...

January 26, 2026 · 18 min · 3652 words · Eric Cheng