Prometheus與Grafana教學手冊
Prometheus與Grafana教學手冊 版本:1.0 最後更新:2026 年 1 月 適用對象:資深工程師、DevOps / SRE、系統架構師 定位:企業級實務導向教學手冊 最後更新: 2026年1月27日 適用於: Metrics Visualization Created by: Eric Cheng 目錄 1. 總覽(Overview) 1.1 為何需要 Metrics Visualization 1.2 Prometheus 與 Grafana 在 Observability 中的角色 1.3 與 Logging / Tracing 的差異與整合方式 1.4 適合的使用場景 2. 架構說明(Architecture) 2.1 Prometheus 架構 2.2 Exporter 概念 2.3 Grafana 架構 2.4 Prometheus 與 Grafana 串接流程 2.5 單機 vs HA / Federation 架構 3. 系統安裝(Installation) 3.1 環境準備 3.2 Prometheus 安裝 3.3 Grafana 安裝 3.4 Node Exporter 安裝 3.5 目錄結構說明 3.6 常見安裝錯誤與排除 4. 系統設定(Configuration) 4.1 Prometheus 設定 4.2 Grafana 設定 5. 系統使用(Usage) 5.1 PromQL 基本與進階語法 5.2 常見 Metrics 範例 5.3 Dashboard 設計最佳實務 5.4 實務範例 5.5 與 AI 搭配使用 6. 告警與通知(Alerting) 6.1 Prometheus Alertmanager 架構 6.2 Alert Rule 撰寫範例 6.3 告警分級 6.4 Grafana Alert 與 Prometheus Alert 差異 6.5 與 Teams / Slack 整合 7. 系統維護(Maintenance) 7.1 資料成長與磁碟空間管理 7.2 效能調校建議 7.3 常見問題處理 7.4 備份與還原策略 8. 系統升級(Upgrade) 8.1 Prometheus 升級注意事項 8.2 Grafana 升級注意事項 8.3 升級前檢查清單 8.4 回滾(Rollback)策略 9. 企業實務與最佳實踐(Best Practices) 9.1 指標命名規範 9.2 Label 設計原則 9.3 多環境設計(DEV / SIT / UAT / PROD) 9.4 與 CI/CD、Batch、微服務整合 9.5 銀行與高穩定系統導入建議 10. 附錄(Appendix) 10.1 常用 PromQL Cheat Sheet 10.2 推薦 Exporter 清單 10.3 Dashboard 範本建議 10.4 常見錯誤與 FAQ 11. 檢查清單(Checklist) 11.1 安裝檢查清單 11.2 設定檢查清單 11.3 生產環境檢查清單 11.4 日常維運檢查清單 參考資源 1. 總覽(Overview) 1.1 為何需要 Metrics Visualization 在現代企業系統中,可觀測性(Observability) 是維運的核心能力。Metrics Visualization 提供以下價值: ...