ELK Stack教學手冊

Logstash / Elasticsearch / Kibana(ELK Stack)教學手冊 版本:1.0 最後更新:2026 年 1 月 適用對象:資深軟體工程師、系統架構師、SRE / DevOps 工程師 前置知識:Linux 基礎、Java 應用程式、基本網路概念 最後更新: 2026年1月27日 適用於: Logs Visualization Created by: Eric Cheng 目錄 第一章:Logs Visualization 與 ELK Stack 概述 1.1 為什麼需要 Logs Visualization 1.2 Logs 與 Metrics 的差異與互補 1.3 ELK Stack 架構總覽 1.4 ELK 在 Observability 架構中的角色 1.5 與 AI 輔助開發的關係 第二章:系統整體架構設計 2.1 ELK Stack 架構圖 2.2 各元件角色說明 2.3 單節點 vs 多節點架構 2.4 Production 建議架構 2.5 與 Prometheus / Grafana 並存架構 第三章:系統安裝 3.1 環境需求總覽 3.2 Elasticsearch 安裝 3.3 Logstash 安裝 3.4 Kibana 安裝 3.5 常見安裝問題排除 第四章:系統設定 4.1 Elasticsearch 設定 4.2 Logstash 設定 4.3 Kibana 設定 第五章:三者如何串接 5.1 End-to-End 資料流 5.2 實際串接範例 5.3 Filebeat 整合 第六章:系統使用 6.1 Kibana 操作教學 6.2 查詢語法詳解 6.3 實務使用情境 第七章:系統維護 7.1 Index 管理策略 7.2 效能調校 7.3 健康檢查與監控 第八章:系統升級 8.1 升級前準備 8.2 各元件升級流程 8.3 回復策略 第九章:安全性與權限管理 9.1 Security 基本概念 9.2 使用者與角色管理 9.3 企業資安考量 第十章:最佳實務與導入建議 10.1 導入常見踩雷點 10.2 結構化 Log 設計原則 10.3 與 AI 分析結合 10.4 與 Prometheus / Grafana 分工 附錄:檢查清單 安裝檢查清單 設定檢查清單 上線檢查清單 維運檢查清單(每日) 升級檢查清單 參考資源 第一章:Logs Visualization 與 ELK Stack 概述 1.1 為什麼需要 Logs Visualization 在現代企業級系統中,Log 是系統運行的「黑盒子記錄器」,記錄了系統每一個關鍵時刻的狀態與行為。 ...

January 29, 2026 · 30 min · 6244 words · Eric Cheng

Prometheus與Grafana教學手冊

Prometheus與Grafana教學手冊 版本:1.0 最後更新:2026 年 1 月 適用對象:資深工程師、DevOps / SRE、系統架構師 定位:企業級實務導向教學手冊 最後更新: 2026年1月27日 適用於: Metrics Visualization Created by: Eric Cheng 目錄 1. 總覽(Overview) 1.1 為何需要 Metrics Visualization 1.2 Prometheus 與 Grafana 在 Observability 中的角色 1.3 與 Logging / Tracing 的差異與整合方式 1.4 適合的使用場景 2. 架構說明(Architecture) 2.1 Prometheus 架構 2.2 Exporter 概念 2.3 Grafana 架構 2.4 Prometheus 與 Grafana 串接流程 2.5 單機 vs HA / Federation 架構 3. 系統安裝(Installation) 3.1 環境準備 3.2 Prometheus 安裝 3.3 Grafana 安裝 3.4 Node Exporter 安裝 3.5 目錄結構說明 3.6 常見安裝錯誤與排除 4. 系統設定(Configuration) 4.1 Prometheus 設定 4.2 Grafana 設定 5. 系統使用(Usage) 5.1 PromQL 基本與進階語法 5.2 常見 Metrics 範例 5.3 Dashboard 設計最佳實務 5.4 實務範例 5.5 與 AI 搭配使用 6. 告警與通知(Alerting) 6.1 Prometheus Alertmanager 架構 6.2 Alert Rule 撰寫範例 6.3 告警分級 6.4 Grafana Alert 與 Prometheus Alert 差異 6.5 與 Teams / Slack 整合 7. 系統維護(Maintenance) 7.1 資料成長與磁碟空間管理 7.2 效能調校建議 7.3 常見問題處理 7.4 備份與還原策略 8. 系統升級(Upgrade) 8.1 Prometheus 升級注意事項 8.2 Grafana 升級注意事項 8.3 升級前檢查清單 8.4 回滾(Rollback)策略 9. 企業實務與最佳實踐(Best Practices) 9.1 指標命名規範 9.2 Label 設計原則 9.3 多環境設計(DEV / SIT / UAT / PROD) 9.4 與 CI/CD、Batch、微服務整合 9.5 銀行與高穩定系統導入建議 10. 附錄(Appendix) 10.1 常用 PromQL Cheat Sheet 10.2 推薦 Exporter 清單 10.3 Dashboard 範本建議 10.4 常見錯誤與 FAQ 11. 檢查清單(Checklist) 11.1 安裝檢查清單 11.2 設定檢查清單 11.3 生產環境檢查清單 11.4 日常維運檢查清單 參考資源 1. 總覽(Overview) 1.1 為何需要 Metrics Visualization 在現代企業系統中,可觀測性(Observability) 是維運的核心能力。Metrics Visualization 提供以下價值: ...

January 29, 2026 · 23 min · 4880 words · Eric Cheng

Logs Visualization教學手冊

Logs Visualization 教學手冊(ELK Stack) 版本:1.0 最後更新:2026 年 1 月 適用對象:資深軟體工程師、系統架構師、SRE / DevOps 工程師 最後更新: 2026年1月26日 適用於: Logs Visualization Created by: Eric Cheng 📋 目錄 Logs Visualization 在企業系統中的定位 1.1 為什麼 Logs 是「第二套真實系統」 1.2 Logs vs Metrics vs Tracing 1.3 Logs 在 Dev / QA / Prod 的不同價值 ELK Stack 整體架構設計 2.1 Log 產生端(Application / Middleware / OS) 2.2 Logstash Pipeline 設計原則 2.3 Elasticsearch Index / Shard / Replica 設計 2.4 Kibana 在視覺化與分析上的角色 Logstash 深度實務 3.1 Pipeline 架構設計(Input / Filter / Output) 3.2 Grok / JSON / Mutate 實務技巧 3.3 效能調校與常見瓶頸 3.4 多來源 Log(App / DB / MQ / Batch) Elasticsearch 架構與效能設計 4.1 Index 設計策略 4.2 Mapping 與效能影響 4.3 Hot / Warm / Cold 架構 4.4 查詢效能與資源規劃 Kibana 視覺化與分析設計 5.1 Dashboard 設計原則(給誰看?看什麼?) 5.2 Discover、Lens、Alerting 實務 5.3 常見企業 Dashboard 範例 AI 輔助 Logs Visualization 的實戰應用 6.1 用 AI 協助撰寫 Elasticsearch Query 6.2 用 AI 分析錯誤 Log 與異常模式 6.3 將 Logs 整理成 AI 可理解的 Prompt 6.4 AI 在 Incident Response 中的角色 常見問題、陷阱與最佳實務 7.1 Log 爆量的處理方式 7.2 Index 成長失控怎麼辦 7.3 資安與個資(PII)處理 7.4 金融業常見稽核與法遵需求 企業級導入與治理建議 8.1 Log 規範與命名標準 8.2 團隊分工與權限設計 8.3 與 CI/CD、APM、SIEM 的整合 檢查清單(Checklist) 附錄 A. 常用 Elasticsearch Query 範例 B. 常用 KQL 查詢範例 C. 參考資源 1. Logs Visualization 在企業系統中的定位 1.1 為什麼 Logs 是「第二套真實系統」 在企業級系統中,Logs 不只是除錯工具,而是系統行為的完整記錄。當生產環境發生問題時,Logs 往往是唯一能還原「當時到底發生什麼事」的證據。 ...

January 26, 2026 · 28 min · 5823 words · Eric Cheng

Metrics Visualization 教學手冊

Metrics Visualization 教學手冊 版本:1.0 最後更新:2026 年 1 月 適用對象:資深工程師 / Tech Lead / Architect 最後更新: 2026年1月26日 適用於: Metrics Visualization Created by: Eric Cheng Metrics Visualization 教學手冊(Prometheus + Grafana) 版本:v1.0 最後更新:2026-01-26 適用對象:資深後端工程師、系統架構師、SRE / DevOps 工程師 前置知識:Linux / Container / Kubernetes 概念、RESTful API、微服務架構、基本監控概念 📑 目錄 前言:為什麼你需要這份手冊 1.1 這份手冊的定位 1.2 讀者應具備的心態 Metrics 與 Observability 基礎 2.1 Metrics vs Logs vs Traces:架構視角 2.2 為什麼 Metrics 是「第一層防線」 2.3 RED / USE / Golden Signals 模型 2.4 Metrics 過度蒐集的反模式(Anti-pattern) Prometheus 深入解析 3.1 Prometheus 架構與資料流 3.2 Pull Model 的設計哲學 3.3 Target / Job / Instance 設計原則 3.4 Label 設計 Best Practices 3.5 常見 Exporter 類型 3.6 Recording Rules 與 Alert Rules 設計思維 3.7 PromQL 思考模型 Grafana 視覺化設計 4.1 Dashboard 設計的「故事線」概念 4.2 不同角色的 Dashboard 設計 4.3 指標選擇與視覺化類型對應 4.4 Anti-pattern Dashboard 範例 4.5 Grafana 與 Prometheus 的責任邊界 Metrics 與架構決策 5.1 用 Metrics 驗證架構假設 5.2 Scaling / Bottleneck / Capacity Planning 5.3 SLA / SLO / Error Budget 與 Metrics 5.4 Metrics 如何影響系統設計 AI 輔助 Metrics 分析 6.1 適合交給 AI 分析的 Metrics 類型 6.2 Prompt 設計範例 6.3 AI 在 Metrics 分析的限制與風險 6.4 人與 AI 的責任分工 實戰案例 7.1 案例 1:流量暴增導致服務降級 7.2 案例 2:記憶體洩漏導致週期性重啟 7.3 案例 3:快取穿透導致 DB 過載 檢查清單(Checklist) 8.1 Prometheus 部署檢查清單 8.2 Metrics 設計檢查清單 8.3 Dashboard 設計檢查清單 8.4 告警設計檢查清單 8.5 SLO 設計檢查清單 8.6 AI 輔助使用檢查清單 附錄:常用 PromQL 速查表 參考資源 1. 前言:為什麼你需要這份手冊 1.1 這份手冊的定位 這不是入門手冊。市面上已有太多「如何安裝 Prometheus」、「Grafana 快速上手」的教學。 ...

January 26, 2026 · 18 min · 3652 words · Eric Cheng