OpenTelemetry教學手冊

OpenTelemetry教學手冊 版本:1.0 最後更新:2026 年 1 月 適用對象:後端工程師、DevOps / SRE、系統架構師 定位:企業級實務導向教學手冊 最後更新: 2026年1月27日 適用於: OpenTelemetry OpenTelemetry 版本:v1.x(2025/2026 最新穩定版) Created by: Eric Cheng 目錄 OpenTelemetry 概述 1.1 OpenTelemetry 是什麼?解決什麼問題? 1.2 與傳統 APM / Monitoring 工具的差異 1.3 Observability 三大支柱:Traces / Metrics / Logs 1.4 OpenTelemetry 在 CNCF 生態系中的角色 OpenTelemetry 整體系統架構 2.1 架構總覽 2.2 核心元件說明 2.3 Agent-based vs SDK-based 收集模式比較 2.4 與 Prometheus / Grafana / Jaeger / ELK 的整合架構 OpenTelemetry 安裝指南 3.1 本機環境(Local / VM) 3.2 Container / Docker 3.3 Kubernetes OpenTelemetry Collector 設定 ...

January 30, 2026 · 21 min · 4441 words · Eric Cheng

Apache Kafka 教學手冊

Apache Kafka 教學手冊 版本:1.0 最後更新:2026 年 1 月 適用對象:後端工程師、系統架構師、SRE、DevOps 定位:企業內部標準教材 文件維護:內部技術團隊 使用情境:大型企業 / 銀行內部系統 最後更新: 2026年1月29日 適用於: 適用於 Kafka 3.x(含 KRaft 架構) Created by: Eric Cheng 目錄 Apache Kafka 簡介 1.1 Kafka 是什麼?解決什麼問題? 1.2 與傳統 Message Queue 的差異 1.3 適合與不適合的使用情境 Kafka 系統架構總覽 2.1 Kafka 核心元件說明 2.2 高可用(HA)與水平擴充設計原則 Kafka 安裝與部署 3.1 環境需求 3.2 單機環境安裝(KRaft 模式) 3.3 多節點叢集安裝(正式環境) 3.4 ZooKeeper 與 KRaft 架構比較 3.5 常見安裝錯誤與排除方式 Kafka 基本設定說明 4.1 Broker 重要設定參數 4.2 Topic 設計原則 4.3 Producer 重要設定 4.4 Consumer 重要設定 4.5 資料保留策略(Retention Policy) Kafka 系統使用教學 5.1 Topic 管理 5.2 Producer 發送訊息 5.3 Consumer 消費訊息 5.4 Offset 管理 5.5 訊息順序性與重複消費 Kafka 與應用系統串接方式 6.1 與 Spring Boot 整合 6.2 系統解耦架構設計 6.3 同步系統 vs 事件驅動架構 6.4 常見整合架構模式 Kafka 系統維運與監控 7.1 常見監控指標 7.2 Consumer Lag 監控與處理 7.3 系統監控設定 7.4 常見營運問題與排查 Kafka 系統升級與版本控管 8.1 升級策略(Rolling Upgrade) 8.2 升級前檢查清單 8.3 升級風險與回復機制 8.4 Client 相容性 安全性與權限控管 9.1 SSL/TLS 加密 9.2 SASL 認證 9.3 ACL 權限控管 9.4 企業安全設計建議 最佳實務與常見地雷 10.1 Topic 命名建議 10.2 Partition 設計地雷 10.3 Consumer Group 錯誤案例 10.4 真實專案常見誤用情境 10.5 最佳實務總結 檢查清單(Checklist) 11.1 新專案導入 Checklist 11.2 日常維運 Checklist 11.3 故障排除 Checklist 11.4 升級 Checklist 附錄 附錄 A:常用指令速查 附錄 B:設定參數速查 附錄 C:參考資源 1. Apache Kafka 簡介 1.1 Kafka 是什麼?解決什麼問題? Apache Kafka 是一個分散式事件串流平台(Distributed Event Streaming Platform),由 LinkedIn 於 2011 年開源,現由 Apache 軟體基金會維護。 ...

January 30, 2026 · 24 min · 4949 words · Eric Cheng

Redis教學手冊

Redis教學手冊 版本:1.0 最後更新:2026 年 1 月 適用對象:資深工程師、中階工程師、DevOps、新進同仁 定位:企業級實務導向教學手冊 最後更新: 2026年1月27日 適用於: Redis 7.x Created by: Eric Cheng 目錄 Redis 簡介與核心概念 1.1 Redis 是什麼?適合解決什麼問題 1.2 In-Memory 設計原理 1.3 單執行緒模型與效能優勢 1.4 Redis 與 RDBMS / NoSQL 的差異 1.5 常見使用場景與反模式(Anti-pattern) Redis 系統架構設計 2.1 Redis 架構總覽 2.2 Single Node 架構 2.3 Master / Replica(主從複寫) 2.4 Sentinel 高可用架構 2.5 Redis Cluster 架構(Sharding) 2.6 架構選型建議 Redis 安裝與部署 3.1 Linux 安裝(建議版本) 3.2 Docker / Container 部署 3.3 基本目錄結構說明 3.4 Redis CLI 工具介紹 3.5 常見安裝錯誤與排查方式 Redis 設定(redis.conf) 4.1 基本設定說明 4.2 記憶體管理 4.3 Persistence 設定(RDB / AOF) 4.4 Replication 設定 4.5 Cluster / Sentinel 設定重點 4.6 資安相關設定 Redis 資料結構與使用方式 5.1 String(字串) 5.2 Hash(雜湊) 5.3 List(列表) 5.4 Set(集合) 5.5 Sorted Set(有序集合) 5.6 進階資料結構 Redis 系統使用實戰 6.1 快取設計模式 6.2 TTL 與 Key 命名規範 6.3 Session 管理 6.4 Rate Limiting(速率限制) 6.5 分散式 Lock(RedLock 概念) 6.6 Queue / Pub-Sub / Stream 使用情境 應用系統如何串接 Redis 7.1 系統整體架構說明 7.2 常見串接方式(Client Library) 7.3 Java(Spring Boot + Redis) 7.4 Node.js / Python 串接概念 7.5 Connection Pool 設計 7.6 Timeout / Retry / Fallback 設計 Redis 維運與監控 8.1 常用監控指標 8.2 INFO 指令說明 8.3 慢查詢(Slow Log) 8.4 Key 分析與 Big Key 問題 8.5 常見效能問題與處理方式 Redis 系統升級與版本管理 9.1 升級前評估事項 9.2 Rolling Upgrade 策略 9.3 升級風險與回滾策略 9.4 舊資料相容性說明 9.5 版本差異注意事項 資安與風險控管 10.1 Redis 常見資安風險 10.2 內網 / 外網使用原則 10.3 ACL 與權限控管 10.4 防止誤刪與資料風險 10.5 實務安全建議 Redis Best Practices(最佳實務) 11.1 Key 設計原則 11.2 避免的設計地雷 11.3 高併發系統設計建議 11.4 與資料庫搭配策略 11.5 團隊使用規範建議 常見問題與除錯(FAQ / Troubleshooting) 12.1 Redis 掛掉怎麼辦 12.2 記憶體暴增如何處理 12.3 Hit Rate 過低的原因 12.4 Replication 延遲處理 12.5 實務案例分享 檢查清單(Checklist) 🔧 部署前檢查 📝 開發規範檢查 🔍 日常維運檢查 🚀 升級前檢查 🛡️ 資安檢查 附錄:常用指令速查表 ...

January 30, 2026 · 31 min · 6594 words · Eric Cheng

ELK Stack教學手冊

Logstash / Elasticsearch / Kibana(ELK Stack)教學手冊 版本:1.0 最後更新:2026 年 1 月 適用對象:資深軟體工程師、系統架構師、SRE / DevOps 工程師 前置知識:Linux 基礎、Java 應用程式、基本網路概念 最後更新: 2026年1月27日 適用於: Logs Visualization Created by: Eric Cheng 目錄 第一章:Logs Visualization 與 ELK Stack 概述 1.1 為什麼需要 Logs Visualization 1.2 Logs 與 Metrics 的差異與互補 1.3 ELK Stack 架構總覽 1.4 ELK 在 Observability 架構中的角色 1.5 與 AI 輔助開發的關係 第二章:系統整體架構設計 2.1 ELK Stack 架構圖 2.2 各元件角色說明 2.3 單節點 vs 多節點架構 2.4 Production 建議架構 2.5 與 Prometheus / Grafana 並存架構 第三章:系統安裝 3.1 環境需求總覽 3.2 Elasticsearch 安裝 3.3 Logstash 安裝 3.4 Kibana 安裝 3.5 常見安裝問題排除 第四章:系統設定 4.1 Elasticsearch 設定 4.2 Logstash 設定 4.3 Kibana 設定 第五章:三者如何串接 5.1 End-to-End 資料流 5.2 實際串接範例 5.3 Filebeat 整合 第六章:系統使用 6.1 Kibana 操作教學 6.2 查詢語法詳解 6.3 實務使用情境 第七章:系統維護 7.1 Index 管理策略 7.2 效能調校 7.3 健康檢查與監控 第八章:系統升級 8.1 升級前準備 8.2 各元件升級流程 8.3 回復策略 第九章:安全性與權限管理 9.1 Security 基本概念 9.2 使用者與角色管理 9.3 企業資安考量 第十章:最佳實務與導入建議 10.1 導入常見踩雷點 10.2 結構化 Log 設計原則 10.3 與 AI 分析結合 10.4 與 Prometheus / Grafana 分工 附錄:檢查清單 安裝檢查清單 設定檢查清單 上線檢查清單 維運檢查清單(每日) 升級檢查清單 參考資源 第一章:Logs Visualization 與 ELK Stack 概述 1.1 為什麼需要 Logs Visualization 在現代企業級系統中,Log 是系統運行的「黑盒子記錄器」,記錄了系統每一個關鍵時刻的狀態與行為。 ...

January 29, 2026 · 30 min · 6244 words · Eric Cheng

Prometheus與Grafana教學手冊

Prometheus與Grafana教學手冊 版本:1.0 最後更新:2026 年 1 月 適用對象:資深工程師、DevOps / SRE、系統架構師 定位:企業級實務導向教學手冊 最後更新: 2026年1月27日 適用於: Metrics Visualization Created by: Eric Cheng 目錄 1. 總覽(Overview) 1.1 為何需要 Metrics Visualization 1.2 Prometheus 與 Grafana 在 Observability 中的角色 1.3 與 Logging / Tracing 的差異與整合方式 1.4 適合的使用場景 2. 架構說明(Architecture) 2.1 Prometheus 架構 2.2 Exporter 概念 2.3 Grafana 架構 2.4 Prometheus 與 Grafana 串接流程 2.5 單機 vs HA / Federation 架構 3. 系統安裝(Installation) 3.1 環境準備 3.2 Prometheus 安裝 3.3 Grafana 安裝 3.4 Node Exporter 安裝 3.5 目錄結構說明 3.6 常見安裝錯誤與排除 4. 系統設定(Configuration) 4.1 Prometheus 設定 4.2 Grafana 設定 5. 系統使用(Usage) 5.1 PromQL 基本與進階語法 5.2 常見 Metrics 範例 5.3 Dashboard 設計最佳實務 5.4 實務範例 5.5 與 AI 搭配使用 6. 告警與通知(Alerting) 6.1 Prometheus Alertmanager 架構 6.2 Alert Rule 撰寫範例 6.3 告警分級 6.4 Grafana Alert 與 Prometheus Alert 差異 6.5 與 Teams / Slack 整合 7. 系統維護(Maintenance) 7.1 資料成長與磁碟空間管理 7.2 效能調校建議 7.3 常見問題處理 7.4 備份與還原策略 8. 系統升級(Upgrade) 8.1 Prometheus 升級注意事項 8.2 Grafana 升級注意事項 8.3 升級前檢查清單 8.4 回滾(Rollback)策略 9. 企業實務與最佳實踐(Best Practices) 9.1 指標命名規範 9.2 Label 設計原則 9.3 多環境設計(DEV / SIT / UAT / PROD) 9.4 與 CI/CD、Batch、微服務整合 9.5 銀行與高穩定系統導入建議 10. 附錄(Appendix) 10.1 常用 PromQL Cheat Sheet 10.2 推薦 Exporter 清單 10.3 Dashboard 範本建議 10.4 常見錯誤與 FAQ 11. 檢查清單(Checklist) 11.1 安裝檢查清單 11.2 設定檢查清單 11.3 生產環境檢查清單 11.4 日常維運檢查清單 參考資源 1. 總覽(Overview) 1.1 為何需要 Metrics Visualization 在現代企業系統中,可觀測性(Observability) 是維運的核心能力。Metrics Visualization 提供以下價值: ...

January 29, 2026 · 23 min · 4880 words · Eric Cheng

Logs Visualization教學手冊

Logs Visualization 教學手冊(ELK Stack) 版本:1.0 最後更新:2026 年 1 月 適用對象:資深軟體工程師、系統架構師、SRE / DevOps 工程師 最後更新: 2026年1月26日 適用於: Logs Visualization Created by: Eric Cheng 📋 目錄 Logs Visualization 在企業系統中的定位 1.1 為什麼 Logs 是「第二套真實系統」 1.2 Logs vs Metrics vs Tracing 1.3 Logs 在 Dev / QA / Prod 的不同價值 ELK Stack 整體架構設計 2.1 Log 產生端(Application / Middleware / OS) 2.2 Logstash Pipeline 設計原則 2.3 Elasticsearch Index / Shard / Replica 設計 2.4 Kibana 在視覺化與分析上的角色 Logstash 深度實務 3.1 Pipeline 架構設計(Input / Filter / Output) 3.2 Grok / JSON / Mutate 實務技巧 3.3 效能調校與常見瓶頸 3.4 多來源 Log(App / DB / MQ / Batch) Elasticsearch 架構與效能設計 4.1 Index 設計策略 4.2 Mapping 與效能影響 4.3 Hot / Warm / Cold 架構 4.4 查詢效能與資源規劃 Kibana 視覺化與分析設計 5.1 Dashboard 設計原則(給誰看?看什麼?) 5.2 Discover、Lens、Alerting 實務 5.3 常見企業 Dashboard 範例 AI 輔助 Logs Visualization 的實戰應用 6.1 用 AI 協助撰寫 Elasticsearch Query 6.2 用 AI 分析錯誤 Log 與異常模式 6.3 將 Logs 整理成 AI 可理解的 Prompt 6.4 AI 在 Incident Response 中的角色 常見問題、陷阱與最佳實務 7.1 Log 爆量的處理方式 7.2 Index 成長失控怎麼辦 7.3 資安與個資(PII)處理 7.4 金融業常見稽核與法遵需求 企業級導入與治理建議 8.1 Log 規範與命名標準 8.2 團隊分工與權限設計 8.3 與 CI/CD、APM、SIEM 的整合 檢查清單(Checklist) 附錄 A. 常用 Elasticsearch Query 範例 B. 常用 KQL 查詢範例 C. 參考資源 1. Logs Visualization 在企業系統中的定位 1.1 為什麼 Logs 是「第二套真實系統」 在企業級系統中,Logs 不只是除錯工具,而是系統行為的完整記錄。當生產環境發生問題時,Logs 往往是唯一能還原「當時到底發生什麼事」的證據。 ...

January 26, 2026 · 28 min · 5823 words · Eric Cheng

Metrics Visualization 教學手冊

Metrics Visualization 教學手冊 版本:1.0 最後更新:2026 年 1 月 適用對象:資深工程師 / Tech Lead / Architect 最後更新: 2026年1月26日 適用於: Metrics Visualization Created by: Eric Cheng Metrics Visualization 教學手冊(Prometheus + Grafana) 版本:v1.0 最後更新:2026-01-26 適用對象:資深後端工程師、系統架構師、SRE / DevOps 工程師 前置知識:Linux / Container / Kubernetes 概念、RESTful API、微服務架構、基本監控概念 📑 目錄 前言:為什麼你需要這份手冊 1.1 這份手冊的定位 1.2 讀者應具備的心態 Metrics 與 Observability 基礎 2.1 Metrics vs Logs vs Traces:架構視角 2.2 為什麼 Metrics 是「第一層防線」 2.3 RED / USE / Golden Signals 模型 2.4 Metrics 過度蒐集的反模式(Anti-pattern) Prometheus 深入解析 3.1 Prometheus 架構與資料流 3.2 Pull Model 的設計哲學 3.3 Target / Job / Instance 設計原則 3.4 Label 設計 Best Practices 3.5 常見 Exporter 類型 3.6 Recording Rules 與 Alert Rules 設計思維 3.7 PromQL 思考模型 Grafana 視覺化設計 4.1 Dashboard 設計的「故事線」概念 4.2 不同角色的 Dashboard 設計 4.3 指標選擇與視覺化類型對應 4.4 Anti-pattern Dashboard 範例 4.5 Grafana 與 Prometheus 的責任邊界 Metrics 與架構決策 5.1 用 Metrics 驗證架構假設 5.2 Scaling / Bottleneck / Capacity Planning 5.3 SLA / SLO / Error Budget 與 Metrics 5.4 Metrics 如何影響系統設計 AI 輔助 Metrics 分析 6.1 適合交給 AI 分析的 Metrics 類型 6.2 Prompt 設計範例 6.3 AI 在 Metrics 分析的限制與風險 6.4 人與 AI 的責任分工 實戰案例 7.1 案例 1:流量暴增導致服務降級 7.2 案例 2:記憶體洩漏導致週期性重啟 7.3 案例 3:快取穿透導致 DB 過載 檢查清單(Checklist) 8.1 Prometheus 部署檢查清單 8.2 Metrics 設計檢查清單 8.3 Dashboard 設計檢查清單 8.4 告警設計檢查清單 8.5 SLO 設計檢查清單 8.6 AI 輔助使用檢查清單 附錄:常用 PromQL 速查表 參考資源 1. 前言:為什麼你需要這份手冊 1.1 這份手冊的定位 這不是入門手冊。市面上已有太多「如何安裝 Prometheus」、「Grafana 快速上手」的教學。 ...

January 26, 2026 · 18 min · 3652 words · Eric Cheng

微前端教學手冊

微前端教學手冊 版本:1.0 最後更新:2026 年 1 月 適用對象:資深工程師 / Tech Lead / Architect 最後更新: 2026年1月23日 適用於: 微前端 Created by: Eric Cheng 微前端(Micro-Frontend)教學手冊 版本:1.0 適用對象:資深前端/全端工程師、Tech Lead、架構師 最後更新:2026 年 1 月 目錄 微前端的核心價值與真正要解決的問題 1.1 什麼是微前端? 1.2 微前端真正要解決的問題 1.3 什麼情況「不該用微前端」 1.4 微前端 vs 單體前端 vs Monorepo 1.5 本章實務案例 微前端主流架構模式比較 2.1 基座(Shell / Container)模式 2.2 Runtime Integration vs Build-time Integration 2.3 iframe / Web Components / Module Federation 比較 2.4 主流框架方案比較 2.5 本章實務案例 Module Federation 深度解析 ...

January 23, 2026 · 34 min · 7103 words · Eric Cheng

Claude Agent Skills教學手冊

Claude Agent Skills 使用教學手冊 版本:1.0 最後更新:2026 年 1 月 適用對象:新進軟體工程師、系統分析師、AI 導入成員 最後更新: 2026年1月8日 適用於: Claude Code Created by: Eric Cheng 目錄 前言 文件目的 適用對象 如何使用本手冊 第一章:Claude Agent 與 Agent Skills 基礎概念 1.1 什麼是 Claude Agent 1.2 什麼是 Agent Skills 1.3 Agent / Tool / Skill 的差異與關係 1.4 為什麼要使用 Agent Skills 第二章:Agent Skills 的設計理念 2.1 Skill 的責任邊界(Single Responsibility) 2.2 Skill 與 Prompt 的差異 2.3 Skill 是可重用、可組合的能力單元 2.4 官方 Skills Repo 的設計原則 第三章:官方 Skills Repository 結構說明 3.1 Skills GitHub 專案的目錄結構 3.2 Skill 的命名慣例 3.3 Skill 定義中的關鍵元素 第四章:Agent Skills 的使用方式 4.1 如何在 Agent 中呼叫 Skill 4.2 Skill 在任務流程中的角色 4.3 單一 Skill vs 多 Skill 組合 第五章:實務範例 5.1 需求文件產生 Skill 5.2 程式碼 Review / 重構 Skill 5.3 測試案例產生 Skill 第六章:新手常見錯誤與最佳實務 6.1 Skill 設計過大或過小的問題 6.2 把 Skill 當成一次性 Prompt 的錯誤用法 6.3 如何讓 Skill 更容易被重用 6.4 如何讓 Agent 行為更穩定 第七章:團隊導入建議 7.1 適合先從哪些類型的 Skill 開始 7.2 如何建立內部 Skill Library 7.3 與既有開發流程整合 7.4 導入成熟度階段建議 附錄:檢查清單(Checklist) Skill 建立前檢查 SKILL.md 撰寫檢查 Skill 發布前檢查 團隊導入檢查 參考資源 官方資源 延伸閱讀 前言 文件目的 本手冊旨在協助團隊成員快速理解並導入 Claude Agent Skills,透過系統化的教學內容,讓新進同仁能夠: ...

January 12, 2026 · 14 min · 2880 words · Eric Cheng

Anthropic Model Context Protocol (MCP) 教學手冊

版本: 1.0 最後更新: 2026年1月9日 適用於: Claude Code Created by: Eric Cheng Anthropic Model Context Protocol (MCP) 教學手冊 版本資訊:本手冊基於 MCP 規範版本 2025-11-25 最後更新:2026 年 1 月 適用對象:資深軟體開發工程師、系統架構師 目錄 第一章:MCP 概述與核心概念 1.1 什麼是 MCP? 1.2 為什麼需要 MCP? 1.3 MCP 架構概覽 第二章:MCP 技術架構深度解析 2.1 分層架構 2.2 資料層協議(Data Layer Protocol) 2.3 MCP 核心原語(Primitives) 2.4 通知機制(Notifications) 第三章:傳輸層深度解析 3.1 STDIO Transport 3.2 Streamable HTTP Transport 第四章:實戰開發指南 4.1 開發環境設置 4.2 開發 MCP Server 4.3 開發 MCP Client 4.4 整合到 AI 應用 第五章:完整實戰範例 5.1 範例一:檔案系統 MCP Server 5.2 範例二:資料庫查詢 MCP Server 5.3 範例三:API 整合 MCP Server 第六章:最佳實踐與設計模式 6.1 MCP Server 設計原則 6.2 效能優化 6.3 安全性考量 6.4 測試策略 第七章:進階主題 7.1 Tasks 實驗性功能 7.2 自訂傳輸層 7.3 多語言 SDK 比較 7.4 偵錯與監控 第八章:疑難排解 8.1 常見錯誤與解決方案 8.2 除錯技巧 8.3 錯誤訊息參考 第九章:實際案例研究 9.1 案例一:企業知識庫 MCP Server 9.2 案例二:DevOps 整合 MCP Server 第十章:資源與參考 10.1 官方資源 10.2 社群資源 10.3 開發環境建議 10.4 版本相容性 10.5 快速參考 附錄:檢查清單(Checklist) A. Server 開發檢查清單 B. 部署檢查清單 C. 程式碼審查檢查清單 D. 故障排除檢查清單 第一章:MCP 概述與核心概念 1.1 什麼是 MCP? 1.1.1 MCP 的定義與核心價值 Model Context Protocol(MCP) 是由 Anthropic 開發的一個開放標準協議,旨在為 AI 應用程式提供一個統一的方式來連接各種資料來源、工具和服務。 ...

January 9, 2026 · 96 min · 20313 words · Eric Cheng