效能測試報告範本(Performance Test Report Template)

效能測試報告範本(Performance Test Report Template) 適用標準:ISO/IEC/IEEE 29119-3:2021(測試文件)、RFC 2544(Benchmarking) 適用階段:測試驗證階段(Testing Phase) 負責角色:效能測試工程師、QA Lead、SRE 📑 章節目錄 文件資訊 測試摘要 測試環境 測試場景與配置 測試結果 效能瓶頸分析 與 NFR 目標對照 建議與改善方案 結論與決策建議 附錄 📝 範本 1. 文件資訊 項目 內容 文件名稱 [系統名稱] 效能測試報告 文件編號 [專案代碼]-PTR-[版本號]-[日期] 版本 v[X.Y] 測試日期 [YYYY-MM-DD] ~ [YYYY-MM-DD] 測試工具 [JMeter / k6 / Locust / Gatling] 測試人員 [姓名] 審核者 [QA Lead / SA] 2. 測試摘要 項目 內容 測試類型 [負載測試 / 壓力測試 / 耐久測試 / 容量測試] 測試目的 [驗證系統在預期負載下的回應時間與吞吐量] 測試範圍 [被測試的模組/API/頁面] 測試結果總評 [✅ PASS / ⚠️ CONDITIONAL PASS / ❌ FAIL] 關鍵發現 [一句話總結] 3. 測試環境 3.1 系統架構 元件 規格 數量 備註 Application Server [CPU/Memory/Instance Type] [N] Database Server [CPU/Memory/Type] [N] Cache [Type/Memory] [N] Load Balancer [Type] [N] 3.2 環境差異說明 項目 測試環境 生產環境 比例 App 節點數 [N] [M] 1:[ratio] DB 規格 [spec] [spec] 1:[ratio] 資料量 [N] rows [M] rows (est.) 1:[ratio] ⚠️ 注意:測試結果需依環境比例換算評估生產環境表現 ...

May 18, 2026 · 4 min · 729 words · Eric Cheng

標準作業程序範本(SOP Template)

標準作業程序範本(Standard Operating Procedure, SOP) 參照標準:ISO 9001:2015(Quality Management)/ ISO/IEC 20000-1:2018 / ITIL 4 文件用途:標準化維運操作流程,確保操作一致性、降低人為錯誤、加速新人上手 適用階段:維運監控階段(Operations Phase)— Operational Excellence 📋 章節目錄 文件資訊 目的與範圍 角色與職責 前置條件 操作步驟 驗證與確認 異常處理 安全注意事項 相關文件 變更歷史 1. 文件資訊 📝 範本 項目 內容 文件編號 SOP-{類別代碼}-{序號} 文件名稱 {操作名稱} 標準作業程序 版本 v{主版本}.{次版本} 狀態 草稿 / 審核中 / 核定 / 作廢 建立日期 {YYYY-MM-DD} 生效日期 {YYYY-MM-DD} 下次審核日期 {YYYY-MM-DD}(至少每年) 撰寫者 {姓名/角色} 審核者 {姓名/角色} 核准者 {姓名/角色} 適用系統 {系統/服務名稱} 機密等級 一般 / 限閱 / 機密 📖 使用說明 SOP 編號慣例:SOP-{類別}-{流水號} 類別代碼範例:DEP(部署)、INC(事件處理)、BAK(備份)、MON(監控) 每份 SOP 需定期審核(ISO 9001 要求),避免過時 狀態管理:草稿 → 審核中 → 核定(可執行)→ 作廢(新版取代) 機密等級決定誰可以存取此 SOP 💡 範例 項目 內容 文件編號 SOP-BAK-001 文件名稱 HRMS 資料庫每日備份標準作業程序 版本 v2.0 生效日期 2026-05-01 下次審核日期 2027-05-01 適用系統 HRMS PostgreSQL 16 (Azure Database) 2. 目的與範圍 📝 範本 2.1 目的 {說明此 SOP 為何存在、解決什麼問題} ...

May 18, 2026 · 5 min · 945 words · Eric Cheng

測試報告範本(Test Report Template)

測試報告範本(Test Report) 參照標準:ISO/IEC/IEEE 29119-3:2021(Test Completion Report) 文件用途:彙整測試執行結果,評估軟體品質,提供上線/不上線的決策依據 適用階段:測試驗證階段(Testing Phase)— Test Completion 📋 章節目錄 文件資訊 執行摘要 測試範圍 測試環境 測試執行結果 缺陷分析 覆蓋率分析 風險與未解決項目 品質評估與建議 附錄 1. 文件資訊 📝 範本 項目 內容 文件編號 TR-{專案代碼}-{迭代/版本}-{序號} 文件名稱 {系統名稱} 測試報告 版本 v{主版本}.{次版本} 測試版本 {受測軟體版本號} 測試類型 單元/整合/系統/UAT/回歸/效能/安全 測試週期 {YYYY-MM-DD} ~ {YYYY-MM-DD} 撰寫者 {QA 負責人} 審核者 {PM/Tech Lead} 發佈日期 {YYYY-MM-DD} 📖 使用說明 每個重要測試里程碑(Sprint 結束、版本發佈前)產出測試報告 測試類型依實際執行的測試活動填寫,可為複合型(如「系統 + 效能」) 測試版本需明確對應 Git Tag / Build Number,確保可追溯 💡 範例 項目 內容 文件編號 TR-HRM-v2.1-001 系統名稱 人力資源管理系統 測試版本 v2.1.0-rc.1 (Build #487) 測試類型 系統測試 + 回歸測試 + 效能測試 測試週期 2026-05-01 ~ 2026-05-15 2. 執行摘要 📝 範本 2.1 整體結論 項目 結果 上線建議 ✅ 建議上線 / ⚠️ 有條件上線 / ❌ 不建議上線 品質等級 優良 / 合格 / 不合格 主要風險 {簡述主要殘餘風險} 2.2 關鍵指標概覽 指標 數值 目標 達標 測試案例通過率 {%} ≥ {%} ✅/❌ 缺陷密度(Defect/KLOC) {N} ≤ {N} ✅/❌ 嚴重缺陷(Critical/High)未解決 {N} 0 ✅/❌ 需求覆蓋率 {%} ≥ {%} ✅/❌ 程式碼覆蓋率 {%} ≥ {%} ✅/❌ 效能指標達標率 {%} 100% ✅/❌ 📖 使用說明 執行摘要是最重要的章節,決策者可能只看這部分 上線建議需有客觀數據支持,非主觀判斷 「有條件上線」需明確列出條件(如:特定功能暫不開放、需加監控) 關鍵指標的目標值應在測試計畫中事先定義 💡 範例 2.1 整體結論 項目 結果 上線建議 ⚠️ 有條件上線 品質等級 合格 主要風險 2 個 Medium 缺陷待修、大量匯出效能未達標 2.2 關鍵指標概覽 指標 數值 目標 達標 測試案例通過率 96.8% ≥ 95% ✅ 缺陷密度 2.3/KLOC ≤ 5/KLOC ✅ 嚴重缺陷未解決 0 0 ✅ 需求覆蓋率 98% ≥ 95% ✅ 程式碼覆蓋率 82% ≥ 80% ✅ 效能指標達標率 90% 100% ❌ 3. 測試範圍 📝 範本 3.1 測試項目(In Scope) 模組/功能 測試類型 優先級 執行狀態 {模組名稱} {測試類型} 高/中/低 完成/部分/未執行 3.2 排除項目(Out of Scope) 模組/功能 排除原因 {模組名稱} {原因} 📖 使用說明 明確列出本次測試涵蓋與不涵蓋的範圍 排除原因需合理(如:未修改的模組、下一版本範圍) 執行狀態若為「部分」或「未執行」,需在風險章節說明影響 💡 範例 3.1 測試項目 模組/功能 測試類型 優先級 執行狀態 員工資料管理(CRUD) 系統測試 + 回歸 高 完成 薪資計算引擎 系統測試 + 回歸 高 完成 請假/加班申請流程 系統測試 + 回歸 高 完成 報表匯出(PDF/Excel) 系統測試 + 效能 中 完成 SSO 登入整合 整合測試 高 完成 API 效能(並發) 效能測試 中 完成 3.2 排除項目 模組/功能 排除原因 行動 App v2.2 規劃範圍,本版未開發 第三方薪轉介接(銀行 API) 銀行端 UAT 環境未就緒 4. 測試環境 📝 範本 項目 規格 環境名稱 {SIT/UAT/Staging/Performance} 作業系統 {OS 版本} 應用伺服器 {Server + 版本} 資料庫 {DB + 版本} 測試資料 {描述:模擬資料量/來源} 測試工具 {工具清單} 與正式環境差異 {列出差異} 📖 使用說明 測試環境資訊確保結果可重現 必須列出與正式環境的差異(差異可能影響結果有效性) 效能測試環境應盡量接近正式規格 💡 範例 項目 規格 環境名稱 Staging (Azure AKS) 作業系統 Ubuntu 22.04 (K8s Node) 應用伺服器 .NET 8 Kestrel + Kong 3.5 資料庫 PostgreSQL 16.2 (Azure Database) 測試資料 模擬 10,000 員工、3 年歷史資料 測試工具 xUnit, Playwright, JMeter 5.6, SonarQube 與正式環境差異 節點數 3(正式 6)、資料量為正式 20% 5. 測試執行結果 📝 範本 5.1 測試案例執行統計 狀態 數量 百分比 通過(Pass) {N} {%} 失敗(Fail) {N} {%} 阻塞(Blocked) {N} {%} 未執行(Not Run) {N} {%} 總計 {N} 100% 5.2 按模組分佈 模組 總案例 通過 失敗 阻塞 通過率 {模組} {N} {N} {N} {N} {%} 5.3 效能測試結果(如適用) 場景 指標 目標 實際 達標 {場景} {指標} {目標值} {實際值} ✅/❌ 📖 使用說明 統計數據需與測試管理工具(如 Azure DevOps Test Plan)數據一致 失敗案例需逐一追蹤到缺陷 ID 阻塞案例需說明阻塞原因(環境問題?依賴未就緒?) 效能測試報告重點指標:回應時間、吞吐量、錯誤率 💡 範例 5.1 測試案例執行統計 狀態 數量 百分比 通過(Pass) 242 96.8% 失敗(Fail) 5 2.0% 阻塞(Blocked) 2 0.8% 未執行(Not Run) 1 0.4% 總計 250 100% 5.2 按模組分佈 模組 總案例 通過 失敗 阻塞 通過率 員工資料管理 65 64 1 0 98.5% 薪資計算 80 78 2 0 97.5% 請假/加班 55 54 0 1 98.2% 報表匯出 30 28 2 0 93.3% SSO 登入 20 18 0 1 90.0%* 5.3 效能測試結果 場景 指標 目標 實際 達標 登入(100 concurrent) P95 回應時間 ≤ 500ms 320ms ✅ 員工查詢(200 concurrent) P95 回應時間 ≤ 1000ms 780ms ✅ 薪資計算批次(10,000筆) 總處理時間 ≤ 5min 3.2min ✅ 報表匯出(5,000筆 Excel) 回應時間 ≤ 30s 45s ❌ API 持續壓力(1hr, 500 TPS) 錯誤率 ≤ 0.1% 0.05% ✅ 6. 缺陷分析 📝 範本 6.1 缺陷統計 嚴重度 發現 已修復 未修復 已驗證 Critical {N} {N} {N} {N} High {N} {N} {N} {N} Medium {N} {N} {N} {N} Low {N} {N} {N} {N} 總計 {N} {N} {N} {N} 6.2 缺陷明細(未解決) 缺陷 ID 嚴重度 模組 描述 狀態 處置方式 {ID} {等級} {模組} {描述} {狀態} 下版修復/暫時方案/接受 6.3 缺陷趨勢 累計發現 vs 累計解決 趨勢圖(收斂曲線) 📖 使用說明 Critical/High 未解決 = 不建議上線(除非有合理的暫時方案) 缺陷趨勢圖需呈現「收斂」趨勢(發現率下降、解決追上發現) 缺陷明細只列未解決的,已解決的在附錄提供完整清單 處置方式需經 PM/Tech Lead 核准 💡 範例 6.1 缺陷統計 嚴重度 發現 已修復 未修復 已驗證 Critical 1 1 0 1 High 3 3 0 3 Medium 8 6 2 6 Low 5 3 2 3 總計 17 13 4 13 6.2 缺陷明細(未解決) 缺陷 ID 嚴重度 模組 描述 狀態 處置方式 BUG-142 Medium 報表匯出 Excel 匯出超過 5000 筆時超時 (45s > 30s) Open v2.2 修復(分頁匯出) BUG-145 Medium 報表匯出 PDF 頁首日期格式錯誤 Open v2.1.1 Hotfix BUG-148 Low 員工管理 姓名超過 50 字元時 UI 顯示截斷 Open v2.2 修復 BUG-150 Low 薪資計算 計算說明欄位未支援多語系 Open v2.2 修復 7. 覆蓋率分析 📝 範本 7.1 需求覆蓋率 需求類型 總需求數 已覆蓋 未覆蓋 覆蓋率 功能需求(FR) {N} {N} {N} {%} 非功能需求(NFR) {N} {N} {N} {%} 安全需求(SEC) {N} {N} {N} {%} 7.2 程式碼覆蓋率 模組 行覆蓋率 分支覆蓋率 方法覆蓋率 {模組} {%} {%} {%} 📖 使用說明 需求覆蓋率:確保每個需求至少有一個測試案例覆蓋 程式碼覆蓋率:通常由 CI/CD 工具(SonarQube、Istanbul)自動產出 目標值:需求覆蓋率 ≥ 95%、行覆蓋率 ≥ 80%、分支覆蓋率 ≥ 70% 未覆蓋的需求需說明原因 💡 範例 7.1 需求覆蓋率 需求類型 總需求數 已覆蓋 未覆蓋 覆蓋率 功能需求(FR) 45 44 1* 97.8% 非功能需求(NFR) 12 12 0 100% 安全需求(SEC) 40 38 2** 95% *FR-032(行動 App 推播)排除於本版 **SEC-SESS-005、SEC-COMM-004 為建議等級,計畫 v2.2 驗證 ...

May 18, 2026 · 6 min · 1115 words · Eric Cheng

測試案例範本(Test Case Template)

測試案例範本(Test Case Template) 參照標準:ISO/IEC/IEEE 29119-3:2021(取代 IEEE 829-2008)/ ISO/IEC/IEEE 29119-4:2021(Test Techniques) 文件用途:定義測試案例的標準格式,確保測試設計完整、可追溯、可重複執行 適用階段:測試設計與執行階段 📋 章節目錄 文件資訊 測試案例識別規範 測試案例格式定義 測試案例撰寫規範 測試案例分類 測試案例清單範本 測試案例詳細格式 測試資料規劃 測試執行紀錄 缺陷報告格式 附錄 1. 文件資訊 📝 範本 項目 內容 文件編號 TC-{專案代碼}-{模組}-{序號} 文件名稱 {系統名稱} {模組名稱} 測試案例 版本 v{主版本}.{次版本} 對應測試計畫 {TP 文件編號} 對應需求 {FRD 文件編號} 撰寫者 {姓名} 審核者 {姓名} 建立日期 {YYYY-MM-DD} 📖 使用說明 測試案例文件承接測試計畫(Test Plan),為各測試項目設計具體的驗證步驟 每個功能模組可獨立一份測試案例文件,或匯整於單一文件中 文件需經 QA Lead 或測試經理審核後方可執行 💡 範例 項目 內容 文件編號 TC-HRM-LV-001 文件名稱 HRMS 假勤管理模組 測試案例 對應測試計畫 TP-HRM-001 對應需求 FRD-HRM-001 v2.1 2. 測試案例識別規範 📝 範本 2.1 編號規則 TC-{專案}-{模組}-{序號} 欄位 說明 範例 TC 固定前綴(Test Case) TC {專案} 專案代碼(2-5 字元) HRM {模組} 模組縮寫(2-5 字元) LV(Leave) {序號} 三位數流水號 001 2.2 命名規範 測試案例名稱格式:[測試類型] {功能描述} - {情境描述} ...

May 18, 2026 · 6 min · 1146 words · Eric Cheng

測試計畫範本(Test Plan Template)

測試計畫範本(Test Plan) 參照標準:ISO/IEC/IEEE 29119-3:2021(取代 IEEE 829-2008) 文件用途:定義測試範圍、策略、資源、時程與風險,指導整體測試活動 適用階段:測試準備階段(Test Planning Phase) 📋 章節目錄 文件資訊 測試計畫識別 引言 測試項目 測試策略與方法 通過與失敗標準 暫停與恢復準則 測試交付物 測試環境需求 職責分工 時程與里程碑 風險與緩解措施 附錄 1. 文件資訊 📝 範本 項目 內容 文件編號 TP-{專案代碼}-{序號} 文件名稱 {系統名稱} 測試計畫 版本 v{主版本}.{次版本} 狀態 草稿 / 審核中 / 核定 建立日期 {YYYY-MM-DD} 最後更新 {YYYY-MM-DD} 撰寫者 {姓名/角色} 審核者 {姓名/角色} 對應 FRD {FRD 文件編號} 測試層級 {Unit / Integration / System / UAT} 版本歷程 版本 日期 修改人 修改內容摘要 v0.1 {YYYY-MM-DD} {姓名} 初版建立 📖 使用說明 依據 ISO/IEC/IEEE 29119-3:2021 第 7 節「Test Plan documentation」 測試計畫可依測試層級分開撰寫(如 SIT 測試計畫、UAT 測試計畫) 一個專案可有多份測試計畫,也可合併為一份主測試計畫(Master Test Plan) 💡 範例 項目 內容 文件編號 TP-HRM-001 文件名稱 人力資源管理系統 系統整合測試計畫 測試層級 System Integration Test (SIT) 對應 FRD FRD-HRM-001 v2.1 2. 測試計畫識別 📝 範本 項目 內容 專案名稱 {專案正式名稱} 受測系統 {系統名稱及版本} 測試階段 {SIT / UAT / Performance / Security} 測試期間 {起始日期} ~ {結束日期} 測試團隊 {團隊名稱} 📖 使用說明 明確識別「測什麼」、「測多久」、「誰來測」 測試期間需與專案整體時程對齊 💡 範例 項目 內容 專案名稱 人力資源管理系統建置專案 受測系統 HRMS v1.0.0 測試階段 SIT(系統整合測試) 測試期間 2026-09-01 ~ 2026-09-30 測試團隊 QA 品質保證組 3. 引言 📝 範本 3.1 測試目的 {描述本次測試活動的目標} ...

May 18, 2026 · 6 min · 1247 words · Eric Cheng

版本發行說明範本(Release Notes Template)

版本發行說明範本(Release Notes) 參照標準:Keep a Changelog 1.1.0 / SemVer 2.0.0 / ISO/IEC/IEEE 12207:2017(Release Management) 文件用途:正式記錄每個版本的變更內容,供開發、維運、使用者了解版本差異 適用階段:部署上線階段(Deployment Phase)— Release Management 📋 章節目錄 文件資訊 版本摘要 新增功能(Added) 變更項目(Changed) 修復項目(Fixed) 棄用項目(Deprecated) 移除項目(Removed) 安全性修復(Security) 已知問題(Known Issues) 升級指南 相容性說明 1. 文件資訊 📝 範本 項目 內容 產品名稱 {系統名稱} 版本號 v{MAJOR}.{MINOR}.{PATCH} 發佈日期 {YYYY-MM-DD} 版本類型 Major / Minor / Patch / Hotfix 發佈人 {Release Manager 姓名} Git Tag {tag name} Build Number #{build} 對應里程碑 {Sprint/Milestone 名稱} 📖 使用說明 版本號遵循 SemVer 2.0.0: MAJOR:不相容的 API 變更 MINOR:向後相容的新功能 PATCH:向後相容的 Bug 修復 每次正式發佈(含 Hotfix)都需要 Release Notes Git Tag 與 Build Number 確保可從 Release Notes 追溯到原始碼 💡 範例 項目 內容 產品名稱 人力資源管理系統(HRMS) 版本號 v2.1.0 發佈日期 2026-05-20 版本類型 Minor 發佈人 林 DevOps Git Tag v2.1.0 Build Number #489 對應里程碑 Sprint 12 2. 版本摘要 📝 範本 概述 {用 2-3 句話描述本版本的核心主題與重要變更} ...

May 18, 2026 · 4 min · 821 words · Eric Cheng

監控與告警設定文件範本(Monitoring & Alert Configuration Template)

監控與告警設定文件範本(Monitoring & Alert Configuration Template) 適用標準:Google SRE Workbook、ISO/IEC 20000-1:2018(Service Monitoring) 適用階段:維運階段(Operations Phase) 負責角色:SRE、DevOps Engineer、Tech Lead 📑 章節目錄 文件資訊 監控策略概要 SLI / SLO 定義 監控指標設計 告警規則定義 Dashboard 設計 告警通知與升級 日誌監控策略 維護與檢討機制 附錄 📝 範本 1. 文件資訊 項目 內容 文件名稱 [系統名稱] 監控與告警設定文件 文件編號 [專案代碼]-MON-[版本號]-[日期] 版本 v[X.Y] 建立日期 [YYYY-MM-DD] 負責人 [SRE / DevOps] 審核者 [Tech Lead / SA] 2. 監控策略概要 2.1 監控架構 層級 工具 用途 Infrastructure [Prometheus / CloudWatch / Azure Monitor] 主機/容器/網路 Application [APM: Datadog / New Relic / OpenTelemetry] 應用效能 Business [Custom metrics / Analytics] 業務指標 Logging [ELK / Loki / Azure Log Analytics] 日誌分析 Tracing [Jaeger / Zipkin / OpenTelemetry] 分散式追蹤 2.2 監控原則 原則 說明 Four Golden Signals Latency, Traffic, Errors, Saturation USE Method Utilization, Saturation, Errors(基礎設施) RED Method Rate, Errors, Duration(服務) Alerting Philosophy Alert on symptoms, not causes 3. SLI / SLO 定義 3.1 服務層級指標(SLI) SLI 定義 量測方式 資料來源 Availability 成功回應比例 success_requests / total_requests [Load Balancer / App] Latency 回應時間分佈 P50, P95, P99 [APM / Prometheus histogram] Throughput 處理量 Requests per second [Metrics] Error Rate 錯誤回應比例 5xx_count / total_count [Ingress / App] 3.2 服務層級目標(SLO) 服務 SLO 指標 目標值 Error Budget (月) 量測視窗 [API Service] Availability ≥ 99.9% 43.8 min 30 days rolling [API Service] P95 Latency < [N]ms — 30 days rolling [Web Frontend] Availability ≥ 99.5% 3.6 hr 30 days rolling [Batch Job] Success Rate ≥ 99.0% — Per execution 4. 監控指標設計 4.1 基礎設施指標 指標名稱 類型 描述 標籤 閾值 node_cpu_usage_percent Gauge CPU 使用率 host, instance warn: 80%, crit: 95% node_memory_usage_percent Gauge 記憶體使用率 host, instance warn: 85%, crit: 95% node_disk_usage_percent Gauge 磁碟使用率 host, mountpoint warn: 80%, crit: 90% node_network_errors_total Counter 網路錯誤數 host, interface crit: > [N]/min 4.2 應用程式指標 指標名稱 類型 描述 標籤 閾值 http_requests_total Counter HTTP 請求總數 method, path, status — http_request_duration_seconds Histogram 請求處理時間 method, path P95 < [N]s http_requests_errors_total Counter HTTP 錯誤數 method, path, status rate > [N]/min active_connections Gauge 活躍連線數 service warn: [N], crit: [N] db_connection_pool_active Gauge DB 連線池使用數 pool_name warn: 80%, crit: 95% queue_depth Gauge 訊息佇列深度 queue_name warn: [N], crit: [N] 4.3 業務指標 指標名稱 類型 描述 標籤 告警條件 [business_metric_1] Counter [描述] [labels] [condition] [business_metric_2] Gauge [描述] [labels] [condition] 5. 告警規則定義 5.1 告警嚴重度定義 嚴重度 定義 回應時間 通知方式 P1 - Critical 服務完全中斷 / 資料遺失 5 分鐘 PagerDuty + 電話 + SMS P2 - High 核心功能受損 / 效能嚴重惡化 15 分鐘 PagerDuty + Teams P3 - Medium 非核心功能異常 / 效能下降 1 小時 Teams Channel P4 - Low 預警 / 需關注但無立即影響 下個工作日 Email / Ticket 5.2 告警規則清單 Alert ID 名稱 嚴重度 條件 For 說明 ALT-001 ServiceDown P1 up == 0 1m 服務實例離線 ALT-002 HighErrorRate P1 error_rate > 5% 5m 錯誤率過高 ALT-003 HighLatency P2 p95_latency > [N]ms 5m 回應時間過慢 ALT-004 HighCPU P3 cpu_usage > 80% 10m CPU 使用率高 ALT-005 DiskAlmostFull P2 disk_usage > 85% 5m 磁碟空間不足 ALT-006 DBConnectionPoolHigh P2 pool_usage > 80% 5m DB 連線池接近上限 ALT-007 CertExpiringSoon P3 cert_expiry < 30d — 憑證即將到期 ALT-008 ErrorBudgetBurnRate P2 burn_rate > 1.0 1h Error Budget 消耗過快 5.3 告警規則範例(Prometheus AlertManager) groups: - name: [service_name].rules rules: - alert: [AlertName] expr: [PromQL expression] for: [duration] labels: severity: [critical/warning/info] team: [team_name] service: [service_name] annotations: summary: "[簡短摘要]" description: "[詳細描述,可含 {{ $labels }} 和 {{ $value }}]" runbook_url: "[Runbook 連結]" dashboard_url: "[Dashboard 連結]" 6. Dashboard 設計 6.1 Dashboard 清單 Dashboard 用途 目標受眾 更新頻率 Service Overview 服務健康狀態總覽 SRE / 管理層 10s API Performance API 效能細節 SRE / Dev 10s Infrastructure 基礎設施資源 Infra / SRE 30s Business Metrics 業務指標 PM / PO 1m SLO Tracking SLO 達成率與 Error Budget SRE / 管理層 1m 6.2 Service Overview Dashboard 設計 Panel 視覺化類型 指標 說明 Service Status Stat (up/down) up{service="…"} 紅綠燈 Request Rate Time Series rate(http_requests_total[5m]) QPS Error Rate Time Series error_rate 錯誤率趨勢 P95 Latency Time Series histogram_quantile(0.95, …) 延遲趨勢 Active Users Stat active_sessions 當前活躍用戶 SLO Status Gauge slo_compliance SLO 達標率 7. 告警通知與升級 7.1 通知路由 嚴重度 工作時間 (09-18) 非工作時間 假日 P1 On-call + Team Lead (即時) On-call + Backup (即時) On-call + Manager (即時) P2 On-call (15 min) On-call (30 min) On-call (30 min) P3 Teams Channel 下個工作日 下個工作日 P4 Email / Ticket — — 7.2 升級機制 時間 未回應動作 T + 5 min 重新通知 On-call T + 15 min 通知 Backup On-call T + 30 min 通知 Team Lead / Manager T + 60 min 通知 Director / VP 7.3 On-Call 輪值 週次 Primary Backup 電話 Week 1 [姓名] [姓名] [電話] Week 2 [姓名] [姓名] [電話] 8. 日誌監控策略 8.1 日誌等級與保留 Log Level 用途 保留期間 告警 ERROR 需處理的錯誤 90 days rate > [N]/min → P2 WARN 潛在問題 30 days rate > [N]/min → P3 INFO 正常營運記錄 14 days — DEBUG 開發除錯用 3 days (STG only) — 8.2 關鍵日誌監控 # 監控模式 觸發條件 告警 1 Exception stack trace rate > [N]/min P2 2 “OutOfMemoryError” 出現 1 次 P1 3 “Connection refused” rate > [N]/min P2 4 Authentication failure rate > [N]/min P2 (可能攻擊) 5 [自訂業務異常模式] [條件] [等級] 9. 維護與檢討機制 項目 頻率 負責人 說明 Alert Noise 檢討 每月 SRE 刪除/調整誤報告警 SLO 檢討 每季 SRE + PO 調整目標值 Dashboard 更新 需求變動時 SRE 新增/移除指標 Runbook 更新 每次事件後 SRE 補充處理步驟 On-Call 回顧 每月 SRE Team 改善值班體驗 10. 附錄 10.1 AlertManager 設定檔位置 檔案 位置 說明 alertmanager.yml [path] 通知路由設定 prometheus-rules/ [path] 告警規則目錄 grafana-dashboards/ [path] Dashboard JSON 10.2 相關文件 文件 連結 Runbook [link] SOP [link] Incident Response Plan [link] 📖 使用說明 建立監控的優先順序 Phase 1:健康檢查 + 基本告警(Service Up/Down, Error Rate) Phase 2:Golden Signals 完整覆蓋(Latency, Traffic, Errors, Saturation) Phase 3:SLI/SLO 追蹤 + Error Budget Phase 4:業務指標 + 進階分析 告警設計原則 原則 說明 Alert on symptoms 告警使用者可感知的症狀,非原因 Actionable 每個告警都必須有對應的處理動作 Low noise 避免無意義的告警(Alert fatigue) Have a runbook 每個告警必須連結到 Runbook 💡 範例(以 HRMS 人力資源管理系統為例) 範例:SLI/SLO 服務 SLI SLO Error Budget/月 HRMS API Availability ≥ 99.9% 43.8 min HRMS API P95 Latency < 200ms — 薪資批次作業 Success Rate ≥ 99.99% 0.44 min (每月一次不容失敗) 出缺勤打卡 Availability ≥ 99.95% (上班時段) 21.9 min 範例:告警規則 groups: - name: hrms.rules rules: - alert: HRMSHighErrorRate expr: | sum(rate(http_requests_total{service="hrms-api", status=~"5.."}[5m])) / sum(rate(http_requests_total{service="hrms-api"}[5m])) > 0.01 for: 5m labels: severity: critical team: hrms service: hrms-api annotations: summary: "HRMS API 錯誤率超過 1%" description: "目前錯誤率為 {{ $value | humanizePercentage }},超過 SLO 閾值" runbook_url: "https://wiki/runbook/hrms-high-error-rate" - alert: HRMSPayrollJobFailed expr: hrms_payroll_job_status == 0 for: 1m labels: severity: critical team: hrms service: hrms-payroll annotations: summary: "HRMS 薪資計算作業失敗" description: "月薪計算批次作業執行失敗,需立即處理" runbook_url: "https://wiki/runbook/hrms-payroll-failure" 📌 審閱重點 ...

May 18, 2026 · 5 min · 1008 words · Eric Cheng

系統退役計畫範本(System Retirement Plan Template)

系統退役計畫範本(System Retirement Plan Template) 適用標準:ISO/IEC/IEEE 15288:2023(System Life Cycle - Disposal Process) 適用階段:維運階段 — 退役處理(Operations — Retirement Phase) 負責角色:PM、SA、DBA、Infra、資安 📑 章節目錄 文件資訊 退役概要 影響分析 資料處置計畫 基礎設施釋放計畫 相依系統處理 溝通計畫 退役執行步驟 驗證與確認 風險與應變 附錄 📝 範本 1. 文件資訊 項目 內容 文件名稱 [系統名稱] 退役計畫 文件編號 [專案代碼]-RTP-[版本號]-[日期] 版本 v[X.Y] 建立日期 [YYYY-MM-DD] 預計退役日 [YYYY-MM-DD] 負責人 [PM / SA] 審核者 [IT Director / CISO] 2. 退役概要 項目 內容 系統名稱 [退役系統名稱] 系統用途 [一句話描述系統功能] 上線日期 [YYYY-MM-DD] 服務年限 [N] 年 退役原因 [被取代 / 業務需求消失 / 技術不支援 / 成本效益] 替代系統 [新系統名稱] 或 [無] 影響用戶數 [N] 人 退役方式 [立即下線 / 漸進退場 / 唯讀保留期] 2.1 退役判定準則 準則 說明 是否滿足 替代系統已上線並穩定 [新系統 GAP 已關閉] [✅/❌] 使用者已完成遷移 [N]% 已切換至新系統 [✅/❌] 資料已完成遷移/封存 [全量遷移完成] [✅/❌] 相依系統已解耦 [所有介接已切換] [✅/❌] 法規保留要求已確認 [保留年限/方式已確定] [✅/❌] 3. 影響分析 3.1 利害關係人影響 利害關係人 影響描述 嚴重度 緩解措施 [內部使用者] [無法再使用舊系統] [Low] [已遷移至新系統] [外部合作夥伴] [API 中斷] [Medium] [提前通知 + 新 API 對接] [報表使用者] [歷史報表查詢] [Medium] [資料封存 + 查詢介面] 3.2 功能影響盤點 功能模組 狀態 替代方案 備註 [模組 A] 已遷移至新系統 [新系統模組 X] [模組 B] 功能廢除 無 [業務確認不再需要] [模組 C] 部分功能無替代 [Manual process / 新建] ⚠️ GAP 3.3 合規與法規要求 法規/政策 要求 資料保留期 處理方式 [個資法] 個人資料銷毀或去識別化 — [銷毀/去識別化] [商業法] 財務交易記錄保留 [N] 年 [封存至 Archive] [公司政策] [內部規範] [N] 年 [方式] 4. 資料處置計畫 4.1 資料分類與處置 資料類別 資料表/儲存 筆數 大小 處置方式 備註 已遷移資料 [tables] [N] [N]GB 驗證後刪除 遷移至新系統 法規保留資料 [tables] [N] [N]GB 封存至冷儲存 保留 [N] 年 個人資料 [tables] [N] [N]GB 去識別化/銷毀 依個資法 暫存/Log [tables] [N] [N]GB 直接刪除 無保留價值 附件/檔案 [storage] [N] [N]GB [遷移/封存/刪除] 4.2 資料封存規格 項目 內容 封存格式 [SQL dump / Parquet / CSV + Schema] 封存位置 [Cold Storage / Archive Vault] 加密方式 [AES-256 / 由保管庫管理] 存取方式 [申請制 / 限特定角色] 保留期限 [N] 年,到期後 [自動銷毀 / 覆審] 驗證方式 [Checksum / Restore test] 4.3 資料銷毀證明 銷毀項目 方式 執行日 執行人 驗證人 證明文件 [DB data] [TRUNCATE + VACUUM / Secure erase] [日期] [DBA] [資安] [存證編號] [File storage] [Secure delete / Disk wipe] [日期] [Infra] [資安] [存證編號] [Backup tapes] [Degauss / Physical destruction] [日期] [Infra] [資安] [存證編號] 5. 基礎設施釋放計畫 5.1 資源盤點 資源類型 名稱/ID 規格 月費 處置方式 預計釋放日 VM / 主機 [hostname/ID] [spec] $[N] [刪除/重新用途] [日期] Database [instance name] [spec] $[N] [刪除] [日期] Storage [bucket/share] [N]GB $[N] [資料移出後刪除] [日期] Load Balancer [name] — $[N] [刪除] [日期] DNS Record [domain] — — [刪除/轉向] [日期] SSL Certificate [CN] — — [不續約] [到期日] Monitoring [Dashboard/Alert] — — [刪除] [日期] 5.2 成本節約估計 項目 月費 年費 備註 計算資源 $[N] $[N] 儲存 $[N] $[N] 授權 (License) $[N] $[N] 維護合約 $[N] $[N] 合計節省 $[N] $[N] 6. 相依系統處理 6.1 上游系統(呼叫退役系統的系統) 來源系統 介接方式 呼叫頻率 處理方式 負責人 狀態 [System A] REST API [N] calls/day 切換至新系統 API [PM of A] [✅/❌] [System B] DB Link [N] queries/day 移除 DB Link [DBA] [✅/❌] 6.2 下游系統(退役系統呼叫的系統) 目標系統 介接方式 影響 處理方式 狀態 [System C] Event publish [訂閱者需取消] 通知訂閱者 [✅/❌] 6.3 共用元件 元件 共用者 可否移除 處理方式 [Shared DB] [系統列表] [否] [僅移除退役系統的 Schema] [Message Queue] [系統列表] [是/否] [移除 Topic / 保留] 7. 溝通計畫 時間點 對象 內容 方式 負責人 T - 90 天 所有使用者 退役預告 + 遷移指引 Email + 公告 PM T - 60 天 相依系統負責人 技術切換時程 會議 SA T - 30 天 所有使用者 最後提醒 + 進入唯讀期 Email + In-app PM T - 7 天 全體 最終通知 Email + Teams PM T day IT 團隊 執行退役 War Room RM T + 1 天 全體 退役完成通知 Email PM 8. 退役執行步驟 # 步驟 負責人 預估時間 前置條件 狀態 1 切換至唯讀模式 DevOps [N] min T-30d 通知完成 2 最終資料備份 DBA [N] hr 唯讀模式已啟用 3 驗證最終備份完整性 DBA [N] hr 備份完成 4 DNS 移除/轉向 Infra [N] min 5 停止應用程式服務 DevOps [N] min DNS 已處理 6 移除相依系統連線設定 SA/DevOps [N] hr 相依系統已切換 7 資料封存(法規保留) DBA [N] hr 備份驗證通過 8 資料銷毀(非保留資料) DBA/Infra [N] hr 封存完成 9 基礎設施釋放 Infra [N] hr 資料處置完成 10 監控/告警移除 SRE [N] min 服務已停止 11 文件更新(架構圖/CMDB) SA [N] hr 全部完成 12 退役完成確認 PM — 全部驗證通過 9. 驗證與確認 9.1 退役前驗證 # 驗證項目 方法 預期結果 狀態 1 新系統功能涵蓋率 UAT 驗收 100% 功能可替代 [✅/❌] 2 資料遷移完整性 Count + Sample 驗證 差異 = 0 [✅/❌] 3 相依系統已切換 連線測試 無對退役系統的呼叫 [✅/❌] 4 使用者已遷移 登入統計 活躍用戶 = 0 [✅/❌] 9.2 退役後驗證 # 驗證項目 方法 預期結果 狀態 1 舊系統不可存取 URL/IP 測試 Connection refused / 404 [✅/❌] 2 新系統運作正常 Smoke Test 全數通過 [✅/❌] 3 封存資料可存取 Restore 測試 資料完整可讀 [✅/❌] 4 無殘留資源 CMDB / Cloud Console 檢查 資源已清除 [✅/❌] 5 成本已停止計費 帳單確認 下月帳單減少 [✅/❌] 10. 風險與應變 # 風險 影響 機率 應變措施 1 使用者未完成遷移 業務中斷 Medium 延長唯讀期 + 人工協助 2 發現未識別的相依系統 相依系統異常 Medium 保留 DNS 轉向頁 30 天 3 法規保留期判定錯誤 合規風險 Low 法務覆審 + 寧可多保留 4 封存資料無法還原 資料遺失 Low 保留完整備份至驗證通過 5 退役後需要回溯查詢 業務查詢困難 Medium 建立簡易查詢介面 for 封存資料 11. 附錄 11.1 系統架構圖(退役前) [附上退役系統目前的架構圖,標示將移除的元件] ...

May 18, 2026 · 5 min · 901 words · Eric Cheng

系統需求規格書範本(System Requirements Document Template)

系統需求規格書範本(System Requirements Document, SRD) 參照標準:ISO/IEC/IEEE 29148:2018(Systems and Software Engineering — Requirements Engineering) 文件用途:定義系統層級的完整需求(功能、效能、安全、介面),作為設計與驗證的基準 適用階段:需求分析階段(Requirements Phase)— System-Level Requirements 📋 章節目錄 文件資訊 系統概述 系統功能需求 系統介面需求 效能需求 安全需求摘要 可靠性與可用性 限制條件 需求追溯矩陣 附錄 1. 文件資訊 📝 範本 項目 內容 文件編號 SRD-{專案代碼}-{版本} 文件名稱 {系統名稱} 系統需求規格書 版本 v{主版本}.{次版本} 狀態 草稿 / 審核中 / 基線化 建立日期 {YYYY-MM-DD} 撰寫者 {系統分析師} 審核者 {Tech Lead / 架構師} 核准者 {PM / 產品負責人} 基線版本 {基線化日期,變更需走 CR 流程} 📖 使用說明 SRD 位於需求文件階層的中間層: BRD(商業需求)→ SRD(系統需求) → FRD(功能需求) SRD 將商業需求轉化為系統可實作的技術需求 「基線化」後的變更需經正式變更控制流程(Change Request) 依 ISO/IEC/IEEE 29148:2018 Section 6.2(System Requirements Specification) 💡 範例 項目 內容 文件編號 SRD-HRM-v1.0 系統名稱 人力資源管理系統(HRMS) 版本 v1.0 基線版本 2026-04-01(Sprint 10 結束) 2. 系統概述 📝 範本 2.1 系統目的 {描述系統存在的理由與欲解決的核心問題} ...

May 18, 2026 · 5 min · 967 words · Eric Cheng

變更日誌範本(CHANGELOG Template)

變更日誌範本(CHANGELOG Template) 參照標準:Keep a Changelog 1.1.0 / Semantic Versioning 2.0.0 文件用途:記錄專案每個版本的顯著變更,讓使用者與開發者了解版本間的差異 適用階段:專案全生命週期(每次發版皆需更新) 📋 章節目錄 文件資訊 格式規範 變更類別定義 版本編號規則 撰寫規範 CHANGELOG 完整範本 自動化產生 附錄 1. 文件資訊 📝 範本 項目 內容 文件名稱 CHANGELOG.md 位置 專案根目錄 格式 Markdown(Keep a Changelog 格式) 維護者 {Release Manager / 開發團隊} 更新時機 每次版本發布(Release) 📖 使用說明 CHANGELOG.md 置於專案根目錄,與 README.md 並列 每次 Release 前更新,不是每個 Commit 都記錄 記錄「對使用者有意義的變更」,非所有技術細節 💡 範例 CHANGELOG.md 通常長這樣的開頭: # Changelog All notable changes to this project will be documented in this file. The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.1.0/), and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0.html). 2. 格式規範 📝 範本 # Changelog All notable changes to this project will be documented in this file. The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.1.0/), and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0.html). ## [Unreleased] ### Added - {新功能描述} ## [{版本號}] - {YYYY-MM-DD} ### Added - {新增功能} ### Changed - {變更項目} ### Deprecated - {即將移除的功能} ### Removed - {已移除的功能} ### Fixed - {修復的問題} ### Security - {安全性修復} [Unreleased]: {repo-url}/compare/v{版本}...HEAD [{版本號}]: {repo-url}/compare/v{前版本}...v{版本} 📖 使用說明 [Unreleased] 區塊永遠在最上方,收集尚未發布的變更 發版時將 [Unreleased] 內容移至新版本區塊 版本由新到舊排列(最新在最上面) 底部的連結區塊提供版本間的 diff 比較連結 💡 範例 見第 6 節完整範本。 ...

May 18, 2026 · 5 min · 911 words · Eric Cheng