<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>告警 on Eric 個人部落格</title><link>https://chihhung.github.io/Blog/tags/%E5%91%8A%E8%AD%A6/</link><description>Recent content in 告警 on Eric 個人部落格</description><generator>Hugo -- 0.151.0</generator><language>zh-TW</language><lastBuildDate>Mon, 18 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://chihhung.github.io/Blog/tags/%E5%91%8A%E8%AD%A6/index.xml" rel="self" type="application/rss+xml"/><item><title>監控與告警設定文件範本（Monitoring &amp; Alert Configuration Template）</title><link>https://chihhung.github.io/Blog/posts/%E6%95%99%E5%AD%B8/templates/operations/monitoringalertconfig_template/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://chihhung.github.io/Blog/posts/%E6%95%99%E5%AD%B8/templates/operations/monitoringalertconfig_template/</guid><description>&lt;h1 id="監控與告警設定文件範本monitoring--alert-configuration-template"&gt;監控與告警設定文件範本（Monitoring &amp;amp; Alert Configuration Template）&lt;/h1&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;適用標準&lt;/strong&gt;：Google SRE Workbook、ISO/IEC 20000-1:2018（Service Monitoring）&lt;br&gt;
&lt;strong&gt;適用階段&lt;/strong&gt;：維運階段（Operations Phase）&lt;br&gt;
&lt;strong&gt;負責角色&lt;/strong&gt;：SRE、DevOps Engineer、Tech Lead&lt;/p&gt;&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id="-章節目錄"&gt;📑 章節目錄&lt;/h2&gt;
&lt;ol&gt;
&lt;li&gt;&lt;a href="#1-%E6%96%87%E4%BB%B6%E8%B3%87%E8%A8%8A"&gt;文件資訊&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#2-%E7%9B%A3%E6%8E%A7%E7%AD%96%E7%95%A5%E6%A6%82%E8%A6%81"&gt;監控策略概要&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#3-sli--slo-%E5%AE%9A%E7%BE%A9"&gt;SLI / SLO 定義&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#4-%E7%9B%A3%E6%8E%A7%E6%8C%87%E6%A8%99%E8%A8%AD%E8%A8%88"&gt;監控指標設計&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#5-%E5%91%8A%E8%AD%A6%E8%A6%8F%E5%89%87%E5%AE%9A%E7%BE%A9"&gt;告警規則定義&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#6-dashboard-%E8%A8%AD%E8%A8%88"&gt;Dashboard 設計&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#7-%E5%91%8A%E8%AD%A6%E9%80%9A%E7%9F%A5%E8%88%87%E5%8D%87%E7%B4%9A"&gt;告警通知與升級&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#8-%E6%97%A5%E8%AA%8C%E7%9B%A3%E6%8E%A7%E7%AD%96%E7%95%A5"&gt;日誌監控策略&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#9-%E7%B6%AD%E8%AD%B7%E8%88%87%E6%AA%A2%E8%A8%8E%E6%A9%9F%E5%88%B6"&gt;維護與檢討機制&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#10-%E9%99%84%E9%8C%84"&gt;附錄&lt;/a&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;hr&gt;
&lt;h2 id="-範本"&gt;📝 範本&lt;/h2&gt;
&lt;hr&gt;
&lt;h3 id="1-文件資訊"&gt;1. 文件資訊&lt;/h3&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;項目&lt;/th&gt;
&lt;th&gt;內容&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;文件名稱&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;[系統名稱] 監控與告警設定文件&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;文件編號&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;[專案代碼]-MON-[版本號]-[日期]&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;版本&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;v[X.Y]&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;建立日期&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;[YYYY-MM-DD]&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;負責人&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;[SRE / DevOps]&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;審核者&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;[Tech Lead / SA]&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h3 id="2-監控策略概要"&gt;2. 監控策略概要&lt;/h3&gt;
&lt;h4 id="21-監控架構"&gt;2.1 監控架構&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;層級&lt;/th&gt;
&lt;th&gt;工具&lt;/th&gt;
&lt;th&gt;用途&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Infrastructure&lt;/td&gt;
&lt;td&gt;[Prometheus / CloudWatch / Azure Monitor]&lt;/td&gt;
&lt;td&gt;主機/容器/網路&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Application&lt;/td&gt;
&lt;td&gt;[APM: Datadog / New Relic / OpenTelemetry]&lt;/td&gt;
&lt;td&gt;應用效能&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Business&lt;/td&gt;
&lt;td&gt;[Custom metrics / Analytics]&lt;/td&gt;
&lt;td&gt;業務指標&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Logging&lt;/td&gt;
&lt;td&gt;[ELK / Loki / Azure Log Analytics]&lt;/td&gt;
&lt;td&gt;日誌分析&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Tracing&lt;/td&gt;
&lt;td&gt;[Jaeger / Zipkin / OpenTelemetry]&lt;/td&gt;
&lt;td&gt;分散式追蹤&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 id="22-監控原則"&gt;2.2 監控原則&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;原則&lt;/th&gt;
&lt;th&gt;說明&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Four Golden Signals&lt;/td&gt;
&lt;td&gt;Latency, Traffic, Errors, Saturation&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;USE Method&lt;/td&gt;
&lt;td&gt;Utilization, Saturation, Errors（基礎設施）&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;RED Method&lt;/td&gt;
&lt;td&gt;Rate, Errors, Duration（服務）&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Alerting Philosophy&lt;/td&gt;
&lt;td&gt;Alert on symptoms, not causes&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h3 id="3-sli--slo-定義"&gt;3. SLI / SLO 定義&lt;/h3&gt;
&lt;h4 id="31-服務層級指標sli"&gt;3.1 服務層級指標（SLI）&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;SLI&lt;/th&gt;
&lt;th&gt;定義&lt;/th&gt;
&lt;th&gt;量測方式&lt;/th&gt;
&lt;th&gt;資料來源&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Availability&lt;/td&gt;
&lt;td&gt;成功回應比例&lt;/td&gt;
&lt;td&gt;success_requests / total_requests&lt;/td&gt;
&lt;td&gt;[Load Balancer / App]&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Latency&lt;/td&gt;
&lt;td&gt;回應時間分佈&lt;/td&gt;
&lt;td&gt;P50, P95, P99&lt;/td&gt;
&lt;td&gt;[APM / Prometheus histogram]&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Throughput&lt;/td&gt;
&lt;td&gt;處理量&lt;/td&gt;
&lt;td&gt;Requests per second&lt;/td&gt;
&lt;td&gt;[Metrics]&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Error Rate&lt;/td&gt;
&lt;td&gt;錯誤回應比例&lt;/td&gt;
&lt;td&gt;5xx_count / total_count&lt;/td&gt;
&lt;td&gt;[Ingress / App]&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 id="32-服務層級目標slo"&gt;3.2 服務層級目標（SLO）&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;服務&lt;/th&gt;
&lt;th&gt;SLO 指標&lt;/th&gt;
&lt;th&gt;目標值&lt;/th&gt;
&lt;th&gt;Error Budget (月)&lt;/th&gt;
&lt;th&gt;量測視窗&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;[API Service]&lt;/td&gt;
&lt;td&gt;Availability&lt;/td&gt;
&lt;td&gt;≥ 99.9%&lt;/td&gt;
&lt;td&gt;43.8 min&lt;/td&gt;
&lt;td&gt;30 days rolling&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;[API Service]&lt;/td&gt;
&lt;td&gt;P95 Latency&lt;/td&gt;
&lt;td&gt;&amp;lt; [N]ms&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;td&gt;30 days rolling&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;[Web Frontend]&lt;/td&gt;
&lt;td&gt;Availability&lt;/td&gt;
&lt;td&gt;≥ 99.5%&lt;/td&gt;
&lt;td&gt;3.6 hr&lt;/td&gt;
&lt;td&gt;30 days rolling&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;[Batch Job]&lt;/td&gt;
&lt;td&gt;Success Rate&lt;/td&gt;
&lt;td&gt;≥ 99.0%&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;td&gt;Per execution&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h3 id="4-監控指標設計"&gt;4. 監控指標設計&lt;/h3&gt;
&lt;h4 id="41-基礎設施指標"&gt;4.1 基礎設施指標&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;指標名稱&lt;/th&gt;
&lt;th&gt;類型&lt;/th&gt;
&lt;th&gt;描述&lt;/th&gt;
&lt;th&gt;標籤&lt;/th&gt;
&lt;th&gt;閾值&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;node_cpu_usage_percent&lt;/td&gt;
&lt;td&gt;Gauge&lt;/td&gt;
&lt;td&gt;CPU 使用率&lt;/td&gt;
&lt;td&gt;host, instance&lt;/td&gt;
&lt;td&gt;warn: 80%, crit: 95%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;node_memory_usage_percent&lt;/td&gt;
&lt;td&gt;Gauge&lt;/td&gt;
&lt;td&gt;記憶體使用率&lt;/td&gt;
&lt;td&gt;host, instance&lt;/td&gt;
&lt;td&gt;warn: 85%, crit: 95%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;node_disk_usage_percent&lt;/td&gt;
&lt;td&gt;Gauge&lt;/td&gt;
&lt;td&gt;磁碟使用率&lt;/td&gt;
&lt;td&gt;host, mountpoint&lt;/td&gt;
&lt;td&gt;warn: 80%, crit: 90%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;node_network_errors_total&lt;/td&gt;
&lt;td&gt;Counter&lt;/td&gt;
&lt;td&gt;網路錯誤數&lt;/td&gt;
&lt;td&gt;host, interface&lt;/td&gt;
&lt;td&gt;crit: &amp;gt; [N]/min&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 id="42-應用程式指標"&gt;4.2 應用程式指標&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;指標名稱&lt;/th&gt;
&lt;th&gt;類型&lt;/th&gt;
&lt;th&gt;描述&lt;/th&gt;
&lt;th&gt;標籤&lt;/th&gt;
&lt;th&gt;閾值&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;http_requests_total&lt;/td&gt;
&lt;td&gt;Counter&lt;/td&gt;
&lt;td&gt;HTTP 請求總數&lt;/td&gt;
&lt;td&gt;method, path, status&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;http_request_duration_seconds&lt;/td&gt;
&lt;td&gt;Histogram&lt;/td&gt;
&lt;td&gt;請求處理時間&lt;/td&gt;
&lt;td&gt;method, path&lt;/td&gt;
&lt;td&gt;P95 &amp;lt; [N]s&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;http_requests_errors_total&lt;/td&gt;
&lt;td&gt;Counter&lt;/td&gt;
&lt;td&gt;HTTP 錯誤數&lt;/td&gt;
&lt;td&gt;method, path, status&lt;/td&gt;
&lt;td&gt;rate &amp;gt; [N]/min&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;active_connections&lt;/td&gt;
&lt;td&gt;Gauge&lt;/td&gt;
&lt;td&gt;活躍連線數&lt;/td&gt;
&lt;td&gt;service&lt;/td&gt;
&lt;td&gt;warn: [N], crit: [N]&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;db_connection_pool_active&lt;/td&gt;
&lt;td&gt;Gauge&lt;/td&gt;
&lt;td&gt;DB 連線池使用數&lt;/td&gt;
&lt;td&gt;pool_name&lt;/td&gt;
&lt;td&gt;warn: 80%, crit: 95%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;queue_depth&lt;/td&gt;
&lt;td&gt;Gauge&lt;/td&gt;
&lt;td&gt;訊息佇列深度&lt;/td&gt;
&lt;td&gt;queue_name&lt;/td&gt;
&lt;td&gt;warn: [N], crit: [N]&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 id="43-業務指標"&gt;4.3 業務指標&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;指標名稱&lt;/th&gt;
&lt;th&gt;類型&lt;/th&gt;
&lt;th&gt;描述&lt;/th&gt;
&lt;th&gt;標籤&lt;/th&gt;
&lt;th&gt;告警條件&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;[business_metric_1]&lt;/td&gt;
&lt;td&gt;Counter&lt;/td&gt;
&lt;td&gt;[描述]&lt;/td&gt;
&lt;td&gt;[labels]&lt;/td&gt;
&lt;td&gt;[condition]&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;[business_metric_2]&lt;/td&gt;
&lt;td&gt;Gauge&lt;/td&gt;
&lt;td&gt;[描述]&lt;/td&gt;
&lt;td&gt;[labels]&lt;/td&gt;
&lt;td&gt;[condition]&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h3 id="5-告警規則定義"&gt;5. 告警規則定義&lt;/h3&gt;
&lt;h4 id="51-告警嚴重度定義"&gt;5.1 告警嚴重度定義&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;嚴重度&lt;/th&gt;
&lt;th&gt;定義&lt;/th&gt;
&lt;th&gt;回應時間&lt;/th&gt;
&lt;th&gt;通知方式&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;P1 - Critical&lt;/td&gt;
&lt;td&gt;服務完全中斷 / 資料遺失&lt;/td&gt;
&lt;td&gt;5 分鐘&lt;/td&gt;
&lt;td&gt;PagerDuty + 電話 + SMS&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;P2 - High&lt;/td&gt;
&lt;td&gt;核心功能受損 / 效能嚴重惡化&lt;/td&gt;
&lt;td&gt;15 分鐘&lt;/td&gt;
&lt;td&gt;PagerDuty + Teams&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;P3 - Medium&lt;/td&gt;
&lt;td&gt;非核心功能異常 / 效能下降&lt;/td&gt;
&lt;td&gt;1 小時&lt;/td&gt;
&lt;td&gt;Teams Channel&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;P4 - Low&lt;/td&gt;
&lt;td&gt;預警 / 需關注但無立即影響&lt;/td&gt;
&lt;td&gt;下個工作日&lt;/td&gt;
&lt;td&gt;Email / Ticket&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 id="52-告警規則清單"&gt;5.2 告警規則清單&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Alert ID&lt;/th&gt;
&lt;th&gt;名稱&lt;/th&gt;
&lt;th&gt;嚴重度&lt;/th&gt;
&lt;th&gt;條件&lt;/th&gt;
&lt;th&gt;For&lt;/th&gt;
&lt;th&gt;說明&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;ALT-001&lt;/td&gt;
&lt;td&gt;ServiceDown&lt;/td&gt;
&lt;td&gt;P1&lt;/td&gt;
&lt;td&gt;up == 0&lt;/td&gt;
&lt;td&gt;1m&lt;/td&gt;
&lt;td&gt;服務實例離線&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ALT-002&lt;/td&gt;
&lt;td&gt;HighErrorRate&lt;/td&gt;
&lt;td&gt;P1&lt;/td&gt;
&lt;td&gt;error_rate &amp;gt; 5%&lt;/td&gt;
&lt;td&gt;5m&lt;/td&gt;
&lt;td&gt;錯誤率過高&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ALT-003&lt;/td&gt;
&lt;td&gt;HighLatency&lt;/td&gt;
&lt;td&gt;P2&lt;/td&gt;
&lt;td&gt;p95_latency &amp;gt; [N]ms&lt;/td&gt;
&lt;td&gt;5m&lt;/td&gt;
&lt;td&gt;回應時間過慢&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ALT-004&lt;/td&gt;
&lt;td&gt;HighCPU&lt;/td&gt;
&lt;td&gt;P3&lt;/td&gt;
&lt;td&gt;cpu_usage &amp;gt; 80%&lt;/td&gt;
&lt;td&gt;10m&lt;/td&gt;
&lt;td&gt;CPU 使用率高&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ALT-005&lt;/td&gt;
&lt;td&gt;DiskAlmostFull&lt;/td&gt;
&lt;td&gt;P2&lt;/td&gt;
&lt;td&gt;disk_usage &amp;gt; 85%&lt;/td&gt;
&lt;td&gt;5m&lt;/td&gt;
&lt;td&gt;磁碟空間不足&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ALT-006&lt;/td&gt;
&lt;td&gt;DBConnectionPoolHigh&lt;/td&gt;
&lt;td&gt;P2&lt;/td&gt;
&lt;td&gt;pool_usage &amp;gt; 80%&lt;/td&gt;
&lt;td&gt;5m&lt;/td&gt;
&lt;td&gt;DB 連線池接近上限&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ALT-007&lt;/td&gt;
&lt;td&gt;CertExpiringSoon&lt;/td&gt;
&lt;td&gt;P3&lt;/td&gt;
&lt;td&gt;cert_expiry &amp;lt; 30d&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;td&gt;憑證即將到期&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ALT-008&lt;/td&gt;
&lt;td&gt;ErrorBudgetBurnRate&lt;/td&gt;
&lt;td&gt;P2&lt;/td&gt;
&lt;td&gt;burn_rate &amp;gt; 1.0&lt;/td&gt;
&lt;td&gt;1h&lt;/td&gt;
&lt;td&gt;Error Budget 消耗過快&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 id="53-告警規則範例prometheus-alertmanager"&gt;5.3 告警規則範例（Prometheus AlertManager）&lt;/h4&gt;
&lt;div class="highlight"&gt;
&lt;pre tabindex="0"&gt;&lt;code class="language-yaml" data-lang="yaml"&gt;groups:
- name: [service_name].rules
rules:
- alert: [AlertName]
expr: [PromQL expression]
for: [duration]
labels:
severity: [critical/warning/info]
team: [team_name]
service: [service_name]
annotations:
summary: &amp;#34;[簡短摘要]&amp;#34;
description: &amp;#34;[詳細描述，可含 {{ $labels }} 和 {{ $value }}]&amp;#34;
runbook_url: &amp;#34;[Runbook 連結]&amp;#34;
dashboard_url: &amp;#34;[Dashboard 連結]&amp;#34;&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;hr&gt;
&lt;h3 id="6-dashboard-設計"&gt;6. Dashboard 設計&lt;/h3&gt;
&lt;h4 id="61-dashboard-清單"&gt;6.1 Dashboard 清單&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Dashboard&lt;/th&gt;
&lt;th&gt;用途&lt;/th&gt;
&lt;th&gt;目標受眾&lt;/th&gt;
&lt;th&gt;更新頻率&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Service Overview&lt;/td&gt;
&lt;td&gt;服務健康狀態總覽&lt;/td&gt;
&lt;td&gt;SRE / 管理層&lt;/td&gt;
&lt;td&gt;10s&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;API Performance&lt;/td&gt;
&lt;td&gt;API 效能細節&lt;/td&gt;
&lt;td&gt;SRE / Dev&lt;/td&gt;
&lt;td&gt;10s&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Infrastructure&lt;/td&gt;
&lt;td&gt;基礎設施資源&lt;/td&gt;
&lt;td&gt;Infra / SRE&lt;/td&gt;
&lt;td&gt;30s&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Business Metrics&lt;/td&gt;
&lt;td&gt;業務指標&lt;/td&gt;
&lt;td&gt;PM / PO&lt;/td&gt;
&lt;td&gt;1m&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;SLO Tracking&lt;/td&gt;
&lt;td&gt;SLO 達成率與 Error Budget&lt;/td&gt;
&lt;td&gt;SRE / 管理層&lt;/td&gt;
&lt;td&gt;1m&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 id="62-service-overview-dashboard-設計"&gt;6.2 Service Overview Dashboard 設計&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Panel&lt;/th&gt;
&lt;th&gt;視覺化類型&lt;/th&gt;
&lt;th&gt;指標&lt;/th&gt;
&lt;th&gt;說明&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Service Status&lt;/td&gt;
&lt;td&gt;Stat (up/down)&lt;/td&gt;
&lt;td&gt;up{service=&amp;quot;&amp;hellip;&amp;quot;}&lt;/td&gt;
&lt;td&gt;紅綠燈&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Request Rate&lt;/td&gt;
&lt;td&gt;Time Series&lt;/td&gt;
&lt;td&gt;rate(http_requests_total[5m])&lt;/td&gt;
&lt;td&gt;QPS&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Error Rate&lt;/td&gt;
&lt;td&gt;Time Series&lt;/td&gt;
&lt;td&gt;error_rate&lt;/td&gt;
&lt;td&gt;錯誤率趨勢&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;P95 Latency&lt;/td&gt;
&lt;td&gt;Time Series&lt;/td&gt;
&lt;td&gt;histogram_quantile(0.95, &amp;hellip;)&lt;/td&gt;
&lt;td&gt;延遲趨勢&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Active Users&lt;/td&gt;
&lt;td&gt;Stat&lt;/td&gt;
&lt;td&gt;active_sessions&lt;/td&gt;
&lt;td&gt;當前活躍用戶&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;SLO Status&lt;/td&gt;
&lt;td&gt;Gauge&lt;/td&gt;
&lt;td&gt;slo_compliance&lt;/td&gt;
&lt;td&gt;SLO 達標率&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h3 id="7-告警通知與升級"&gt;7. 告警通知與升級&lt;/h3&gt;
&lt;h4 id="71-通知路由"&gt;7.1 通知路由&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;嚴重度&lt;/th&gt;
&lt;th&gt;工作時間 (09-18)&lt;/th&gt;
&lt;th&gt;非工作時間&lt;/th&gt;
&lt;th&gt;假日&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;P1&lt;/td&gt;
&lt;td&gt;On-call + Team Lead (即時)&lt;/td&gt;
&lt;td&gt;On-call + Backup (即時)&lt;/td&gt;
&lt;td&gt;On-call + Manager (即時)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;P2&lt;/td&gt;
&lt;td&gt;On-call (15 min)&lt;/td&gt;
&lt;td&gt;On-call (30 min)&lt;/td&gt;
&lt;td&gt;On-call (30 min)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;P3&lt;/td&gt;
&lt;td&gt;Teams Channel&lt;/td&gt;
&lt;td&gt;下個工作日&lt;/td&gt;
&lt;td&gt;下個工作日&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;P4&lt;/td&gt;
&lt;td&gt;Email / Ticket&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 id="72-升級機制"&gt;7.2 升級機制&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;時間&lt;/th&gt;
&lt;th&gt;未回應動作&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;T + 5 min&lt;/td&gt;
&lt;td&gt;重新通知 On-call&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;T + 15 min&lt;/td&gt;
&lt;td&gt;通知 Backup On-call&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;T + 30 min&lt;/td&gt;
&lt;td&gt;通知 Team Lead / Manager&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;T + 60 min&lt;/td&gt;
&lt;td&gt;通知 Director / VP&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 id="73-on-call-輪值"&gt;7.3 On-Call 輪值&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;週次&lt;/th&gt;
&lt;th&gt;Primary&lt;/th&gt;
&lt;th&gt;Backup&lt;/th&gt;
&lt;th&gt;電話&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Week 1&lt;/td&gt;
&lt;td&gt;[姓名]&lt;/td&gt;
&lt;td&gt;[姓名]&lt;/td&gt;
&lt;td&gt;[電話]&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Week 2&lt;/td&gt;
&lt;td&gt;[姓名]&lt;/td&gt;
&lt;td&gt;[姓名]&lt;/td&gt;
&lt;td&gt;[電話]&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h3 id="8-日誌監控策略"&gt;8. 日誌監控策略&lt;/h3&gt;
&lt;h4 id="81-日誌等級與保留"&gt;8.1 日誌等級與保留&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Log Level&lt;/th&gt;
&lt;th&gt;用途&lt;/th&gt;
&lt;th&gt;保留期間&lt;/th&gt;
&lt;th&gt;告警&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;ERROR&lt;/td&gt;
&lt;td&gt;需處理的錯誤&lt;/td&gt;
&lt;td&gt;90 days&lt;/td&gt;
&lt;td&gt;rate &amp;gt; [N]/min → P2&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;WARN&lt;/td&gt;
&lt;td&gt;潛在問題&lt;/td&gt;
&lt;td&gt;30 days&lt;/td&gt;
&lt;td&gt;rate &amp;gt; [N]/min → P3&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;INFO&lt;/td&gt;
&lt;td&gt;正常營運記錄&lt;/td&gt;
&lt;td&gt;14 days&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DEBUG&lt;/td&gt;
&lt;td&gt;開發除錯用&lt;/td&gt;
&lt;td&gt;3 days (STG only)&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 id="82-關鍵日誌監控"&gt;8.2 關鍵日誌監控&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;#&lt;/th&gt;
&lt;th&gt;監控模式&lt;/th&gt;
&lt;th&gt;觸發條件&lt;/th&gt;
&lt;th&gt;告警&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;1&lt;/td&gt;
&lt;td&gt;Exception stack trace&lt;/td&gt;
&lt;td&gt;rate &amp;gt; [N]/min&lt;/td&gt;
&lt;td&gt;P2&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;2&lt;/td&gt;
&lt;td&gt;&amp;ldquo;OutOfMemoryError&amp;rdquo;&lt;/td&gt;
&lt;td&gt;出現 1 次&lt;/td&gt;
&lt;td&gt;P1&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;3&lt;/td&gt;
&lt;td&gt;&amp;ldquo;Connection refused&amp;rdquo;&lt;/td&gt;
&lt;td&gt;rate &amp;gt; [N]/min&lt;/td&gt;
&lt;td&gt;P2&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;4&lt;/td&gt;
&lt;td&gt;Authentication failure&lt;/td&gt;
&lt;td&gt;rate &amp;gt; [N]/min&lt;/td&gt;
&lt;td&gt;P2 (可能攻擊)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;5&lt;/td&gt;
&lt;td&gt;[自訂業務異常模式]&lt;/td&gt;
&lt;td&gt;[條件]&lt;/td&gt;
&lt;td&gt;[等級]&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h3 id="9-維護與檢討機制"&gt;9. 維護與檢討機制&lt;/h3&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;項目&lt;/th&gt;
&lt;th&gt;頻率&lt;/th&gt;
&lt;th&gt;負責人&lt;/th&gt;
&lt;th&gt;說明&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Alert Noise 檢討&lt;/td&gt;
&lt;td&gt;每月&lt;/td&gt;
&lt;td&gt;SRE&lt;/td&gt;
&lt;td&gt;刪除/調整誤報告警&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;SLO 檢討&lt;/td&gt;
&lt;td&gt;每季&lt;/td&gt;
&lt;td&gt;SRE + PO&lt;/td&gt;
&lt;td&gt;調整目標值&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Dashboard 更新&lt;/td&gt;
&lt;td&gt;需求變動時&lt;/td&gt;
&lt;td&gt;SRE&lt;/td&gt;
&lt;td&gt;新增/移除指標&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Runbook 更新&lt;/td&gt;
&lt;td&gt;每次事件後&lt;/td&gt;
&lt;td&gt;SRE&lt;/td&gt;
&lt;td&gt;補充處理步驟&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;On-Call 回顧&lt;/td&gt;
&lt;td&gt;每月&lt;/td&gt;
&lt;td&gt;SRE Team&lt;/td&gt;
&lt;td&gt;改善值班體驗&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h3 id="10-附錄"&gt;10. 附錄&lt;/h3&gt;
&lt;h4 id="101-alertmanager-設定檔位置"&gt;10.1 AlertManager 設定檔位置&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;檔案&lt;/th&gt;
&lt;th&gt;位置&lt;/th&gt;
&lt;th&gt;說明&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;alertmanager.yml&lt;/td&gt;
&lt;td&gt;[path]&lt;/td&gt;
&lt;td&gt;通知路由設定&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;prometheus-rules/&lt;/td&gt;
&lt;td&gt;[path]&lt;/td&gt;
&lt;td&gt;告警規則目錄&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;grafana-dashboards/&lt;/td&gt;
&lt;td&gt;[path]&lt;/td&gt;
&lt;td&gt;Dashboard JSON&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 id="102-相關文件"&gt;10.2 相關文件&lt;/h4&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;文件&lt;/th&gt;
&lt;th&gt;連結&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Runbook&lt;/td&gt;
&lt;td&gt;[link]&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;SOP&lt;/td&gt;
&lt;td&gt;[link]&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Incident Response Plan&lt;/td&gt;
&lt;td&gt;[link]&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id="-使用說明"&gt;📖 使用說明&lt;/h2&gt;
&lt;h3 id="建立監控的優先順序"&gt;建立監控的優先順序&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Phase 1&lt;/strong&gt;：健康檢查 + 基本告警（Service Up/Down, Error Rate）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Phase 2&lt;/strong&gt;：Golden Signals 完整覆蓋（Latency, Traffic, Errors, Saturation）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Phase 3&lt;/strong&gt;：SLI/SLO 追蹤 + Error Budget&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Phase 4&lt;/strong&gt;：業務指標 + 進階分析&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id="告警設計原則"&gt;告警設計原則&lt;/h3&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;原則&lt;/th&gt;
&lt;th&gt;說明&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Alert on symptoms&lt;/td&gt;
&lt;td&gt;告警使用者可感知的症狀，非原因&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Actionable&lt;/td&gt;
&lt;td&gt;每個告警都必須有對應的處理動作&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Low noise&lt;/td&gt;
&lt;td&gt;避免無意義的告警（Alert fatigue）&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Have a runbook&lt;/td&gt;
&lt;td&gt;每個告警必須連結到 Runbook&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id="-範例以-hrms-人力資源管理系統為例"&gt;💡 範例（以 HRMS 人力資源管理系統為例）&lt;/h2&gt;
&lt;hr&gt;
&lt;h3 id="範例slislo"&gt;範例：SLI/SLO&lt;/h3&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;服務&lt;/th&gt;
&lt;th&gt;SLI&lt;/th&gt;
&lt;th&gt;SLO&lt;/th&gt;
&lt;th&gt;Error Budget/月&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;HRMS API&lt;/td&gt;
&lt;td&gt;Availability&lt;/td&gt;
&lt;td&gt;≥ 99.9%&lt;/td&gt;
&lt;td&gt;43.8 min&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;HRMS API&lt;/td&gt;
&lt;td&gt;P95 Latency&lt;/td&gt;
&lt;td&gt;&amp;lt; 200ms&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;薪資批次作業&lt;/td&gt;
&lt;td&gt;Success Rate&lt;/td&gt;
&lt;td&gt;≥ 99.99%&lt;/td&gt;
&lt;td&gt;0.44 min (每月一次不容失敗)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;出缺勤打卡&lt;/td&gt;
&lt;td&gt;Availability&lt;/td&gt;
&lt;td&gt;≥ 99.95% (上班時段)&lt;/td&gt;
&lt;td&gt;21.9 min&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="範例告警規則"&gt;範例：告警規則&lt;/h3&gt;
&lt;div class="highlight"&gt;
&lt;pre tabindex="0"&gt;&lt;code class="language-yaml" data-lang="yaml"&gt;groups:
- name: hrms.rules
rules:
- alert: HRMSHighErrorRate
expr: |
sum(rate(http_requests_total{service=&amp;#34;hrms-api&amp;#34;, status=~&amp;#34;5..&amp;#34;}[5m]))
/
sum(rate(http_requests_total{service=&amp;#34;hrms-api&amp;#34;}[5m])) &amp;gt; 0.01
for: 5m
labels:
severity: critical
team: hrms
service: hrms-api
annotations:
summary: &amp;#34;HRMS API 錯誤率超過 1%&amp;#34;
description: &amp;#34;目前錯誤率為 {{ $value | humanizePercentage }}，超過 SLO 閾值&amp;#34;
runbook_url: &amp;#34;https://wiki/runbook/hrms-high-error-rate&amp;#34;
- alert: HRMSPayrollJobFailed
expr: hrms_payroll_job_status == 0
for: 1m
labels:
severity: critical
team: hrms
service: hrms-payroll
annotations:
summary: &amp;#34;HRMS 薪資計算作業失敗&amp;#34;
description: &amp;#34;月薪計算批次作業執行失敗，需立即處理&amp;#34;
runbook_url: &amp;#34;https://wiki/runbook/hrms-payroll-failure&amp;#34;&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;hr&gt;
&lt;blockquote&gt;
&lt;p&gt;📌 &lt;strong&gt;審閱重點&lt;/strong&gt;&lt;/p&gt;</description></item></channel></rss>