1.
概述与目标
1) 目标:建立一套可在日本高防(Anti-DDoS)环境下稳定、可量化的监控与告警体系。
2) 范围:监控点覆盖网络流量、PPS、TCP连接、系统资源(CPU/内存/磁盘/IO)、关键服务(nginx/mysql/redis/ssh)和日志异常。
3) 指标粒度:建议采样间隔为10s到60s,告警窗口为1分钟、5分钟与15分钟三个等级。
4) 告警要求:支持短信、邮件、钉钉或Slack,具备自动降噪(抑制重复告警)与智能抑制(基于阈值持续时间)。
5) 可审计性:所有告警须保留历史记录,支持工单关联与应急演练复盘。
2.
初始接入与安全基线
1) 入网校验:核对ISP/带宽/上行下行速率,常见日本机房上行500Mbps、1Gbps或10Gbps计费模型。
2) 管理平面隔离:管理口使用专网或跳板机,禁止直接对外SSH,默认只允许指定源IP/端口访问。
3) 防火墙规则:默认拒绝所有入站,开放80/443/22(限制来源)、3306(私网)等必要端口。
4) 基线扫描:首次上线进行端口与弱口令扫描,建议使用Nessus或OpenVAS做完整检查。
5) 证书与域名:强制HTTPS,启用HSTS与OCSP Stapling;域名解析配合CDN并配置健康检查。
3.
网络流量与DDoS监控指标
1) 带宽(bps)监控:监测1min/5min峰值与95%位点,设置阈值例如上行>80%带宽持续3分钟触发告警。
2) PPS(包率)监控:对SYN/UDP/ICMP包率分别取样,示例阈值:SYN PPS > 200k 持续60s应触发高危告警。
3) 连续连接(conn)与新建连接速率:当新建连接/s > 5000 且连接状态大部分为SYN_RECV,疑似SYN Flood。
4) 源IP分布/地理分布:短时间内TopN源IP数异常集中或地理来源异常,注意可能是反射放大攻击。
5) 清洗与黑洞策略:与机房/带宽商确认清洗门槛(例如10Gbps或500k PPS),并在告警页面列出可自动触发的处理步骤。
4.
主机与服务性能指标
1) CPU/内存/负载:采样10s,告警阈值示例:CPU单核使用率>85%持续2分钟或load1>CPU核数*2触发。
2) 磁盘与IO:监控iops、await、磁盘使用率,常见告警:磁盘使用 >85% 或 iowait > 200ms。
3) 关键进程探活:nginx/uwsgi/mysql/redis,每1分钟探活,探测失败2次则升级告警并自动尝试重启(需记录)。
4) 连接数与队列长度:例如nginx active connections > 10k 或 accept backlog 达到上限需警戒。
5) 应用层健康:对外接口返回码统计(2xx/3xx/4xx/5xx),设置5xx比例阈值(例如>2%且持续3分钟)。
5.
日志、行为与检测规则
1) 集中式日志:部署ELK/EFK或Loki,日志保留周期与存储按业务分级(关键业务90天,普通30天)。
2) 异常行为检测:设置规则例如短时间内同IP出现大量404/登录失败/POST请求触发告警。
3) 登录审计告警:SSH失败尝试>10次/分钟触发中级告警,锁定IP并通知值班人。
4) 自定义检测:针对业务接口设置QPS阈值、错误率阈值与响应时间阈值(例如API 95%响应时间>1s)。
5) 自动化响应:对低风险、安全类告警自动执行阻断或ban脚本,高风险告警仅通知并列出建议处置步骤。
6.
告警策略与等级划分
1) 告警分级:P0(影响全站/业务不可用)、P1(部分用户受影响)、P2(性能下降)、P3(信息性)。
2) 窗口与抑制策略:例如带宽类告警需在1分钟内持续达到阈值才报P1,避免瞬时抖动误报。
3) 通知链:P0立即电话/短信+群组通知并启动应急流程;P1邮件+群组通知;P2仅邮件。
4) 恢复与回溯:每次告警需记录恢复时间、处置人、根因分析并形成RCA报告。
5) 演练与SLA:定期(每季度)演练DDoS切换与清洗流程,校验与带宽商的SLA与响应时间。
7.
真实案例与服务器配置示例
1) 案例:某电商平台租用日本10Gbps高防带宽机房,遇到应用层与网络层混合攻击,表现为短时PPS突增到750k,带宽峰值8.2Gbps,导致nginx连接数爆满。
2) 处置:启用带宽商清洗后将SYN/UDP流量拦截;在本端对异常源IP批量封禁并扩容nginx worker_connections与accept_mutex优化。
3) 收敛:经清洗与本端优化后,PPS降至30k,带宽降至0.6Gbps,业务恢复并在24小时内完成RCA。
4) 建议配置示例(表格展示)如下:
| 项 | 示例值 | 说明 |
| 机房 | 日本东京(TYO) | 低延迟亚洲线路 |
| 带宽 | 10 Gbps | 包含Anti-DDoS清洗 |
| 带宽商清洗门槛 | >5 Gbps 或 >200k PPS | 自动/人工触发策略 |
| 主机配置 | 8核16GB NVMe 1TB | 适配高并发与I/O密集型 |
| 监控采样 | 10s | 关键指标高频采集 |
| PPS告警阈值 | SYN 200k/60s | 疑似SYN Flood触发 |
| 带宽告警阈值 | >80%(8Gbps)/3min | 触发运维与带宽商通知 |
5) 小结:结合机房清洗能力、主机自防与应用层限流可以将业务风险降到最低。定期演练、合理阈值与告警抑制是确保高可用的关键。
来源:运维团队手册租用日本高防服务器后的监控与告警设置要点