家里Wi-Fi突然卡成幻灯片,远程办公开个视频会议频频掉线,第一反应是不是重启路由器?其实问题可能出在告警阈值没设对。
告警阈值到底管什么
网络设备比如路由器、交换机,运行时会持续监测CPU使用率、内存占用、端口流量、温度这些指标。告警阈值就是给这些指标划条“警戒线”。比如CPU使用率超过85%就发警告,管理员能提前发现异常,而不是等彻底瘫痪了才动手。
很多单位和家庭用的设备出厂默认阈值偏宽松,有的甚至根本没开告警。结果就是设备已经满负荷运转好几个小时,用户完全不知道,直到网页打不开、应用连不上,才意识到出问题。
常见阈值怎么设合适
CPU使用率一般建议75%~85%设为高阈值,持续超过这个值就得查是不是有异常进程。内存同理,超过80%就该留意。如果是老旧设备,适当调低一点更安全。
端口流量监控特别实用。比如你家宽带是500M,但某个设备突然跑满900M,那大概率是中招了——可能是后台在偷偷传数据。这时候设置一个700M的告警阈值,手机立马就能收到提醒。
温度也不能忽视。夏天机房没空调,交换机温度飙到70℃以上很常见。建议把高温告警设在65℃,及时散热,避免硬件损坏。
实际配置例子
拿一台华为AR系列路由器举例,进系统后输入命令开启CPU告警:
cpu-usage threshold 80
意思是CPU使用率超过80%就会触发日志和SNMP告警。再比如用Zabbix监控平台,可以设置内存使用率连续5分钟超75%才报警,避免短时间波动误报。
家庭用户如果用的是小米或TP-Link这类家用路由器,可以在APP里找“设备健康”或“异常提醒”功能,打开流量突增、离线提醒这些选项,也算是一种简化版的阈值控制。
别设太敏感,也别太迟钝
有个公司曾经把登录失败次数设成3次就锁IP,结果员工输错密码就被封,一天打十几次IT电话。反过来,另一个单位十年没调过阈值,硬盘都快写满了才收到通知。合理设置要结合实际场景,关键是要定期看告警记录,根据历史数据微调。
设备告警不是设完就一劳永逸的事。网络负载会变,业务量会涨,半年 review 一次阈值设置,比出事后再救火强得多。