从一次断网说起
上周三下午,公司视频会议开到一半,突然全员掉线。IT小李一查,发现是核心交换机过热宕机,而监控系统居然没报警。这种事听起来离谱,但在不少单位都发生过。设备在跑,没人知道它快撑不住了——这就是没做好网络设备监控的代价。
选对工具,等于成功一半
市面上的监控软件五花八门,Zabbix、PRTG、Cacti、SolarWinds 都能用,关键得看场景。小团队可以试试 PRTG,界面友好,装上就能扫出局域网里所有设备;大一点的环境建议上 Zabbix,虽然配置复杂点,但自定义能力强,告警规则也细。
比如你想监控一台华为S5735交换机,可以用SNMP协议抓取数据。配置时记得开启v3版本,安全性更高:
snmp-agent sys-info version v3
snmp-agent group v3 monitor-group privacy
snmp-agent usm-user v3 monitor-user monitor-group
监控什么?别只盯着“通不通”
很多人以为ping得通就万事大吉,其实CPU使用率、内存占用、端口错误包数量这些更关键。某次公司无线AP频繁掉线,查了半天物理线路,最后发现是CPU长期90%以上,根本处理不过来数据包。
设置阈值要合理。比如交换机CPU连续5分钟超过80%才告警,避免误报。Zabbix里可以这样写触发器表达式:
{HOST.NAME:system.cpu.util[all,avg5].last()}>80
告警别乱发,不然会被当成噪音
曾经有个同事把所有接口down都设成短信告警,结果半夜三点被叫醒,只因为测试人员拔了根网线。后来改成分级通知:普通事件走企业微信,核心设备异常才发短信,连续失败三次再打电话。
邮件模板也得写清楚。别只写“Device Down”,要带上设备位置、IP、最近变更记录。运维人员一眼就能判断是不是刚做过升级。
留足历史数据,问题复盘靠它
某次网络卡顿持续了十分钟,表面看自动恢复了,但通过查看过去24小时的流量图,发现是有人偷偷接了台P2P下载服务器,占满了带宽。如果没有历史性能图表,这类隐蔽问题很难揪出来。
一般建议保留至少30天的详细数据,关键指标存一年。存储空间不够?可以调整采集频率,非核心设备从每分钟一次改成每5分钟一次。
定期做健康检查,别等出事才动手
就像汽车要年检,网络设备也该有固定巡检流程。每月导一次配置备份,对比有没有未授权的改动;每季度跑一遍链路压力测试,看看瓶颈在哪。
有些公司用脚本自动完成这部分工作。比如用Python结合Netmiko库,批量登录设备执行show命令:
from netmiko import ConnectHandler
device = {
"device_type": "huawei",
"ip": "192.168.1.1",
"username": "admin",
"password": "pass123"
}
conn = ConnectHandler(**device)
output = conn.send_command("display interface brief")
print(output)
conn.disconnect()
结果自动存进日志,异常行高亮标记,省时又少出错。