在一家互联网公司做运维,最怕什么?不是服务器宕机,而是半夜接到电话:‘兄弟,这问题以前见过吗?手册在哪?’ 如果这时候你只能翻着零散的笔记、微信群记录和邮件来回找答案,那场面就有点尴尬了。
为什么需要统一的编写规范
很多人觉得运维手册就是随手记点命令和步骤,其实不然。一个团队里,老员工写的文档如果只有他自己看得懂,新人来了还得重头摸索,效率低不说,出错概率也高。统一的编写规范能让文档像说明书一样清晰可查,谁都能快速上手。
结构要像菜谱一样清楚
写手册就像教人做饭。不能只说‘加点调料炒一下’,得写明‘放两克盐,中火翻炒三分钟’。运维操作同理,每个步骤都要具体到命令、参数、执行时机。
建议采用以下结构:
- 问题场景(比如:核心交换机端口异常丢包)
- 排查路径(从物理层到配置层逐项检查)
- 关键命令(带注释说明作用)
- 预期输出(正常和异常分别长什么样)
- 处理方案(分情况给出应对措施)
命令示例必须可复制
别嫌麻烦,把能直接粘贴运行的命令写进去。但也要标注哪些参数需要替换,避免别人照搬出事。
ssh admin@<交换机IP>
show interface <端口号>
display logbuffer | include ERR
上面这些命令,只要把尖括号里的内容替换成实际值就能用,省得再查文档。
配上截图比文字更直观
尤其是涉及图形界面的操作,比如监控平台告警设置、防火墙策略配置,一张带标注的截图顶得上三百字描述。注意敏感信息打码,别把内网IP或账号露出去。
版本控制不能少
运维环境天天变,手册也不能一成不变。每次更新记得留个记录,比如:
[2024-03-15] 更新DNS故障排查流程,新增递归查询检测步骤 - @张工
[2024-04-02] 替换旧版备份脚本链接,原地址已失效
这样谁改了什么、什么时候改的,一目了然。
别写成技术炫技场
有些工程师写文档喜欢堆术语,仿佛在展示自己多厉害。记住,手册的目标是解决问题,不是考试。用大白话讲清楚比用专业词汇唬人有用得多。比如‘BGP邻居震荡’可以写成‘路由器之间的网络连接反复断开重连’。
定期回看,别让手册变废纸
再好的手册,半年不维护也会过时。建议每季度安排一次文档 review,删掉已经不用的流程,补上新系统的新方法。可以把它当成设备巡检的一部分,顺手就做了。
好的运维手册,不是应付检查的摆设,而是团队每个人的底气。规矩立得清楚,出了问题才不会乱阵脚。