日志排查可以从哪些线索开始
日志排查不是从海量文本里碰运气,而是先确定时间、对象和现象,再逐步缩小范围。方法正确时,很多问题会变得清晰。
先确定时间窗口
排查问题时,最有价值的信息通常是“什么时候开始异常”。有了时间窗口,就可以避免从头翻日志。
常用思路:
- 用户反馈时间;
- 告警触发时间;
- 部署或配置变更时间;
- 指标开始波动时间。
时间窗口越小,排查效率越高。
区分错误与症状
日志里的第一条错误不一定是根因,最后一条错误也不一定最重要。需要区分根因和连锁反应。
例如连接失败可能导致大量业务异常,但真正要看的可能是更早的网络、认证或配置错误。
关注关键字段
常见关键字段包括:
- 请求路径;
- 状态码;
- trace id;
- 用户代理;
- 耗时;
- 上游地址;
- 异常类型。
如果系统有 trace id,应优先沿着 trace id 串联上下游日志。
对比正常样本
只有异常日志时,很容易误判。找一条正常请求日志做对比,能快速发现差异,例如参数不同、状态码不同、耗时不同。
小结
日志排查的顺序可以是:确定时间窗口,定位异常对象,对比正常样本,再沿调用链追踪。这样比盲目搜索错误关键字更稳定。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xiaobai050!