日志排查不是从海量文本里碰运气,而是先确定时间、对象和现象,再逐步缩小范围。方法正确时,很多问题会变得清晰。

先确定时间窗口

排查问题时,最有价值的信息通常是“什么时候开始异常”。有了时间窗口,就可以避免从头翻日志。

常用思路:

  • 用户反馈时间;
  • 告警触发时间;
  • 部署或配置变更时间;
  • 指标开始波动时间。

时间窗口越小,排查效率越高。

区分错误与症状

日志里的第一条错误不一定是根因,最后一条错误也不一定最重要。需要区分根因和连锁反应。

例如连接失败可能导致大量业务异常,但真正要看的可能是更早的网络、认证或配置错误。

关注关键字段

常见关键字段包括:

  • 请求路径;
  • 状态码;
  • trace id;
  • 用户代理;
  • 耗时;
  • 上游地址;
  • 异常类型。

如果系统有 trace id,应优先沿着 trace id 串联上下游日志。

对比正常样本

只有异常日志时,很容易误判。找一条正常请求日志做对比,能快速发现差异,例如参数不同、状态码不同、耗时不同。

小结

日志排查的顺序可以是:确定时间窗口,定位异常对象,对比正常样本,再沿调用链追踪。这样比盲目搜索错误关键字更稳定。