日志排查可以从哪些线索开始

发表于2023-11-05|更新于2026-05-02|技术笔记

|浏览量:

日志排查不是从海量文本里碰运气，而是先确定时间、对象和现象，再逐步缩小范围。方法正确时，很多问题会变得清晰。

先确定时间窗口

排查问题时，最有价值的信息通常是“什么时候开始异常”。有了时间窗口，就可以避免从头翻日志。

常用思路：

用户反馈时间；
告警触发时间；
部署或配置变更时间；
指标开始波动时间。

时间窗口越小，排查效率越高。

区分错误与症状

日志里的第一条错误不一定是根因，最后一条错误也不一定最重要。需要区分根因和连锁反应。

例如连接失败可能导致大量业务异常，但真正要看的可能是更早的网络、认证或配置错误。

关注关键字段

常见关键字段包括：

请求路径；
状态码；
trace id；
用户代理；
耗时；
上游地址；
异常类型。

如果系统有 trace id，应优先沿着 trace id 串联上下游日志。

对比正常样本

只有异常日志时，很容易误判。找一条正常请求日志做对比，能快速发现差异，例如参数不同、状态码不同、耗时不同。

小结

日志排查的顺序可以是：确定时间窗口，定位异常对象，对比正常样本，再沿调用链追踪。这样比盲目搜索错误关键字更稳定。

文章作者: Bai

文章链接: https://zhangnai.xin/2023/11/05/log-troubleshooting/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xiaobai050！

相关推荐

Docker 镜像与容器的区别

Docker 入门时最容易混淆的是镜像和容器。简单说，镜像是静态模板，容器是镜像运行后的实例。镜像是分层文件系统镜像由多层只读层组成。Dockerfile 中的每一步通常都会形成一层。分层的好处是可以复用，也方便构建缓存。例如多个镜像都基于同一个基础镜像时，底层内容不需要重复下载。容器是运行实例容器基于镜像启动，并在只读镜像层之上增加一个可写层。程序运行时产生的临时文件、修改内容通常会落在这个可写层里。如果删除容器，这个可写层也会消失。因此需要持久化的数据应放到 volume 或绑定挂载中。镜像不应该保存运行状态镜像适合保存程序、依赖、默认配置，不适合保存运行过程中变化的数据。这样才能保证同一个镜像在不同环境中行为一致。构建与运行分离构建镜像时关注“如何得到可运行环境”，运行容器时关注“如何提供配置和数据”。这两个阶段分开后，升级、回滚和迁移都会更清晰。小结镜像像模板，容器像进程实例。镜像负责可重复分发，容器负责实际运行，数据持久化则应交给挂载或外部存储。