Agent 能调用工具后,能力边界会明显扩大。但工具调用本身并不等于任务完成,真正可靠的流程需要在调用后验证结果。

动作和结果不是一回事

执行了命令、发送了请求、写入了文件,只能说明动作发生过。任务是否成功,还要看目标状态是否达到。

例如构建命令执行完,不代表产物一定正确;接口返回成功,也不代表页面真的可访问。验证步骤就是为了确认结果。

验证应该尽量贴近目标

如果目标是生成文件,验证文件是否存在只是最低要求,还应检查内容格式。若目标是发布页面,验证首页可访问还不够,关键页面和静态资源也应检查。

验证越贴近用户目标,结论越可靠。

小验证优于无验证

有时完整测试成本很高,但仍然可以做最小验证。例如:

  • 检查退出码;
  • 检查关键文本;
  • 访问健康检查接口;
  • 运行一条核心用例;
  • 对比变更前后状态。

这些验证不一定覆盖全部问题,但能避免很多明显错误。

失败要明确暴露

验证失败时,Agent 不应该把结果包装成成功。更好的做法是说明已经完成哪些步骤、在哪一步验证失败、下一步需要什么信息或权限。

小结

工具调用让 Agent 可以行动,验证让行动变得可信。没有验证的自动化流程,很容易停留在“看起来做了”的状态。