Agent 使用工具后为什么要验证
Agent 能调用工具后,能力边界会明显扩大。但工具调用本身并不等于任务完成,真正可靠的流程需要在调用后验证结果。
动作和结果不是一回事
执行了命令、发送了请求、写入了文件,只能说明动作发生过。任务是否成功,还要看目标状态是否达到。
例如构建命令执行完,不代表产物一定正确;接口返回成功,也不代表页面真的可访问。验证步骤就是为了确认结果。
验证应该尽量贴近目标
如果目标是生成文件,验证文件是否存在只是最低要求,还应检查内容格式。若目标是发布页面,验证首页可访问还不够,关键页面和静态资源也应检查。
验证越贴近用户目标,结论越可靠。
小验证优于无验证
有时完整测试成本很高,但仍然可以做最小验证。例如:
- 检查退出码;
- 检查关键文本;
- 访问健康检查接口;
- 运行一条核心用例;
- 对比变更前后状态。
这些验证不一定覆盖全部问题,但能避免很多明显错误。
失败要明确暴露
验证失败时,Agent 不应该把结果包装成成功。更好的做法是说明已经完成哪些步骤、在哪一步验证失败、下一步需要什么信息或权限。
小结
工具调用让 Agent 可以行动,验证让行动变得可信。没有验证的自动化流程,很容易停留在“看起来做了”的状态。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xiaobai050!