Promptfoo 评测
一款用于提示词和模型的开源测试与评估框架,设计用于集成到 CI/CD 和对比工作流中。
88
RB
Runar BrøsteFounder & Editor
AI tools researcher and reviewer更新于 2026年3月
本周已更新编辑推荐免费版
最适合
- 认真对待 AI 测试规范的团队
- 对比提示词和提供商的开发者
- 将评估集成到发布工作流中的组织
不适合的情况…
- 只想要聊天输出而不需要测试严格性的用户
- 不愿意定义评估标准的团队
- 非技术性买家
什么是 Promptfoo?
Promptfoo 是一个用于系统性测试和评估 LLM 输出的开源框架。它允许您定义测试用例,对多个提示词和模型运行这些测试,并以结构化方式比较结果,而不是依赖手动抽查。
该工具解决了每个使用 LLM 构建的团队最终都会遇到的问题:如何知道提示词的更改是否真的改善了效果?没有系统性评估,提示词工程就成了猜谜。Promptfoo 提供了测试基础设施来用数据回答这个问题。
Promptfoo 作为 CLI 工具在本地运行,并生成基于 Web 的对比界面来审查结果。它支持所有主要 LLM 提供商,可以对本地模型进行测试,并集成到 CI/CD 流水线中,在每次代码更改时自动进行评估。
核心功能:评估配置、红队测试和 CI/CD 集成
评估配置在 YAML 文件中定义,指定提示词、提供商(模型)、测试用例和断言。断言可以检查精确匹配、子字符串存在、JSON 结构、语义相似性或自定义 JavaScript 函数。这种声明式方法使测试具有可复现性并可进行版本控制。
红队测试功能帮助您探测 LLM 应用程序的漏洞。Promptfoo 可以自动生成旨在触发越狱、有害输出、数据泄露或其他失败模式的对抗性输入。随着 AI 应用程序处理敏感数据并面临监管审查,这一点变得越来越重要。
CI/CD 集成意味着当提示词或代码更改时,评估会自动运行。您定义通过/失败阈值,如果质量低于您的标准,流水线会阻止部署。这在生产中捕获回归,而不是在用户报告问题之后。
测试工作流
典型的工作流从定义 promptfoo 配置文件开始,该文件列出您的提示词、要测试的模型以及一组具有预期行为的测试用例。测试用例可以简单到检查响应是否包含某些关键词,也可以复杂到使用 LLM 评判器在多个维度上评估质量。
您从命令行运行评估,Promptfoo 对所有提示词-模型组合执行所有测试用例。结果显示在对比表中,并排显示输出、每个断言的通过/失败状态和汇总分数。
对于迭代式提示词开发,这个反馈循环很快。您修改提示词,重新运行评估,立即看到更改如何影响整个测试套件的质量。这比手动测试提示词并试图记住之前版本的表现要高效得多。
谁应该使用 Promptfoo?
构建生产应用程序 LLM 驱动功能的团队受益最大。如果您正在向真实用户发布 AI 功能,您需要一种在部署前验证质量并在之后捕获回归的方法。Promptfoo 提供了这种规范。
对比模型或提供商的 AI 工程师可以使用 Promptfoo 运行结构化对比。与其手动测试几个示例,不如对多个模型运行相同的测试套件,获得量化结果来指导切换决策。
注重安全的组织可以使用红队测试功能审计其 AI 应用程序的漏洞。在某些行业,这正成为合规要求,在所有地方都是最佳实践。
价格:免费开源加云选项
开源 CLI 是免费的,可在本地处理完整的评估工作流。开源版本没有使用限制、账户要求或功能限制。
Promptfoo 为希望共享评估历史、协作功能和托管界面的团队提供云平台。云定价未显著列出,对于较大的团队似乎基于使用量收费。
运行评估的成本主要来自测试中涉及的 LLM API 调用。以每个测试用例平均 500 个 token 对 3 个模型运行 100 个测试用例的成本大约在 $1-5 之间,具体取决于所用模型。对于大多数团队来说,这与将有缺陷的提示词发布到生产中的成本相比微不足道。
Promptfoo 与手动测试和 Braintrust 的比较
与大多数团队实际采用的手动测试相比,Promptfoo 提供了结构、可重复性和自动化。手动测试往往只覆盖正常路径,会遗漏边缘情况。维护良好的 Promptfoo 测试套件会系统性地覆盖您已考虑到的情况,并可随着发现新的失败模式而扩展。
Braintrust 是最接近的商业竞争对手,提供类似的评估功能,但更注重协作和分析方面。Braintrust 拥有精美的界面和托管基础设施。Promptfoo 的优势在于完全开源、本地运行以及强大的 CLI/CI/CD 人体工程学。
对于已经为其代码使用测试框架的团队,Promptfoo 感觉很自然。它将自动化测试的相同规范带到提示词和模型层,使用熟悉的断言、测试套件和 CI 集成模式。
总结
Promptfoo 提出了一个有说服力的论点:LLM 测试应该像软件测试一样系统化。该工具实用、设计良好,解决了随着 AI 应用程序成熟而变得更加痛苦的问题。
采用的最大障碍不是工具本身,而是它所需要的规范。您需要定义您的用例中什么是好的结果,编写测试用例,并随着应用程序的发展而维护它们。愿意在这种规范上投入的团队将发布更好的 AI 功能。
对于任何因提示词更改导致生产质量下降而受到损害的团队,Promptfoo 就是答案。它将提示词工程从一门艺术转变为更接近工程的事物。
定价
开源核心;在自己的工作流中运行免费。
Free提供免费版
优点
- 非常适合有规律的提示词测试
- 与 CI/CD 集成良好
- 跨提供商对比功能很有价值
- 有效防止基于直觉发布的安全保障
缺点
- 需要明确的评估设计才能发挥作用
- 不是面向最终用户的工具
- 在 AI 应用成熟之前可能感觉比较抽象
平台
macwindowslinuxapi
最后验证: 2026年3月29日