# promptfooconfig.yaml prompts: - "请用中文总结以下内容：{{text}}" - "Summarize the following in Chinese: {{text}}" providers: - openai:gpt-4 - anthropic:claude-3-opus tests: - vars: text: "AI

Promptfoo - AI提示词批量评测工具

写 Prompt 全凭感觉？改来改去也不知道哪版更好

你是不是也是这样写 Prompt 的：先写一版 → 感觉不太对 → 改几个词 → 再试试 → 好像好一点 → 再改 → 但之前的版本效果到底怎样？不知道。

更让人头疼的是：同一个 Prompt 在 GPT-4 上表现很好，换到 Claude 上完全不行。或者你的 Prompt 在几十条测试里看起来不错，但一上线就翻车——因为你只试了 3 条用例，没覆盖到边界情况。

没有评测就没有优化方向。用感觉写 Prompt，本质是在撞大运。

评测结果一目了然

92%Prompt A
GPT-4 准确率

78%Prompt A
Claude 准确率

85%Prompt B
GPT-4 准确率

支持的评估维度

精确匹配
包含检查
LLM 评分
语义相似度
JSON 校验
正则匹配
自定义函数
成本统计

A/B 测试对比示例

Prompt A

Summarize the following text:

准确率 95% | 耗时 1.2s

Prompt B

Please provide a concise summary of the key points in this text:

准确率 82% | 耗时 1.5s

评测管线

📝 定义测试集

→

🔀 配置 Prompt 变体

→

🤖 选择模型

→

📊 批量评测

→

📈 对比报告

CI/CD 集成

Promptfoo 支持集成到 GitHub Actions / GitLab CI，每次修改 Prompt 后自动运行评测。如果质量低于阈值，CI 直接失败——保证每次上线的 Prompt 都是经过验证的。

CI 集成命令行 Web 界面

谁最需要

AI 应用开发者——批量对比不同 Prompt 效果，找到最佳组合
Prompt 工程师——用数据驱动优化，而不是凭感觉改词
QA 测试员——自动验证 AI 输出质量，回归测试
研究者——对比不同模型和 Prompt 策略的实验结果

🔐 付费内容：AI 提示词改来改去不知道哪版好？Promptfoo 批量评测找出最佳 Prompt

包含：安装与初始化、定义测试数据集、配置多 Prompt 对比、多模型联合评测、自定义评估指标、CI/CD 集成配置

此处内容已隐藏，请付费后查看

仅作整理分享版权归原作者所有，查看或者使用表示同意

点击查看协议

THE END

AI 工具推荐

AI 提示词改来改去不知道哪版好？Promptfoo 批量评测找出最佳 Prompt