Question 1

LLM 输出对比器是做什么的？

Accepted Answer

粘贴 2–4 个模型输出（GPT、Claude、Gemini、自训的微调模型），并排呈现，同时展示长度、相似度、diff 高亮。用来回答日常最头疼的问题："改了 prompt X 或换成模型 Y，回答真的变好了吗？还是只是变得不一样？"

Question 2

一次对比 2、3 还是 4 个？

Accepted Answer

- **2**：A/B 测试——老 prompt vs 新 prompt，或 GPT-4.1 vs Claude Opus 4.7
- **3**：加一个"对照组"——基础模型、现行 prompt、候选 prompt
- **4**：多模型横向对比

超过 4 个很难一眼读完，此时更适合导出到表格结构化评测。

Question 3

提供哪些指标？

Accepted Answer

每个输出显示：字符数、词数、近似 token 数、拒答检测（识别 "I cannot" / "抱歉，我无法" 等模式），以及所有输出之间的两两 Jaccard 相似度。针对 JSON 输出提供字段级 diff，直接告诉你是哪个 key 变了，而不是把整段标红。

Question 4

JSON 级 diff 和文本 diff 有什么区别？

Accepted Answer

文本 diff 按字符比对，容易被 key 顺序、空白、尾逗号误伤。JSON diff 会先解析再按对象树比对，结果形如 "字段 `user.age` 由 30 变为 31"，与格式无关。在对比 tool_call 输出或 function calling 返回时尤其有用。

Question 5

数据会发到服务器吗？

Accepted Answer

不会。对比、分词、Markdown / JSON 渲染全部在浏览器本地完成。可以安心粘贴完整的客户对话或内部评测数据。

Question 6

和 promptfoo、OpenAI Evals 有什么区别？

Accepted Answer

promptfoo、Evals 是批量评测框架——你定义数据集、断言、grader，跑上千条用例。本工具处在另一端：调试时只需人工对比 2–4 个具体输出。两者搭配使用——用本工具"肉眼定位问题"，搞清楚要看什么之后再用 promptfoo 放大到批量跑。

LLM 输出对比器

常见问题