DevToolkit

LLM 输出对比器

并排对比 2-4 个 LLM 输出,支持文本 / JSON 级 diff、指标统计、Markdown 渲染

#1

Tokyo is the capital of Japan. It is the most populous metropolitan area in the world.

#2

Tokyo is the capital city of Japan. Greater Tokyo is the world’s most populous metropolitan area.

指标GPT-4.1Claude 4.7
Tokens(GPT-4.1)
字符数8697
词数1617
句数22
代码块00
列表项00
Jaccard 相似度(对比第 1 列)1.000.69
包含拒答
可解析为 JSON

以上指标只是表层统计(Token 数、词面重合度),不是质量排名——语义层面请自行判断。

常见问题

LLM 输出对比器是做什么的?

粘贴 2–4 个模型输出(GPT、Claude、Gemini、自训的微调模型),并排呈现,同时展示长度、相似度、diff 高亮。用来回答日常最头疼的问题:"改了 prompt X 或换成模型 Y,回答真的变好了吗?还是只是变得不一样?"

一次对比 2、3 还是 4 个?

- **2**:A/B 测试——老 prompt vs 新 prompt,或 GPT-4.1 vs Claude Opus 4.7 - **3**:加一个"对照组"——基础模型、现行 prompt、候选 prompt - **4**:多模型横向对比 超过 4 个很难一眼读完,此时更适合导出到表格结构化评测。

提供哪些指标?

每个输出显示:字符数、词数、近似 token 数、拒答检测(识别 "I cannot" / "抱歉,我无法" 等模式),以及所有输出之间的两两 Jaccard 相似度。针对 JSON 输出提供字段级 diff,直接告诉你是哪个 key 变了,而不是把整段标红。

JSON 级 diff 和文本 diff 有什么区别?

文本 diff 按字符比对,容易被 key 顺序、空白、尾逗号误伤。JSON diff 会先解析再按对象树比对,结果形如 "字段 `user.age` 由 30 变为 31",与格式无关。在对比 tool_call 输出或 function calling 返回时尤其有用。

数据会发到服务器吗?

不会。对比、分词、Markdown / JSON 渲染全部在浏览器本地完成。可以安心粘贴完整的客户对话或内部评测数据。

和 promptfoo、OpenAI Evals 有什么区别?

promptfoo、Evals 是批量评测框架——你定义数据集、断言、grader,跑上千条用例。本工具处在另一端:调试时只需人工对比 2–4 个具体输出。两者搭配使用——用本工具"肉眼定位问题",搞清楚要看什么之后再用 promptfoo 放大到批量跑。

相关工具