LLM 输出对比器
并排对比 2-4 个 LLM 输出,支持文本 / JSON 级 diff、指标统计、Markdown 渲染
Tokyo is the capital of Japan. It is the most populous metropolitan area in the world.
Tokyo is the capital city of Japan. Greater Tokyo is the world’s most populous metropolitan area.
| 指标 | GPT-4.1 | Claude 4.7 |
|---|---|---|
| Tokens(GPT-4.1) | — | — |
| 字符数 | 86 | 97 |
| 词数 | 16 | 17 |
| 句数 | 2 | 2 |
| 代码块 | 0 | 0 |
| 列表项 | 0 | 0 |
| Jaccard 相似度(对比第 1 列) | 1.00 | 0.69 |
| 包含拒答 | 否 | 否 |
| 可解析为 JSON | 否 | 否 |
以上指标只是表层统计(Token 数、词面重合度),不是质量排名——语义层面请自行判断。
常见问题
LLM 输出对比器是做什么的?
粘贴 2–4 个模型输出(GPT、Claude、Gemini、自训的微调模型),并排呈现,同时展示长度、相似度、diff 高亮。用来回答日常最头疼的问题:"改了 prompt X 或换成模型 Y,回答真的变好了吗?还是只是变得不一样?"
一次对比 2、3 还是 4 个?
- **2**:A/B 测试——老 prompt vs 新 prompt,或 GPT-4.1 vs Claude Opus 4.7 - **3**:加一个"对照组"——基础模型、现行 prompt、候选 prompt - **4**:多模型横向对比 超过 4 个很难一眼读完,此时更适合导出到表格结构化评测。
提供哪些指标?
每个输出显示:字符数、词数、近似 token 数、拒答检测(识别 "I cannot" / "抱歉,我无法" 等模式),以及所有输出之间的两两 Jaccard 相似度。针对 JSON 输出提供字段级 diff,直接告诉你是哪个 key 变了,而不是把整段标红。
JSON 级 diff 和文本 diff 有什么区别?
文本 diff 按字符比对,容易被 key 顺序、空白、尾逗号误伤。JSON diff 会先解析再按对象树比对,结果形如 "字段 `user.age` 由 30 变为 31",与格式无关。在对比 tool_call 输出或 function calling 返回时尤其有用。
数据会发到服务器吗?
不会。对比、分词、Markdown / JSON 渲染全部在浏览器本地完成。可以安心粘贴完整的客户对话或内部评测数据。
和 promptfoo、OpenAI Evals 有什么区别?
promptfoo、Evals 是批量评测框架——你定义数据集、断言、grader,跑上千条用例。本工具处在另一端:调试时只需人工对比 2–4 个具体输出。两者搭配使用——用本工具"肉眼定位问题",搞清楚要看什么之后再用 promptfoo 放大到批量跑。