Question 1

LLM Token 计数器是做什么的？

Accepted Answer

把你的 prompt 切成模型真正看到的 token 序列，用于预估 context window 占用和 API 调用花费。支持 GPT-4.1、Claude Opus 4.7、Gemini 2.5、Llama 3.3 并排对比，每个模型都用自家的分词器，而不是笼统按字符数估算。

Question 2

为什么同一段文字在 GPT、Claude、Gemini 下 token 数不一样？

Accepted Answer

OpenAI 使用 `o200k_base`（tiktoken），Anthropic 用自家 BPE，Gemini 基于 SentencePiece，Llama 3 走 `cl100k` 兼容。同一句话在不同模型下 token 数可能相差 10%–30%，中文、日文和代码尤其明显。只按字符数估算会在结算时踩坑。

Question 3

计数结果准不准？

Accepted Answer

OpenAI、Claude、Llama 都是精确值——官方分词器以 WebAssembly 形式在浏览器里直接跑。Gemini 是按 Google 公开的字符/token 比例估算，因其未开源分词器。最终计费请以 API 响应里的 `usage` 字段为准。

Question 4

会统计输出 token 吗？

Accepted Answer

不会。输出 token 只有等模型生成后才真正存在，任何"输出估算"本质都是猜测。工具只统计输入 token 和各厂商公布的"每 1M 输入 token 价格"，外加用户自行填写的预期输出长度来估算总价。

Question 5

我的 prompt 会被上传吗？

Accepted Answer

不会。分词全部通过 WebAssembly 在本地执行，不经过任何服务器。可以安心粘贴专有 prompt、客户数据或未发布的产品文案。

Question 6

做 prompt caching 规划时怎么用？

Accepted Answer

OpenAI 和 Anthropic 的 prompt caching 只对"完全复用的前缀"按低价计费。用计数器量化你的 system prompt（稳定前缀）和每次请求变化的部分——若可缓存前缀不到 ~1K token，引入缓存通常得不偿失。

LLM Token 计数器与成本估算

常见问题

相关工具

MCP 工具测试

JSON 格式化与验证

JSONPath 测试