DevToolkit

LLM Token 计数器与成本估算

跨 GPT / Claude / Gemini / Llama 统计 token 数并估算调用成本

0.0 KB / 100 KB
价格更新时间:2026-04-20

开始输入即可看到 Token 计数。文本在服务器端处理,不会被持久化。

分词在服务器端运行。您的文本不会被记录、存储或用于训练。

常见问题

LLM Token 计数器是做什么的?

把你的 prompt 切成模型真正看到的 token 序列,用于预估 context window 占用和 API 调用花费。支持 GPT-4.1、Claude Opus 4.7、Gemini 2.5、Llama 3.3 并排对比,每个模型都用自家的分词器,而不是笼统按字符数估算。

为什么同一段文字在 GPT、Claude、Gemini 下 token 数不一样?

OpenAI 使用 `o200k_base`(tiktoken),Anthropic 用自家 BPE,Gemini 基于 SentencePiece,Llama 3 走 `cl100k` 兼容。同一句话在不同模型下 token 数可能相差 10%–30%,中文、日文和代码尤其明显。只按字符数估算会在结算时踩坑。

计数结果准不准?

OpenAI、Claude、Llama 都是精确值——官方分词器以 WebAssembly 形式在浏览器里直接跑。Gemini 是按 Google 公开的字符/token 比例估算,因其未开源分词器。最终计费请以 API 响应里的 `usage` 字段为准。

会统计输出 token 吗?

不会。输出 token 只有等模型生成后才真正存在,任何"输出估算"本质都是猜测。工具只统计输入 token 和各厂商公布的"每 1M 输入 token 价格",外加用户自行填写的预期输出长度来估算总价。

我的 prompt 会被上传吗?

不会。分词全部通过 WebAssembly 在本地执行,不经过任何服务器。可以安心粘贴专有 prompt、客户数据或未发布的产品文案。

做 prompt caching 规划时怎么用?

OpenAI 和 Anthropic 的 prompt caching 只对"完全复用的前缀"按低价计费。用计数器量化你的 system prompt(稳定前缀)和每次请求变化的部分——若可缓存前缀不到 ~1K token,引入缓存通常得不偿失。

相关工具