【“token”到底是个啥?】最近几天,不少人第一次在许多媒体里看见了“toke

谷枫科普 2026-03-26 18:07:51

【“token”到底是个啥?】最近几天,不少人第一次在许多媒体里看见了“token”这个词。这个听起来像是AI时代的“货币”单位的词元,到底是什么?

很多人以为自己只是在和 AI 聊天,实际上在模型眼里,这整个过程都在围绕词元展开。token,也就是词元,是大模型处理语言时使用的基本单位。它不是整句话,也不总是一个完整的词,更不等于字数。

我们看见的是一段完整表达,而模型接收到的却是一连串被切开的信息小块。很多人一看到“词元”这个中文译名,就会把它理解成“词”。但词元并不严格等于语文书里的“词”,它是机器为了处理语言而切分出来的一种计算单位。

有时候,一个词元可能只是一个字符;有时候,它可能是一整个常见词;还有时候,它只是一个词的一部分。空格、标点、前后搭配,都会影响切分结果。

你不能把 token 简单换算成“多少个字”或者“多少个词”。同一句话,换一个模型,词元数量可能就变了。因为不同模型背后的 tokenizer,也就是词元切分器,并不完全相同。人类共享的是语言,模型共享的却未必是同一套切法。(中科院物理所)中国科普博览

0 阅读:0
谷枫科普

谷枫科普

感谢大家的关注