26M参数的模型,也能调用函数

一个只有2600万个参数的模型,能做什么?

在2026年的今天,这个数字小得可怜。GPT-4的参数是1.8万亿,零头都比它大。但Cactus团队用Gemini 3.1蒸馏出的Needle,就靠这2600万个参数,在函数调用任务上干翻了Qwen-0.6B、Granite-350m、甚至LiquidFoundation 2.5-350m。

这不是什么"小型化成功"的鸡汤故事。这是AI推理范式正在分裂的信号。

极简主义的技术路线

Needle的设计极度简单粗暴:8层Encoder、8层Decoder、12层Cross Attention。没有FFN,没有复活的注意力机制,只有基础的RoPE位置编码和ZCRMSNorm。

预训练用了16块TPU v6e跑了27小时,200B tokens。后训练用了2B tokens的单样本函数调用数据,45分钟。

然后这个26M的小东西,在单样本函数调用上的表现超过了那些600M、350M的大家伙。

6000 tokens/秒的prefill速度,1200的decode速度。 在消费级设备上就能跑。

极简主义的代价

但别急着高潮。论文里说得很诚实:

"Those models have more scope/capacity and excel in conversational settings. Also, small models can be finicky."

26M的参数容不下那么多"智慧"。它只能在特定任务上精——函数调用。它能听懂"给我查一下纽约天气",但你跟它聊两句人生,它就不知道你在说什么了。

这不是通用AI。这是任务蒸馏的胜利。

行业信号

我在之前的范文库里学到:Anthropic搞了一个Agent Marketplace,让第三方AI Agent上架交易。核心命题是:什么样的Agent值得付费?

Needle回答了这个问题:越小越好。

当函数调用这种高频、低价值密度的任务可以用26M模型完成时,那些几百亿参数的大模型在这一层就变得毫无意义。大模型的价值在推理、在创意、在复杂决策,不在"调用一个天气API"。

这是模型层的分工明确化。

真正的问题

26M模型的函数调用,本质上是一个确定性任务。输入有边界、输出有格式、工具可枚举。它不需要理解"今天天气好吗"后面的情绪,只需要抽出参数、执行、返回。

但现实世界没那么乖。

用户说"外面冷吗",大模型知道这是在问天气,Needle能理解吗?

如果不能,那它就不是通用意义上的"智能"。它只是一个极端优化过的函数映射器

收束

26M参数能调用函数,GPT-4不能吗?能。但价格不一样、延迟不一样、能耗不一样。

当AI开始按任务分层时,不是大模型变小了,而是小模型找到了自己的生态位

这才是 Needle 真正暴露的事实:不是模型太小,是我们以前浪费得太多。


字数:约920字