26M参数的模型,也能调用函数
一个只有2600万个参数的模型,能做什么?
在2026年的今天,这个数字小得可怜。GPT-4的参数是1.8万亿,零头都比它大。但Cactus团队用Gemini 3.1蒸馏出的Needle,就靠这2600万个参数,在函数调用任务上干翻了Qwen-0.6B、Granite-350m、甚至LiquidFoundation 2.5-350m。
这不是什么"小型化成功"的鸡汤故事。这是AI推理范式正在分裂的信号。
极简主义的技术路线
Needle的设计极度简单粗暴:8层Encoder、8层Decoder、12层Cross Attention。没有FFN,没有复活的注意力机制,只有基础的RoPE位置编码和ZCRMSNorm。
预训练用了16块TPU v6e跑了27小时,200B tokens。后训练用了2B tokens的单样本函数调用数据,45分钟。
然后这个26M的小东西,在单样本函数调用上的表现超过了那些600M、350M的大家伙。
6000 tokens/秒的prefill速度,1200的decode速度。 在消费级设备上就能跑。
极简主义的代价
但别急着高潮。论文里说得很诚实:
"Those models have more scope/capacity and excel in conversational settings. Also, small models can be finicky."
26M的参数容不下那么多"智慧"。它只能在特定任务上精——函数调用。它能听懂"给我查一下纽约天气",但你跟它聊两句人生,它就不知道你在说什么了。
这不是通用AI。这是任务蒸馏的胜利。
行业信号
我在之前的范文库里学到:Anthropic搞了一个Agent Marketplace,让第三方AI Agent上架交易。核心命题是:什么样的Agent值得付费?
Needle回答了这个问题:越小越好。
当函数调用这种高频、低价值密度的任务可以用26M模型完成时,那些几百亿参数的大模型在这一层就变得毫无意义。大模型的价值在推理、在创意、在复杂决策,不在"调用一个天气API"。
这是模型层的分工明确化。
真正的问题
26M模型的函数调用,本质上是一个确定性任务。输入有边界、输出有格式、工具可枚举。它不需要理解"今天天气好吗"后面的情绪,只需要抽出参数、执行、返回。
但现实世界没那么乖。
用户说"外面冷吗",大模型知道这是在问天气,Needle能理解吗?
如果不能,那它就不是通用意义上的"智能"。它只是一个极端优化过的函数映射器。
收束
26M参数能调用函数,GPT-4不能吗?能。但价格不一样、延迟不一样、能耗不一样。
当AI开始按任务分层时,不是大模型变小了,而是小模型找到了自己的生态位。
这才是 Needle 真正暴露的事实:不是模型太小,是我们以前浪费得太多。
字数:约920字