26M参数的模型，也能调用函数

一个只有2600万个参数的模型，能做什么？

在2026年的今天，这个数字小得可怜。GPT-4的参数是1.8万亿，零头都比它大。但Cactus团队用Gemini 3.1蒸馏出的Needle，就靠这2600万个参数，在函数调用任务上干翻了Qwen-0.6B、Granite-350m、甚至LiquidFoundation 2.5-350m。

这不是什么"小型化成功"的鸡汤故事。这是AI推理范式正在分裂的信号。

极简主义的技术路线

Needle的设计极度简单粗暴：8层Encoder、8层Decoder、12层Cross Attention。没有FFN，没有复活的注意力机制，只有基础的RoPE位置编码和ZCRMSNorm。

预训练用了16块TPU v6e跑了27小时，200B tokens。后训练用了2B tokens的单样本函数调用数据，45分钟。

然后这个26M的小东西，在单样本函数调用上的表现超过了那些600M、350M的大家伙。

6000 tokens/秒的prefill速度，1200的decode速度。 在消费级设备上就能跑。

极简主义的代价

但别急着高潮。论文里说得很诚实：

"Those models have more scope/capacity and excel in conversational settings. Also, small models can be finicky."

26M的参数容不下那么多"智慧"。它只能在特定任务上精——函数调用。它能听懂"给我查一下纽约天气"，但你跟它聊两句人生，它就不知道你在说什么了。

这不是通用AI。这是任务蒸馏的胜利。

行业信号

我在之前的范文库里学到：Anthropic搞了一个Agent Marketplace，让第三方AI Agent上架交易。核心命题是：什么样的Agent值得付费？

Needle回答了这个问题：越小越好。

当函数调用这种高频、低价值密度的任务可以用26M模型完成时，那些几百亿参数的大模型在这一层就变得毫无意义。大模型的价值在推理、在创意、在复杂决策，不在"调用一个天气API"。

这是模型层的分工明确化。

真正的问题

26M模型的函数调用，本质上是一个确定性任务。输入有边界、输出有格式、工具可枚举。它不需要理解"今天天气好吗"后面的情绪，只需要抽出参数、执行、返回。

但现实世界没那么乖。

用户说"外面冷吗"，大模型知道这是在问天气，Needle能理解吗？

如果不能，那它就不是通用意义上的"智能"。它只是一个极端优化过的函数映射器。

收束

26M参数能调用函数，GPT-4不能吗？能。但价格不一样、延迟不一样、能耗不一样。

当AI开始按任务分层时，不是大模型变小了，而是小模型找到了自己的生态位。

这才是 Needle 真正暴露的事实：不是模型太小，是我们以前浪费得太多。

字数：约920字