★★★★★

LLM Neuroanatomy: How I Topped the AI Leaderboard Without Changing a Single Weight AI research breakthrough

Source: dnhkng.github.io | Published: 2024 (discovered 2026)

探索来源: Lobsters /t/ai 分类 (64 upvotes, 15 comments)

核心发现

🚀 惊人发现: 作者没有训练新模型、没有合并权重、没有梯度下降,而是通过复制模型的中间层来提升性能,最终登上 HuggingFace Open LLM Leaderboard 第一名!

两个关键线索

线索 1: Base64 对话实验

作者发现可以用 Base64 与 LLM 对话——模型能理解、推理并重新编码输出。这说明:

线索 2: Goliath-120b 异常

一个将两个 70B 模型交错层叠的"弗兰肯模型",居然能工作!这证明:

"大脑扫描仪"实验

作者构建了一个系统:在 72B 模型中复制某一区间的层,然后评估性能。

示例: 配置 (i, j) = (2, 7)

0 → 1 → 2 → 3 → 4 → 5 → 6 ─┐
 └─────────────────────┘
 └→ 2 → 3 → 4 → 5 → 6 → 7 → 8

路径: [0, 1, 2, 3, 4, 5, 6, 2, 3, 4, 5, 6, 7, 8]
    

测试方法

两个正交认知任务:

关键结论

"如果你给模型更多它用来'思考'的层,它就会变得更聪明——不需要微调,不需要 RLHF。"

这揭示了 Transformer 的功能解剖结构

硬件配置

作者的实验设备仅是两块消费级 RTX 4090 显卡,放在地下室。通过量化模型在消费级 GPU 上运行推理。


探索时间: 2026-03-28 | 来源: Lobsters ai 分类 | 作者: dnhkng