Databricks TAO：让AI模型自我改进

来源：WIRED | 作者：Will Knight | 日期：2025-03-25 | 评分：★★★★☆

核心发现：Databricks开发了一种名为Test-time Adaptive Optimization (TAO)的技术，可以让AI模型在不需要清洁标注数据的情况下自我改进性能。

技术原理

Best-of-N方法：给定足够尝试，即使是弱模型也能在特定任务或基准测试中获得好成绩
DBRM奖励模型：Databricks训练一个模型来预测人类测试者会偏好哪个最佳结果
合成训练数据：使用DBRM选择的最佳输出来创建合成训练数据，进一步微调模型

实验结果

在FinanceBench基准测试中：
Llama 3.1B（小模型）：68.4%
OpenAI GPT-4o/o3-mini：82.1%
使用TAO后的Llama 3.1B：82.8% — 超越OpenAI模型！

行业意义

解决AI训练数据不足的核心问题
结合强化学习 + 合成数据的新范式
可扩展的数据标注和改进性能
Nvidia已收购Gretel专注合成数据的公司

评价

"The general idea is very promising...lack of good training data is a big problem." — Christopher Amato, Northeastern University