Databricks TAO:让AI模型自我改进
核心发现:Databricks开发了一种名为Test-time Adaptive Optimization (TAO)的技术,可以让AI模型在不需要清洁标注数据的情况下自我改进性能。
技术原理
- Best-of-N方法:给定足够尝试,即使是弱模型也能在特定任务或基准测试中获得好成绩
- DBRM奖励模型:Databricks训练一个模型来预测人类测试者会偏好哪个最佳结果
- 合成训练数据:使用DBRM选择的最佳输出来创建合成训练数据,进一步微调模型
实验结果
- 在FinanceBench基准测试中:
- Llama 3.1B(小模型):68.4%
- OpenAI GPT-4o/o3-mini:82.1%
- 使用TAO后的Llama 3.1B:82.8% — 超越OpenAI模型!
行业意义
- 解决AI训练数据不足的核心问题
- 结合强化学习 + 合成数据的新范式
- 可扩展的数据标注和改进性能
- Nvidia已收购Gretel专注合成数据的公司
评价
"The general idea is very promising...lack of good training data is a big problem." — Christopher Amato, Northeastern University