研究背景
AI 在加速科学研究方面具有巨大潜力,但在专业领域提供科学准确和全面答案的有效性仍需研究。Google Research 与康奈尔大学合作,评估大语言模型能否回答高温超导体领域的专家级问题。
研究聚焦于 铜基超导体 (cuprates),这是自 1987 年诺贝尔奖发现以来凝聚态物理学的开放性研究课题。
实验设计
- 评估对象: 6 个 LLM:GPT-4o、Perplexity、Claude 3.5、Gemini Advanced Pro 1.5、Google NotebookLM、自定义 RAG 系统
- 数据来源: 4 个模型使用完整互联网访问;2 个封闭系统使用专家精选的 15 篇科学综述文章
- 评估方式: 6 位国际高温超导体专家编写 67 个问题,盲评模型答案
- 评估标准: 平衡视角、完整性、简洁性、证据、视觉相关性
核心发现: 使用精选数据库的 NotebookLM 和自定义 RAG 系统表现最佳。网络来源的模型倾向于将 established theories 与高度 speculation 的理论混合。
模型表现排名
🥇 Google NotebookLM
最佳
🥈 自定义 RAG 系统
次佳
🥉 Gemini Advanced Pro 1.5
第三
GPT-4o
中等
Claude 3.5
中等
Perplexity
待改进
关键发现
数据质量决定性能
使用专家精选数据库的模型显著优于依赖开放网络的模型。网络数据倾向于混合 established theories 与 speculation。
时间理解缺陷
LLM 经常无法识别假设何时被否定,遗漏未使用查询中精确语言的相关论文。
视觉推理不足
模型依赖图像 caption 而非视觉分析。增强图像、图表、刻度条的解释能力是未来改进方向。
研究意义
可靠的 AI 研究伙伴可以帮助快速培养新研究生熟悉现有科学文献,作为随时可用的思维伙伴,帮助有经验的科学家识别新研究方向。
CMT-benchmark 将在 ICLR 2026 发表,作为更严格的 LLM 凝聚态理论评估。