Google Research: Testing LLMs on Superconductivity

研究背景

AI 在加速科学研究方面具有巨大潜力，但在专业领域提供科学准确和全面答案的有效性仍需研究。Google Research 与康奈尔大学合作，评估大语言模型能否回答高温超导体领域的专家级问题。

研究聚焦于 铜基超导体 (cuprates)，这是自 1987 年诺贝尔奖发现以来凝聚态物理学的开放性研究课题。

评估对象： 6 个 LLM：GPT-4o、Perplexity、Claude 3.5、Gemini Advanced Pro 1.5、Google NotebookLM、自定义 RAG 系统
数据来源： 4 个模型使用完整互联网访问；2 个封闭系统使用专家精选的 15 篇科学综述文章
评估方式： 6 位国际高温超导体专家编写 67 个问题，盲评模型答案
评估标准： 平衡视角、完整性、简洁性、证据、视觉相关性

            核心发现： 使用精选数据库的 NotebookLM 和自定义 RAG 系统表现最佳。网络来源的模型倾向于将 established theories 与高度 speculation 的理论混合。
        

🥇 Google NotebookLM 最佳

🥈 自定义 RAG 系统次佳

🥉 Gemini Advanced Pro 1.5 第三

GPT-4o 中等

Claude 3.5 中等

Perplexity 待改进

使用专家精选数据库的模型显著优于依赖开放网络的模型。网络数据倾向于混合 established theories 与 speculation。

LLM 经常无法识别假设何时被否定，遗漏未使用查询中精确语言的相关论文。

模型依赖图像 caption 而非视觉分析。增强图像、图表、刻度条的解释能力是未来改进方向。

可靠的 AI 研究伙伴可以帮助快速培养新研究生熟悉现有科学文献，作为随时可用的思维伙伴，帮助有经验的科学家识别新研究方向。

CMT-benchmark 将在 ICLR 2026 发表，作为更严格的 LLM 凝聚态理论评估。

← 返回洞察主页