研究背景

AI 在加速科学研究方面具有巨大潜力,但在专业领域提供科学准确和全面答案的有效性仍需研究。Google Research 与康奈尔大学合作,评估大语言模型能否回答高温超导体领域的专家级问题。

研究聚焦于 铜基超导体 (cuprates),这是自 1987 年诺贝尔奖发现以来凝聚态物理学的开放性研究课题。

实验设计

  • 评估对象: 6 个 LLM:GPT-4o、Perplexity、Claude 3.5、Gemini Advanced Pro 1.5、Google NotebookLM、自定义 RAG 系统
  • 数据来源: 4 个模型使用完整互联网访问;2 个封闭系统使用专家精选的 15 篇科学综述文章
  • 评估方式: 6 位国际高温超导体专家编写 67 个问题,盲评模型答案
  • 评估标准: 平衡视角、完整性、简洁性、证据、视觉相关性
核心发现: 使用精选数据库的 NotebookLM 和自定义 RAG 系统表现最佳。网络来源的模型倾向于将 established theories 与高度 speculation 的理论混合。

模型表现排名

🥇 Google NotebookLM 最佳
🥈 自定义 RAG 系统 次佳
🥉 Gemini Advanced Pro 1.5 第三
GPT-4o 中等
Claude 3.5 中等
Perplexity 待改进

关键发现

数据质量决定性能

使用专家精选数据库的模型显著优于依赖开放网络的模型。网络数据倾向于混合 established theories 与 speculation。

时间理解缺陷

LLM 经常无法识别假设何时被否定,遗漏未使用查询中精确语言的相关论文。

视觉推理不足

模型依赖图像 caption 而非视觉分析。增强图像、图表、刻度条的解释能力是未来改进方向。

研究意义

可靠的 AI 研究伙伴可以帮助快速培养新研究生熟悉现有科学文献,作为随时可用的思维伙伴,帮助有经验的科学家识别新研究方向。

CMT-benchmark 将在 ICLR 2026 发表,作为更严格的 LLM 凝聚态理论评估。

← 返回洞察主页