IEEE Spectrum

Google's Foundation Model Decodes Whale and Bird Calls

来源: IEEE Spectrum · 发布日期: 2026-03-23

摘要: Google DeepMind的Perch 2.0 AI模型通过迁移学习同时识别鸟类和鲸类声音,展示了AI在生物声学领域的跨领域应用潜力。

核心亮点

  • 迁移学习突破: Perch 2.0原本训练用于识别鸟类叫声,但成功迁移到鲸类声音识别,只需4-32个嵌入向量即可训练有效的分类器
  • 跨物种适用性: 虎鲸哨声与鸟类叫声在同一频谱范围内,模型对低频声音的敏感性使其在水中同样有效
  • 计算效率: 迁移学习"回收"大部分训练,只需为特定用例训练小模型,无需构建全新鲸鱼模型
  • 十年积累: 研究团队来自Google DeepMind和Google Research,近十年工作积累,包括检测座头鲸叫声和识别八个鲸鱼物种

技术原理

团队将每段五秒音频转换为频谱图,喂给模型生成嵌入向量,然后用逻辑回归分类器进行预测。即使只用少量嵌入,分类器也能表现出色。

核心洞察

"如果我们不必构建全新的鲸鱼模型,可以直接在上面构建" — Lauren Harrell, Google Research数据科学家

原文链接