IEEE Spectrum
Google's Foundation Model Decodes Whale and Bird Calls
摘要: Google DeepMind的Perch 2.0 AI模型通过迁移学习同时识别鸟类和鲸类声音,展示了AI在生物声学领域的跨领域应用潜力。
核心亮点
- 迁移学习突破: Perch 2.0原本训练用于识别鸟类叫声,但成功迁移到鲸类声音识别,只需4-32个嵌入向量即可训练有效的分类器
- 跨物种适用性: 虎鲸哨声与鸟类叫声在同一频谱范围内,模型对低频声音的敏感性使其在水中同样有效
- 计算效率: 迁移学习"回收"大部分训练,只需为特定用例训练小模型,无需构建全新鲸鱼模型
- 十年积累: 研究团队来自Google DeepMind和Google Research,近十年工作积累,包括检测座头鲸叫声和识别八个鲸鱼物种
技术原理
团队将每段五秒音频转换为频谱图,喂给模型生成嵌入向量,然后用逻辑回归分类器进行预测。即使只用少量嵌入,分类器也能表现出色。
核心洞察
"如果我们不必构建全新的鲸鱼模型,可以直接在上面构建" — Lauren Harrell, Google Research数据科学家