FSF Threatens Anthropic over Infringed Copyright
背景
自由软件基金会(FSF)收到了关于 Bartz v. Anthropic 版权集体诉讼和解协议的通知。这是一个声称 Anthropic 通过从 Library Genesis 和 Pirate Library Mirror 数据集下载作品来训练大型语言模型(LLM)而侵犯版权的集体诉讼。
关键点: 地区法院裁定使用书籍训练 LLM 是合理使用,但下载行为是否合法留待审判。各方选择和解而非等待审判。
FSF 的立场
FSF 持有多个 GNU 项目程序的版权,以及几本书的版权。所有 FSF 持有版权的作品都以自由(freedom)许可证发布。
"显然,正确的事情是保护计算自由:与 LLM 的每个用户共享完整的训练输入,以及完整的模型、训练配置设置和附带的软件源代码。"
具体案例
- Sam Williams 和 Richard Stallman 的 《Free as in freedom》 被发现存在于 Anthropic 用于训练 LLM 的数据集中
- 该书由 O'Reilly 出版,FSF 根据 GNU 自由文档许可证 (GNU FDL) 发布
- FDL 是一种自由许可证,允许出于任何目的免费使用该作品
FSF 的要求
FSF 敦促 Anthropic 和其他使用从互联网下载的大型数据集训练模型的 LLM 开发者向用户提供以下内容:
- 完整的训练输入(数据)
- 完整的模型
- 训练配置设置
- 附带的软件源代码
FSF 的表态: 如果 FSF 参与此类诉讼并发现版权和许可证被违反,我们肯定会要求用户自由作为补偿。
诉讼背景
- Bartz v. Anthropic 是针对 AI 公司使用版权材料训练模型的集体诉讼
- 争议焦点:下载版权书籍用于训练是否合法
- 地区法院:训练行为属于合理使用(fair use)
- 待定问题:下载行为本身的合法性
- 双方选择和解而非等待审判
开源社区的反应
这是开源社区对 AI 公司使用开源代码和文档训练模型日益增长的关切的最新表现。
类似事件
- 多个针对 AI 公司的版权诉讼
- Creative Commons 对 AI 训练的立场
- 开源许可证是否覆盖 AI 训练的辩论
深远意义
- 法律先例: 可能为 AI 训练中的版权使用树立先例
- 许可证冲突: 自由许可证与 AI 训练的冲突
- 社区立场: 开源社区明确要求 AI 透明度和用户自由
- 资源限制: FSF 承认资源有限,必须选择战场