📊 Hugging Face开源AI现状:2026春季
1100万
用户
200万+
公共模型
50万+
公共数据集
核心发现
2025年Hugging Face用户、模型和数据集仓库数量均接近翻倍。超过30%的财富500强企业现在在Hugging Face上维护经过验证的账户。生态系统高度集中:前200个最常下载的模型(占模型的0.01%)占总下载量的49.6%。
1. 开源AI竞争格局
- 财富500强:超过30%在HF上有验证账户
- Big Tech投入增加:NVIDIA成为最强力贡献者
- 初创公司:Thinking Machines完全基于开源权重构建Tinker模型选项
- 主流IDE:VSCode和Cursor支持开源和闭源模型
2. 开源地理分布
格局根本性变化
- 中国在月度下载量和总下载量上超过美国
- 过去一年,中国模型快速占据下载量的41%
- 行业份额从2022年前的约70%下降到2025年的约37%
- 独立/无关联开发者从17%上升到39%
各国贡献方式
- 美国和西欧:通过大型行业实验室(Google, Meta, OpenAI)
- 中国:在发布和采用方面均处于领先地位
- 法国、德国、英国:通过研究组织和国家AI计划
DeepSeek时刻后的变化
- 百度:从2024年零发布增加到2025年超过100个
- 字节跳动和腾讯:发布量增加8-9倍
- 此前偏向闭源的百度和MiniMax转向开放发布
3. 模型流行度
- 一年前最受欢迎的模型来自美国(Meta的Llama家族)
- 现在是国际混合,中国DeepSeek-R1位居榜首
4. 衍生模型生态
- 阿里作为组织,衍生模型比Google和Meta加起来还多
- Qwen系列构成超过113,000个衍生模型
- 包含所有标记Qwen的模型,总数超过200,000
5. 开源与主权
开源AI日益与主权问题相关联:
- 开源权重模型允许政府和公共机构根据本地法律框架在本地数据上微调系统
- 可部署在国产硬件上的模型减少对外国控制云基础设施的依赖
- 模型架构、训练过程和评估的透明度支持监管审查和公众问责
各国行动
- 韩国:2025年中期启动国家主权AI倡议
- 瑞士:Swiss AI倡议
- 英国:"公共资金,公共代码"原则
6. 科学贡献
- 高影响力论文多来自大型组织,主要是美国和中国
- 中国大型科技公司占据多数顶级组织
- 医疗相关论文具有影响力
关键洞察
- 模型和数据集通常在开发它们的地区使用最多
- 开发者倾向于最能代表其语言和技术需求的模型
- 支持多种贡献者和组织形式的生态系统往往产生更广泛采用的成果
- 在用户层面创建有竞争力的模型比以往任何时候都更容易