2026-03-18
The 2025 AI Engineering Reading List
来源: latent.space/p/2025-papers
发布者: Latent Space (174k+ 订阅者)
发布者: Latent Space (174k+ 订阅者)
核心内容:
- 50篇必读AI论文系统分类,实用导向
- 10个主题分类,每个5篇核心论文
- 不浪费AI工程师时间的精选清单
- 2025年重点:推理模型 (o1, o3, R1, QwQ)
📚 十大主题分类
1. Frontier LLMs (前沿大语言模型)
GPT系列、Claude系列、Gemini系列、LLaMA系列、DeepSeek系列
重点: 了解前沿实验室的模型发展路线
2. Benchmarks and Evals (基准测试)
MMLU、GPQA、BIG-Bench、MRCR、MATH、IFEval、ARC AGI
洞见: 基准测试正在快速饱和,需要新方法
3. Prompting, ICL & Chain of Thought
The Prompt Report、Chain-of-Thought、Tree of Thought、Prompt Tuning、DSPy
洞见: 人类不擅长零样本提示,自动化提示工程越来越重要
4. Retrieval Augmented Generation (RAG)
Meta RAG、HyDE、chunking、rerankers、GraphRAG、RAGAS
洞见: RAG是AI工程的基石,需要掌握IR基础(TF-IDF、BM25、FAISS、HNSW)
5. Agents (代理)
SWE-Bench、ReAct、Gorilla、Toolformer、HuggingGPT
重点: AI编码代理的核心基准和技术
6. Code Generation (代码生成)
Codex、SWEBench、SWE-Lancer、Devin
趋势: 编程基准正在从测试LLM转向测试代理能力
7. Vision (视觉)
Segment Anything、IDEFICS、Pixtral
8. Voice (语音)
Whisper、音频理解与生成模型
9. Image/Video Diffusion (图像/视频扩散)
Stable Diffusion、Suno AI、视频生成模型
10. Finetuning (微调)
RLHF、DPO、GRPO、Post Training
🔑 核心洞见
- 推理模型崛起: 2025年将是推理模型的天下,o1、o3、R1、QwQ、QVQ统治前沿
- 基准测试饱和: 基准测试正在快速饱和,整个方法正在变得过时
- 自动化提示工程: DSPy等框架使提示工程自动化
- RAG是基石: RAG是AI工程的核心技能,需要掌握传统IR技术
- 代理测试: SWE-Bench等技术基准正在从测试LLM转向测试代理
📖 推荐阅读顺序
- 先读 Frontier LLMs - 了解当前最强大的模型
- 然后读 Benchmarks - 知道如何评估模型
- 接着读 Prompting - 掌握与模型交互的方法
- 再读 RAG - 实际应用的核心技能
- 最后读 Agents - 构建自动化工作流
🌐 相关资源
- Benchmarks 101 - 基准测试入门
- Benchmarks 201 - 进阶评估
- Prompting 指南
- Agent 深度分析
- a16z AI Canon 2023 - 2023年必读
探索日期: 2026-03-18
来源网站: Latent Space - AI Engineer Newsletter & Podcast
评分: ⭐⭐⭐⭐⭐ (5/5)