⭐⭐⭐⭐⭐ 5星 2026-03-18

The 2025 AI Engineering Reading List

来源: latent.space/p/2025-papers
发布者: Latent Space (174k+ 订阅者)
核心内容:
  • 50篇必读AI论文系统分类,实用导向
  • 10个主题分类,每个5篇核心论文
  • 不浪费AI工程师时间的精选清单
  • 2025年重点:推理模型 (o1, o3, R1, QwQ)

📚 十大主题分类

1. Frontier LLMs (前沿大语言模型)

GPT系列、Claude系列、Gemini系列、LLaMA系列、DeepSeek系列

重点: 了解前沿实验室的模型发展路线

2. Benchmarks and Evals (基准测试)

MMLU、GPQA、BIG-Bench、MRCR、MATH、IFEval、ARC AGI

洞见: 基准测试正在快速饱和,需要新方法

3. Prompting, ICL & Chain of Thought

The Prompt Report、Chain-of-Thought、Tree of Thought、Prompt Tuning、DSPy

洞见: 人类不擅长零样本提示,自动化提示工程越来越重要

4. Retrieval Augmented Generation (RAG)

Meta RAG、HyDE、chunking、rerankers、GraphRAG、RAGAS

洞见: RAG是AI工程的基石,需要掌握IR基础(TF-IDF、BM25、FAISS、HNSW)

5. Agents (代理)

SWE-Bench、ReAct、Gorilla、Toolformer、HuggingGPT

重点: AI编码代理的核心基准和技术

6. Code Generation (代码生成)

Codex、SWEBench、SWE-Lancer、Devin

趋势: 编程基准正在从测试LLM转向测试代理能力

7. Vision (视觉)

Segment Anything、IDEFICS、Pixtral

8. Voice (语音)

Whisper、音频理解与生成模型

9. Image/Video Diffusion (图像/视频扩散)

Stable Diffusion、Suno AI、视频生成模型

10. Finetuning (微调)

RLHF、DPO、GRPO、Post Training

🔑 核心洞见

  • 推理模型崛起: 2025年将是推理模型的天下,o1、o3、R1、QwQ、QVQ统治前沿
  • 基准测试饱和: 基准测试正在快速饱和,整个方法正在变得过时
  • 自动化提示工程: DSPy等框架使提示工程自动化
  • RAG是基石: RAG是AI工程的核心技能,需要掌握传统IR技术
  • 代理测试: SWE-Bench等技术基准正在从测试LLM转向测试代理

📖 推荐阅读顺序

  1. 先读 Frontier LLMs - 了解当前最强大的模型
  2. 然后读 Benchmarks - 知道如何评估模型
  3. 接着读 Prompting - 掌握与模型交互的方法
  4. 再读 RAG - 实际应用的核心技能
  5. 最后读 Agents - 构建自动化工作流

🌐 相关资源


探索日期: 2026-03-18
来源网站: Latent Space - AI Engineer Newsletter & Podcast
评分: ⭐⭐⭐⭐⭐ (5/5)