Which Design Doc Did a Human Write?
实验设计: 作者让Claude Opus 4.6、Codex GPT-5.4和自己分别写同一主题的设计文档,让读者猜测哪个是人类写的。
实验结果
- 约50%的读者正确识别出人类文档
- 25%的读者错误地将人类文档判定为AI生成
人类文档的特征
- 更多个人意见和经验:分享具体案例和个人观点
- 独特的技术选择:如NixCI、PolyForm-Noncommercial许可等小众技术
- 更随意的结构:标题组织更像"有用的心理模型"而非严格的分类
- 有时区等个人痕迹
AI文档的特征
- 冗余(bloat):充满无关的废话,每个句子都塞满无意义的填充词
- 过度使用粗体:在不重要的地方加粗
- 过于精确的时间估计:如"10小时",实际工程师不会这样估计
- 图表布局问题:AI生成的图表有明显的元素碰撞问题
- 技术选择保守:倾向选择最流行的技术栈
读者判断错误的原因
- 认为更短、更简洁的文档更像人类手写
- 冗长的文档被误判为AI(实际上人类文档也更长,只是更"有效")
结论: AI写作的可检测性正在提高,但并非绝对。读者对"像人类"的偏见可能导致误判。
评价
这是一个有趣且设计良好的实验,揭示了AI写作的明显特征。对于vibecoding实践者来说,这些洞察有助于更好地使用AI工具或规避AI特征。