AI飞行客

掠过技术的云层,落地在工程的原野

AI 编码 Skill 大 PK:Karpathy、Grill Me、Superpowers、GSD、OpenSpec 到底谁靠谱?

AI 编码助手能写出好代码,不是因为它聪明,而是因为它背后有人给它写了「说明书」。今天把市面上最火的几个说明书拆开看看。

一、一个被忽视的真相

现在很多人讨论 AI 编码,关注点都在模型能力上——GPT-4o 比 Claude Opus 强多少,Gemini 追没追上。

但一个被严重低估的事实是:同样一个 Claude 3.5 Sonnet,装不同的 Skill 文件,输出质量可以差出一个数量级。

Skill 文件(也叫 .md Rules 或 Agent Skills)本质上是给 AI 的「工作手册」。它告诉模型:遇到什么问题用什么方法解决、写代码前该做什么、写完代码后该检查什么、什么情况下该停下来问人。没有它,AI 就像个没受过培训的实习生——有脑子,没规矩。

Web Dev Cody 最近做了一个很扎实的对比评测,把市面上最火的几个 AI 编程 Skill 拉出来 PK,还拿他自己的系统一起测。结果很有意思,值得详细说说。

二、四大热门 Skill 库对比

1. Karpathy Skills — 14 万 Stars

Andrej Karpathy 出品,知名度最高。核心就四条原则:

  • Think before coding:编码前先思考
  • Simplicity first:简单至上
  • Surgical changes:精准修改
  • Goal driven execution:目标驱动执行

它的主要价值是解决 Claude「用力过猛」的问题——AI 经常为了修一个小 Bug,把半仓库文件都改了。Karpathy 强制模型保持克制:200 行代码能用 50 行写完?那就重写 50 行。

但说实话,这个 Skill 更像是「原则清单」而不是「工作流系统」。它告诉 AI 该怎么做,但没告诉 AI 每一步该做什么、什么时候停、怎么验证。很多用户安装它纯粹是因为 Karpathy 的名气,而不是因为它真的解决了什么具体问题。

2. Matt Pocock — Grill Me Skill — 10 万 Stars

核心机制极简:只有一两句话的 Prompt,强制 AI 在写代码前,先向人类提出一堆问题—— sometimes 60 到 70 个——直到把所有边界条件和需求对齐。

这个设计的初衷是对的:需求不清是 AI 写出垃圾代码的最大元凶。通过「拷问」机制,强迫用户在开始前把需求想明白。

但问题也很明显:对资深工程师来说,被 AI 问几十个基础问题是一种折磨。 如果你已经知道自己在做什么,Grill Me 的流程会变成阻塞而不是帮助。它更适合完全不知道怎么描述需求的小白,而不是有明确目标的开发者。

3. Superpowers Skills — 20 万 Stars

这是四个里面工作流最完整的一个。核心流程:

  1. 提问头脑风暴
  2. 用 Git Worktree 开新分支规划
  3. 拆解子任务
  4. 调用子 Agent 并行编码
  5. 测试驱动开发(TDD,自动跑测试验证)
  6. 代码审查与清理

Superpowers 的强项在于自动化验证闭环。当你想丢下一个任务让 AI 自己在后台跑 30–40 分钟时,它的 TDD 机制能确保出来的东西是可运行的、有测试覆盖的。这是很多其他 Skill 缺少的「验收层」。

4. Get Shit Done (GSD) — 6.3 万 Stars

专门为「从零脚手架构建新项目」或「消灭一整个 Backlog」设计。工作流是:

规划 → 执行里程碑 → 验证 → 下一个里程碑

GSD 的价值在批量自动化。如果你有一堆积压任务,想丢给 AI 让它一个接一个去消灭,GSD 的闭环设计非常合适。它不是帮你写某一个功能,而是帮你「跑完一个项目」。

5. OpenSpec — 4.9 万 Stars(重点推荐)

这个 Skill 我必须单独拿出来说,因为它的思路和上面四个完全不在一个维度上。

前面四个 Skill 解决的都是「怎么写」的问题——怎么思考、怎么对齐需求、怎么验证、怎么批量推进。OpenSpec 解决的是另一个问题:「写的是什么」。

它的核心理念是:Spec 是唯一真值(Single Source of Truth),代码只是 Spec 的实现物。

项目结构很有意思:

specs/        # 系统的当前真值,描述「现在是什么样」
changes/      # 每个变更独立文件夹,描述「要改成什么样」
  ├── add-payment-flow/
  │   ├── proposal.md       # 提案:为什么改、改什么
  │   ├── delta.md          # 增量 spec(ADDED/MODIFIED/REMOVED)
  │   └── tasks.md          # 拆解的任务列表

核心工作流(OPSX)有四个阶段:

  1. /opsx:propose:提出变更提案,先写 spec 再写代码
  2. /opsx:apply:按 spec 执行实现
  3. /opsx:sync:验证实现与 spec 一致
  4. /opsx:archive:合并 delta 到主 spec,归档变更

OpenSpec 的设计哲学和其他 Skill 有几个本质区别:

维度 其他 Skill OpenSpec
真值载体 代码 Spec 文档
AI 角色 编码执行器 Spec 实现器 + 一致性校验器
变更管理 Git Commit Delta Spec(ADDED/MODIFIED/REMOVED)
工具绑定 多数绑定特定 IDE 支持 25+ AI 助手,不锁定工具
可定制性 修改 .md 规则 Schema 驱动(yaml + template)

这个差异看似细微,实际影响巨大。当 Spec 成为真值时,AI 的行为边界就被精确锁定了。 你不需要担心 AI 用力过猛改一堆无关代码(因为 Spec 没说要改),不需要担心需求漂移(因为每次变更都要先更新 Spec),不需要担心文档过期(因为 Spec 本身就是文档)。

对比同类方案:

  • GitHub Spec Kit:太重,流程繁琐,适合大型企业但小团队用不起来
  • Kiro(AWS):锁死 AWS IDE 生态,迁移成本高
  • OpenSpec:轻量、开放、跨工具,是目前 Spec-Driven 路线里最务实的选择

什么场景最适合 OpenSpec?

  • 多人协作的中大型项目,需要严格的需求-实现追溯
  • 对 API 契约稳定性要求高的后端服务
  • 想从「Vibe Coding」升级到「规范驱动开发」的团队
  • 需要在多个 AI 工具间切换(Claude Code、Cursor、Copilot、Cline 等)但又想保持一致性

一句话总结:OpenSpec 不是让 AI 写得更好,而是让 AI 写得「对」。 这是从「质量」到「正确性」的升级。

三、为什么 Skill 质量差距这么大?

把这几个 Skill 放在一起看,会发现一个清晰的进化脉络:

层级 代表 提供什么 缺失什么
原则层 Karpathy Skills 编码哲学和约束 执行步骤、验证机制
对话层 Grill Me 需求对齐机制 代码实现、质量验收
执行层 Superpowers、GSD 完整工作流 + 测试验证 需求-实现追溯、长期一致性
规范层 OpenSpec Spec 作为真值,AI 行为边界精确锁定 对小型快速迭代项目偏重

Karpathy 只给原则,Grill Me 加对话,Superpowers 和 GSD 加执行和验证,OpenSpec 把整个游戏规则改了——它不再问「AI 写得好不好」,而是问「AI 写的对不对」。

但这里有一个关键洞察:Skill 文件的价值不是「规则有多少条」,而是「规则能不能形成强制卡点」。

LLM 的本质是「预测下一个 Token」,没有外部约束时它很容易走捷径。比如:

  • 你让它「优化这个函数」,它可能顺手改了三五个无关文件——因为「改得更干净」对它来说是更优的预测结果
  • 你让它「加一个登录功能」,它可能忘了加输入验证和错误处理——因为这些在训练数据里不是高频 Token 序列

好的 Skill 文件,就是用流程设计来对抗模型的走捷径倾向。Superpowers 用 TDD 做卡点——代码必须过测试才算完成。GSD 用里程碑做卡点——每个阶段必须验证通过才能进入下一个。

这也是为什么「原则型」Skill(Karpathy)效果有限——它告诉 AI「要简单」,但没告诉 AI「怎么算简单、谁来验收简单」。没有验收标准的约束,原则就只是建议。

四、什么场景用什么 Skill

没有最好的 Skill,只有最适合场景的 Skill。

场景 推荐 Skill 为什么
快速改一个 Bug / 调样式 Karpathy Skills 简单克制,不折腾
需求完全不清楚,不知道怎么开始 Grill Me 强迫你先把需求想明白
丢下任务让 AI 自己跑 30 分钟 Superpowers TDD 自动验证,出来就能跑
从零搭建一个新项目 GSD 批量消灭任务,路线图清晰
多人协作 + 长期维护的中大型项目 OpenSpec Spec 即真值,需求-实现可追溯
多 AI 工具切换但要保持一致性 OpenSpec 不锁定工具,支持 25+ AI 助手

这些 Skill 不是互斥的,是可以组合的。一个更成熟的工作流可以是:

  1. OpenSpec 定义需求和系统契约(Spec 层)
  2. Grill Me 在 Spec 阶段做需求拷问,把模糊点扫干净
  3. Superpowers 拆解任务、并行执行、TDD 验证(实现层)
  4. Karpathy 的克制原则约束具体编码行为(风格层)
  5. GSD 管理整体路线图,批量消灭 backlog(项目层)

这个组合的精髓是:OpenSpec 管「写什么」,其他 Skill 管「怎么写」。 两者结合,才是完整的 AI 编码工程化方案。

Skill 文件的生态还在早期,未来很可能出现「Skill 组合包」——不是安装一个,而是安装一套针对不同阶段的 Skill 链。

五、写在最后

这个视频给我的最大启发不是「哪个 Skill 最好」,而是:AI 编码的质量上限,已经被 Skill 文件的设计能力决定了。

同样的 Claude 3.5 Sonnet,装 Karpathy 的 Skill 和装 Superpowers 的 Skill,写出来的代码完全是两个档次。这不是模型的问题,是「上下文工程」的问题。

在 AI coding 时代,工程师的核心竞争力正在从「写代码」转向「设计工作流」。谁更懂得用 Skill 文件来约束 AI 的行为、定义验收标准、建立质量卡点,谁就能让 AI 产出更靠谱的结果。

如果你现在还在裸用 Claude Code——就是直接跟它对话让它写代码,没有装任何 Skill——那你大概只用了它 30% 的能力。

去装一个 Skill 试试。如果是个人小项目,从 Superpowers 或 GSD 开始;如果是团队协作的中大型项目,强烈建议直接上 OpenSpec——它能解决的不仅是「AI 写得好不好」,更是「团队多人多 AI 之间如何对齐」的根本问题。

体验过有流程约束的 AI 编码后,你大概率回不去了。


本文基于 Web Dev Cody 的视频内容整理,并补充了 OpenSpec 的对比分析。视频原文标题:《The Most Popular AI Coding Skills Right Now》。

发表回复

Your email address will not be published. Required fields are marked *.

*
*