AI 编码 Skill 大 PK：Karpathy、Grill Me、Superpowers、GSD、OpenSpec 到底谁靠谱？

By - AI飞行客
Posted on 05/21/202605/22/2026
Posted in AI 观察

AI 编码 Skill 大 PK：Karpathy、Grill Me、Superpowers、GSD、OpenSpec 到底谁靠谱？

AI 编码助手能写出好代码，不是因为它聪明，而是因为它背后有人给它写了「说明书」。今天把市面上最火的几个说明书拆开看看。

一、一个被忽视的真相

现在很多人讨论 AI 编码，关注点都在模型能力上——GPT-4o 比 Claude Opus 强多少，Gemini 追没追上。

但一个被严重低估的事实是：同样一个 Claude 3.5 Sonnet，装不同的 Skill 文件，输出质量可以差出一个数量级。

Skill 文件（也叫 .md Rules 或 Agent Skills）本质上是给 AI 的「工作手册」。它告诉模型：遇到什么问题用什么方法解决、写代码前该做什么、写完代码后该检查什么、什么情况下该停下来问人。没有它，AI 就像个没受过培训的实习生——有脑子，没规矩。

Web Dev Cody 最近做了一个很扎实的对比评测，把市面上最火的几个 AI 编程 Skill 拉出来 PK，还拿他自己的系统一起测。结果很有意思，值得详细说说。

二、四大热门 Skill 库对比

1. Karpathy Skills — 14 万 Stars

Andrej Karpathy 出品，知名度最高。核心就四条原则：

Think before coding：编码前先思考
Simplicity first：简单至上
Surgical changes：精准修改
Goal driven execution：目标驱动执行

它的主要价值是解决 Claude「用力过猛」的问题——AI 经常为了修一个小 Bug，把半仓库文件都改了。Karpathy 强制模型保持克制：200 行代码能用 50 行写完？那就重写 50 行。

但说实话，这个 Skill 更像是「原则清单」而不是「工作流系统」。它告诉 AI 该怎么做，但没告诉 AI 每一步该做什么、什么时候停、怎么验证。很多用户安装它纯粹是因为 Karpathy 的名气，而不是因为它真的解决了什么具体问题。

2. Matt Pocock — Grill Me Skill — 10 万 Stars

核心机制极简：只有一两句话的 Prompt，强制 AI 在写代码前，先向人类提出一堆问题—— sometimes 60 到 70 个——直到把所有边界条件和需求对齐。

这个设计的初衷是对的：需求不清是 AI 写出垃圾代码的最大元凶。通过「拷问」机制，强迫用户在开始前把需求想明白。

但问题也很明显：对资深工程师来说，被 AI 问几十个基础问题是一种折磨。 如果你已经知道自己在做什么，Grill Me 的流程会变成阻塞而不是帮助。它更适合完全不知道怎么描述需求的小白，而不是有明确目标的开发者。

3. Superpowers Skills — 20 万 Stars

这是四个里面工作流最完整的一个。核心流程：

提问头脑风暴
用 Git Worktree 开新分支规划
拆解子任务
调用子 Agent 并行编码
测试驱动开发（TDD，自动跑测试验证）
代码审查与清理

Superpowers 的强项在于自动化验证闭环。当你想丢下一个任务让 AI 自己在后台跑 30–40 分钟时，它的 TDD 机制能确保出来的东西是可运行的、有测试覆盖的。这是很多其他 Skill 缺少的「验收层」。

4. Get Shit Done (GSD) — 6.3 万 Stars

专门为「从零脚手架构建新项目」或「消灭一整个 Backlog」设计。工作流是：

规划 → 执行里程碑 → 验证 → 下一个里程碑

GSD 的价值在批量自动化。如果你有一堆积压任务，想丢给 AI 让它一个接一个去消灭，GSD 的闭环设计非常合适。它不是帮你写某一个功能，而是帮你「跑完一个项目」。

5. OpenSpec — 4.9 万 Stars（重点推荐）

这个 Skill 我必须单独拿出来说，因为它的思路和上面四个完全不在一个维度上。

前面四个 Skill 解决的都是「怎么写」的问题——怎么思考、怎么对齐需求、怎么验证、怎么批量推进。OpenSpec 解决的是另一个问题：「写的是什么」。

它的核心理念是：Spec 是唯一真值（Single Source of Truth），代码只是 Spec 的实现物。

项目结构很有意思：

specs/        # 系统的当前真值，描述「现在是什么样」
changes/      # 每个变更独立文件夹，描述「要改成什么样」
  ├── add-payment-flow/
  │   ├── proposal.md       # 提案：为什么改、改什么
  │   ├── delta.md          # 增量 spec（ADDED/MODIFIED/REMOVED）
  │   └── tasks.md          # 拆解的任务列表

核心工作流（OPSX）有四个阶段：

/opsx:propose：提出变更提案，先写 spec 再写代码
/opsx:apply：按 spec 执行实现
/opsx:sync：验证实现与 spec 一致
/opsx:archive：合并 delta 到主 spec，归档变更

OpenSpec 的设计哲学和其他 Skill 有几个本质区别：

维度	其他 Skill	OpenSpec
真值载体	代码	Spec 文档
AI 角色	编码执行器	Spec 实现器 + 一致性校验器
变更管理	Git Commit	Delta Spec（ADDED/MODIFIED/REMOVED）
工具绑定	多数绑定特定 IDE	支持 25+ AI 助手，不锁定工具
可定制性	修改 .md 规则	Schema 驱动（yaml + template）

这个差异看似细微，实际影响巨大。当 Spec 成为真值时，AI 的行为边界就被精确锁定了。 你不需要担心 AI 用力过猛改一堆无关代码（因为 Spec 没说要改），不需要担心需求漂移（因为每次变更都要先更新 Spec），不需要担心文档过期（因为 Spec 本身就是文档）。

对比同类方案：

GitHub Spec Kit：太重，流程繁琐，适合大型企业但小团队用不起来
Kiro（AWS）：锁死 AWS IDE 生态，迁移成本高
OpenSpec：轻量、开放、跨工具，是目前 Spec-Driven 路线里最务实的选择

什么场景最适合 OpenSpec？

多人协作的中大型项目，需要严格的需求-实现追溯
对 API 契约稳定性要求高的后端服务
想从「Vibe Coding」升级到「规范驱动开发」的团队
需要在多个 AI 工具间切换（Claude Code、Cursor、Copilot、Cline 等）但又想保持一致性

一句话总结：OpenSpec 不是让 AI 写得更好，而是让 AI 写得「对」。 这是从「质量」到「正确性」的升级。

三、为什么 Skill 质量差距这么大？

把这几个 Skill 放在一起看，会发现一个清晰的进化脉络：

层级	代表	提供什么	缺失什么
原则层	Karpathy Skills	编码哲学和约束	执行步骤、验证机制
对话层	Grill Me	需求对齐机制	代码实现、质量验收
执行层	Superpowers、GSD	完整工作流 + 测试验证	需求-实现追溯、长期一致性
规范层	OpenSpec	Spec 作为真值，AI 行为边界精确锁定	对小型快速迭代项目偏重

Karpathy 只给原则，Grill Me 加对话，Superpowers 和 GSD 加执行和验证，OpenSpec 把整个游戏规则改了——它不再问「AI 写得好不好」，而是问「AI 写的对不对」。

但这里有一个关键洞察：Skill 文件的价值不是「规则有多少条」，而是「规则能不能形成强制卡点」。

LLM 的本质是「预测下一个 Token」，没有外部约束时它很容易走捷径。比如：

你让它「优化这个函数」，它可能顺手改了三五个无关文件——因为「改得更干净」对它来说是更优的预测结果
你让它「加一个登录功能」，它可能忘了加输入验证和错误处理——因为这些在训练数据里不是高频 Token 序列

好的 Skill 文件，就是用流程设计来对抗模型的走捷径倾向。Superpowers 用 TDD 做卡点——代码必须过测试才算完成。GSD 用里程碑做卡点——每个阶段必须验证通过才能进入下一个。

这也是为什么「原则型」Skill（Karpathy）效果有限——它告诉 AI「要简单」，但没告诉 AI「怎么算简单、谁来验收简单」。没有验收标准的约束，原则就只是建议。

四、什么场景用什么 Skill

没有最好的 Skill，只有最适合场景的 Skill。

场景	推荐 Skill	为什么
快速改一个 Bug / 调样式	Karpathy Skills	简单克制，不折腾
需求完全不清楚，不知道怎么开始	Grill Me	强迫你先把需求想明白
丢下任务让 AI 自己跑 30 分钟	Superpowers	TDD 自动验证，出来就能跑
从零搭建一个新项目	GSD	批量消灭任务，路线图清晰
多人协作 + 长期维护的中大型项目	OpenSpec	Spec 即真值，需求-实现可追溯
多 AI 工具切换但要保持一致性	OpenSpec	不锁定工具，支持 25+ AI 助手

这些 Skill 不是互斥的，是可以组合的。一个更成熟的工作流可以是：

用 OpenSpec 定义需求和系统契约（Spec 层）
用 Grill Me 在 Spec 阶段做需求拷问，把模糊点扫干净
用 Superpowers 拆解任务、并行执行、TDD 验证（实现层）
用 Karpathy 的克制原则约束具体编码行为（风格层）
用 GSD 管理整体路线图，批量消灭 backlog（项目层）

这个组合的精髓是：OpenSpec 管「写什么」，其他 Skill 管「怎么写」。 两者结合，才是完整的 AI 编码工程化方案。

Skill 文件的生态还在早期，未来很可能出现「Skill 组合包」——不是安装一个，而是安装一套针对不同阶段的 Skill 链。

五、写在最后

这个视频给我的最大启发不是「哪个 Skill 最好」，而是：AI 编码的质量上限，已经被 Skill 文件的设计能力决定了。

同样的 Claude 3.5 Sonnet，装 Karpathy 的 Skill 和装 Superpowers 的 Skill，写出来的代码完全是两个档次。这不是模型的问题，是「上下文工程」的问题。

在 AI coding 时代，工程师的核心竞争力正在从「写代码」转向「设计工作流」。谁更懂得用 Skill 文件来约束 AI 的行为、定义验收标准、建立质量卡点，谁就能让 AI 产出更靠谱的结果。

如果你现在还在裸用 Claude Code——就是直接跟它对话让它写代码，没有装任何 Skill——那你大概只用了它 30% 的能力。

去装一个 Skill 试试。如果是个人小项目，从 Superpowers 或 GSD 开始；如果是团队协作的中大型项目，强烈建议直接上 OpenSpec——它能解决的不仅是「AI 写得好不好」，更是「团队多人多 AI 之间如何对齐」的根本问题。

体验过有流程约束的 AI 编码后，你大概率回不去了。

本文基于 Web Dev Cody 的视频内容整理，并补充了 OpenSpec 的对比分析。视频原文标题：《The Most Popular AI Coding Skills Right Now》。

AI飞行客

近期文章

近期评论

归档

分类

AI 编码 Skill 大 PK：Karpathy、Grill Me、Superpowers、GSD、OpenSpec 到底谁靠谱？

一、一个被忽视的真相

二、四大热门 Skill 库对比

1. Karpathy Skills — 14 万 Stars

2. Matt Pocock — Grill Me Skill — 10 万 Stars

3. Superpowers Skills — 20 万 Stars

4. Get Shit Done (GSD) — 6.3 万 Stars

5. OpenSpec — 4.9 万 Stars（重点推荐）

三、为什么 Skill 质量差距这么大？

四、什么场景用什么 Skill

五、写在最后

Previous Article

Next Article

发表回复取消回复

AI飞行客

近期文章

近期评论

归档

分类

AI 编码 Skill 大 PK：Karpathy、Grill Me、Superpowers、GSD、OpenSpec 到底谁靠谱？

一、一个被忽视的真相

二、四大热门 Skill 库对比

1. Karpathy Skills — 14 万 Stars

2. Matt Pocock — Grill Me Skill — 10 万 Stars

3. Superpowers Skills — 20 万 Stars

4. Get Shit Done (GSD) — 6.3 万 Stars

5. OpenSpec — 4.9 万 Stars（重点推荐）

三、为什么 Skill 质量差距这么大？

四、什么场景用什么 Skill

五、写在最后

Previous Article

Next Article

发表回复 取消回复

发表回复取消回复