AI飞行客

掠过技术的云层,落地在工程的原野

Harness Engineering 深度实践:给团队、程序员和管理者的行动手册

上一篇聊 Harness Engineering,很多人问:『道理我都懂,具体怎么落地?』

这篇不灌鸡汤,直接给框架、给 checklist、给组织变革路径。写给三类人:开发团队、一线程序员、技术管理者。各取所需,但最好全看——因为这不是个人修行,是系统工程


一、先对齐认知:Harness Engineering 到底是什么

很多人把 Harness Engineering 理解成『用 AI 写代码』,太浅了。

它的本质是重新设计人机协作的生产关系。不是 AI 替代人,也不是人驾驭 AI 这么简单——而是构建一个三层 Harness(驾驭层):

  • Personal Harness(个人层):单个工程师如何重构自己的工作流,让 AI 接管低价值任务,自己专注高价值决策
  • Team Harness(团队层):团队如何重新定义代码所有权、评审流程、知识管理和交付标准
  • Organizational Harness(组织层):公司如何调整绩效体系、招聘标准、技术治理和风险管理框架

缺任何一层,这个系统都会崩。个人再强,放在不支持的团队里会被拖死;团队流程再好,组织层面的绩效评估还在奖励代码行数,那就是自掘坟墓。

下面分层拆解。


二、给开发团队:流程重构,不是加个 Copilot 就完事

1. 把 AI 纳入 CI/CD 质检流水线

这是底线。AI 生成的代码必须在进入主分支前经过自动化的三层过滤:

  • 静态安全扫描(SAST):AI 特别喜欢引用有 CVE 的库版本,或者写出有注入风险的 SQL。SonarQube、CodeQL、Semgrep 必须跑
  • 行为一致性校验:AI 重构代码时经常改变边界行为。除了单元测试,还要有契约测试(Pact)或 API 快照测试,确保对外接口语义没变
  • AI 置信度标记:要求工程师标注哪些文件/函数是 AI 生成的。不是搞歧视,是为了在故障排查时快速定位可疑代码

Checklist:

  • [ ] CI 流水线里增加了 AI 生成代码的特殊 lint 规则
  • [ ] 所有 PR 必须附带 AI 生成比例声明(哪怕写的是 0%)
  • [ ] 部署到 staging 后,自动对比 AI 修改区域的黄金流量(golden traffic)响应差异

2. 重新定义代码所有权

传统的代码所有权是『谁写的谁维护』。但 AI 写了 60% 的代码后,这个模型崩了。

新的所有权模型应该是领域所有权(Domain Ownership):

  • 不看你写了哪几行,而看你对哪个业务领域负责
  • 这个领域内的所有代码——不管是人写的还是 AI 写的——最终的架构决策权、故障问责权都在你
  • AI 生成的代码如果出 bug,责任不在 AI,而在领域负责人没有建立足够的验证机制

这倒逼工程师从『我写了什么』转向『我确保了什么』。

3. 知识管理从文档转向 Prompt 工程库

团队知识库过去是 Confluence、Wiki。现在,最有价值的团队资产是经过验证的高质量 Prompt 模板

建议每个团队维护一个内部的 Prompt Registry:

  • 生成单元测试的标准 Prompt(带上下文注入模板)
  • 重构遗留代码的约束 Prompt(哪些不能动、风格要求)
  • 安全敏感代码的审查 Prompt(专门用来让 AI 自查潜在漏洞)

这些 Prompt 要版本控制、要 Code Review、要持续迭代——因为 Prompt 本身就是新的源代码。

4. 团队技能矩阵重新设计

传统的团队技能矩阵是语言 × 框架。现在需要增加三个维度:

  • Prompt 设计能力:能把模糊需求转化为 AI 可执行指令的能力
  • AI 输出审计能力:快速识别 AI 幻觉、逻辑漏洞、性能陷阱的眼力
  • 系统编织能力:把 AI 生成的碎片代码整合成可维护、可观测、可回滚的系统的能力

招聘和晋升时,这三个维度的权重应该逐年上升。


三、给程序员:别焦虑,但要动真格

1. 建立你的 Personal Harness 工作流

这不是用不用 Cursor 的问题,而是你有没有一套可复现、可迭代、可度量的 AI 协作工作流。

建议按这个漏斗设计:

  1. 需求拆解(100% 人类):把业务需求拆成 AI 可执行的子任务。这一步决定了一切。拆不好,AI 再强也白搭
  2. 初稿生成(80% AI):让 AI 写第一版,但要在 Prompt 里注入约束(测试要求、风格指南、性能基线)
  3. 审计精修(100% 人类):逐行审查,重点看边界条件、并发安全、资源泄漏、依赖风险
  4. 验证闭环(工具 + 人类):跑测试、跑扫描、跑性能基准,不达标打回重写

每完成一个任务,问自己三个问题:

  • 我在这个任务里创造了什么 AI 无法替代的价值?
  • 我的 Prompt 有没有沉淀成可复用的模板?
  • 如果三个月后这个代码出 bug,我能不能在三分钟内定位到根因?

2. 深度 vs 广度的新权衡

AI 时代,广度型全栈工程师的价值在下降——因为 AI 本身就覆盖了整个栈。但深度型专家的价值在上升,因为AI 不懂你的业务

建议选择一个垂直领域扎下去,同时保持对上下游的接口级理解。具体策略:

  • T 型人才 → π 型人才:一个主深度领域 + 一个辅助领域 + 对 AI 工具的系统性理解
  • 主深度领域选业务耦合度高的(比如支付风控、医疗合规、嵌入式实时系统),AI 替代难度大
  • 辅助领域选能快速用 AI 补强的(比如前端、运维、测试),保持交付端到端价值的能力

3. 处理职业焦虑的硬核方法

焦虑来自两个幻觉:

  • 『我十年的编码技艺突然不值钱了』——确实,纯编码技能在贬值,但系统设计和质量把控技能在升值
  • 『AI 会越来越好,迟早连架构师也取代』——可能,但那是十年后的事。现在到未来三年,窗口期还在

行动清单:

  • [ ] 每周花 2 小时研究一个新的 AI 工程实践(Prompt 模式、RAG 架构、Agent 工作流),记笔记
  • [ ] 每月输出一篇内部技术博客或做一次团队分享,建立『AI 工程』领域的个人品牌
  • [ ] 每个季度评估一次自己的技能组合:哪些被 AI 削弱了?哪些被 AI 放大了?哪些 AI 还碰不到?

别等着公司给你培训。AI 时代的工程师,自我教育是默认配置。


四、给管理者:你的 KPI 体系可能正在杀死团队

1. 绩效评估必须重构

还在用代码行数、提交次数、故事点完成量来评估工程师?赶紧停。

AI 时代的有效绩效指标应该包括:

  • 系统健康度:你负责的领域,MTTR(平均修复时间)、变更失败率、安全漏洞数量
  • 决策质量:架构评审通过率、技术债务清理的 ROI、引入新技术的风险评估准确性
  • 知识资产沉淀:Prompt 模板贡献数、团队培训次数、文档/指南的采纳率
  • AI 协作效率:AI 生成代码的首次通过率、返工率、生产环境缺陷归因率

重点不是『你写了多少』,而是『你让系统变得多可靠』和『你让团队变得多高效』。

2. 招聘标准要换血

面试题该改了:

  • 少问『手写红黑树』,多问『怎么设计一个 Prompt 让 AI 生成符合团队规范的 CRUD 代码』
  • 少问『怎么优化这个 SQL』,多问『怎么验证 AI 重构后的 SQL 在百万级数据下性能不劣化』
  • 少问『解释 OAuth2 流程』,多问『如果让 AI 实现 OAuth2,你会在哪些地方设置人工审核点』

招进来的人,要给三个月的 AI 协作能力培养期。不是培训他们用 Copilot,而是培训他们建立完整的 Harness 工作流。

3. 警惕「AI 债务」

技术债务大家都知道。AI 债务是新物种:

  • 幻觉累积:AI 在某个模块里埋了一个错误的假设,三个月后扩散到十个模块才发现
  • 黑盒依赖:团队过度依赖 AI 生成的代码,导致没人真正理解核心逻辑,关键人一旦离职就抓瞎
  • Prompt 腐烂:早期的 Prompt 模板没维护,随着模型升级,输出质量越来越不可控
  • 安全盲区:AI 生成的代码通过了所有自动化扫描,但在业务语义层面存在逻辑漏洞(比如权限检查顺序错误)

治理方法:建立 AI 债务看板,每季度审计,跟技术债务同等对待。

4. 团队结构:扁平化还是专业化?

AI 让个体产出暴增,但系统复杂度也在暴增。我的建议是:

  • 小团队保持扁平:10 人以内,每个人都应该有端到端交付能力(借助 AI)。减少交接损耗
  • 大团队引入 Harness 架构师:不是传统架构师,而是专门负责设计 AI 协作流程、维护 Prompt Registry、建立质量门的人
  • 跨团队设置 AI 治理委员会:制定全公司的 AI 使用规范、安全红线、模型选型标准。别让各个团队各自为战

5. 风险管理框架

AI 不是魔法,是概率系统。管理者必须建立清醒的风险认知:

风险类型 缓解策略
模型供应商锁定 至少支持两种模型(比如 GPT-4 + Claude),Prompt 设计遵循可移植原则
数据泄露 敏感代码和业务逻辑不得输入公有 AI;自建私有化部署或严格的数据脱敏流程
合规风险 AI 生成的代码必须有明确的溯源记录;涉及安全认证、金融合规的模块禁止全 AI 生成
单点故障 核心系统的关键路径代码,必须有至少一名人类工程师深度理解并签字确认
模型漂移 定期用固定测试集回归验证 AI 输出质量;Prompt 版本与模型版本绑定管理

五、统一框架:三层 Harness 的落地路线图

如果你想在公司推动 Harness Engineering,建议按这个节奏走:

Phase 1:个人实验期(1-2 个月)

  • 选 3-5 个愿意尝鲜的工程师,各自建立 Personal Harness 工作流
  • 收集数据:AI 生成比例、返工率、缺陷率、个人效率变化
  • 产出:一套经过验证的内部 Prompt 模板初版

Phase 2:团队制度化(2-4 个月)

  • 把 Phase 1 的最佳实践固化为团队流程:新的 Code Review 标准、新的 CI 质检项、新的知识管理方式
  • 调整绩效指标,让用了 Harness 方法的人不吃亏
  • 培训全覆盖:不是教工具,是教工作流

Phase 3:组织规模化(4-6 个月)

  • 成立 AI 治理委员会,制定全公司标准
  • 引入 Harness 架构师角色
  • 建立 AI 债务看板,纳入技术治理体系
  • 招聘标准全面更新

Phase 4:持续进化(长期)

  • 每季度评估 AI 工具栈,淘汰落后的,引入更先进的
  • Prompt Registry 持续迭代,跟代码库一样做版本管理
  • 关注模型能力边界的变化,及时调整人机分工

写在最后

Harness Engineering 不是让你成为 AI 的奴隶,也不是让你假装 AI 不存在。

它是让你在认清现实的基础上,重新夺回控制权

现实是:AI 已经能写出不错的代码了,而且会越来越强。控制权的含义是:你决定哪些让 AI 做、哪些必须自己做、哪些需要人类和 AI 协作、用什么流程来保证质量、用什么机制来管理风险。

个人建立 Personal Harness,团队建立 Team Harness,组织建立 Organizational Harness。三层都到位了,你才有资格说自己在做 Harness Engineering。

否则,你只是在用 AI 加速制造垃圾。


如果你的团队已经在实践 Harness Engineering,欢迎分享你们的流程和踩过的坑。如果还没开始,从今天开始不算晚。

发表回复

Your email address will not be published. Required fields are marked *.

*
*