OpenAI Codex 零基础系统教程:从”问 AI”到”管理 AI”的进化指南
人机交互已经进入新阶段。用 Codex 的时候,你不是在”提问”,你是在”带团队”。
一、Codex 是什么?跟 Claude Code 怎么选?
OpenAI Codex 是 OpenAI 推出的桌面端 AI Agent,简单说就是常驻在你电脑上的一个智能助手。它能看懂你的文件、执行命令、操控浏览器、甚至帮你写代码——但最本质的区别在于:它不只是回答问题,它能动手干活。
Codex vs Claude Code:两条不同的路
| 维度 | Codex | Claude Code |
|---|---|---|
| 默认模型 | GPT 系列 | Claude 系列 |
| 界面设计 | 对零基础用户更友好,像聊天工具 | 偏向专业开发者,自由度更高 |
| 适用人群 | 白领、产品经理、运营、设计师 | 程序员、技术负责人 |
| 调用额度 | 订阅会员非常大方,适合重度办公 | 相对保守 |
| 浏览器/计算机控制 | 内置且强大 | 需要额外配置 |
我的看法:如果你是纯开发者,Claude Code 的灵活度确实更高。但如果你是需要”AI 帮我搞定一堆杂事”的普通用户——整理素材、批量重命名、写周报、做网站——Codex 的上手门槛和体验明显更友好。
而且 Codex 的订阅额度真的给得很慷慨,属于那种”你可以放心让它干一整天”的级别。
二、七大核心能力,逐个拆解
1. 本地文件操作:你的文件管家
Codex 能自主读取和操作本地文件夹中的所有文件,数量不限。
实战场景:
– 你下载了 50 个视频素材,文件名全是 IMG_0001.mp4 这种毫无意义的命名。跟 Codex 说:”看看这些视频都是什么内容,按画面重命名。” 它会自动分析画面内容,生成 海边日落_无人机航拍.mp4 这种语义化文件名。
– 或者更进阶:”把这几个风景视频用 FFmpeg 剪辑拼接在一起,加一个淡入淡出的转场。”
权限管理(重要!):
Codex 提供三种权限模式:
1. 默认权限——每次操作前会询问你
2. 自动审查(推荐新手)—— Codex 先列出要做什么,你点确认后才执行
3. 完全访问权限——适合你已经信任它之后,彻底放手让它干
建议新手从”自动审查”开始,等磨合好了再开完全权限。
2. 命令行工具使用:一句话装环境
在授权情况下,Codex 可以直接在终端执行复杂命令。对非技术用户来说,这可能是 Codex 最值钱的能力之一——你不需要懂命令行,只需要描述你想要什么结果。
实战场景:
– “帮我安装 Node.js、Git,还有 Hermes 这个 Agent 工具。” Codex 会自动判断你的系统(macOS/Windows/Linux),执行对应的安装命令。
– 更骚的操作:”安装飞书 CLI,然后帮我给 XXX 群发送一条消息。” 它会先把飞书命令行工具装好,再调用 API 完成发消息。
以前装开发环境要查半天教程、踩各种坑,现在一句话搞定。这不是”辅助编程”,这是”外包了一个 IT 运维”。
3. 持久记忆系统:Codex 不会”金鱼记忆”
这是很多人忽略但极其重要的能力。Codex 有两种记忆模式:
手动记忆(agents.md)
你可以在全局或项目级别配置 agents.md 文件,把工作习惯、偏好、固定规则写进去。比如:
# 我的工作习惯
- 修改文档时,删除的内容用紫色字体加删除线标注
- 写代码时优先使用 TypeScript,缩进用 2 个空格
- 每次提交前自动运行 ESLint 检查
以后每次 Codex 在这个项目里工作,都会先读这份文件。相当于给 AI 写了一份”员工手册”。
自动记忆
开启后,Codex 会在每次对话结束后自动总结关键信息并保存。下次你再打开它,它记得你上周做到哪了、偏好什么风格、之前踩过什么坑。
这解决了一个真实痛点:以前跟 AI 聊天,每次新开对话都要重新交代一遍背景。现在 Codex 是有”连续性”的,像跟一个真正的同事协作。
4. 图像生成 + 项目计划模式:从 0 到 1 做项目
图像生成
Codex 内置了最新的图像生成模型,开发过程中可以直接生成配图。比如你在做一个个人主页,需要一张”高级感”的 banner 图——不用切到 Midjourney 或 DALL-E,直接跟 Codex 说需求,它当场给你生成。
计划模式(Plan Mode)
这个模式强到离谱。开启后,Codex 不会立刻动手写代码,而是先输出一份详尽的执行步骤清单,等你看完确认没问题了,再开始干活。
实战演示: 从零开发一个完整的个人主页网站。Codex 先给出这样的计划:
- 创建项目结构(HTML/CSS/JS 文件)
- 设计响应式布局,适配移动端
- 生成 Hero 区域 banner 图
- 实现 About、Projects、Contact 三个板块
- 添加交互动画和滚动效果
- 部署上线
你检查完说”OK,第 3 步的 banner 要科技风格而不是自然风景”,它修改计划,确认后再执行。这节奏,像极了一个靠谱的外包团队在做需求评审。
5. 插件生态:Browser Use + Computer Use
Codex 的插件生态让它从”代码助手”进化成了”数字员工”。
外部连接插件
比如 Netlify 插件:写完个人网站后,跟 Codex 说”部署到 Netlify”,它自动调用插件完成构建和发布,给你一个 live URL。整个过程你不需要碰 Netlify 的后台。
Browser Use(浏览器操控)
Codex 能直接打开浏览器,像真人一样操作网页:点击按钮、填写表单、翻页滚动、甚至做 MBTI 测试。
这意味着什么?
– 自动登录某个网站下载数据
– 帮你在招聘网站上批量投递简历
– 自动填写各种繁琐的在线表单
Computer Use(计算机操控)
更进一步,Codex 能控制你电脑上的本地软件:
– 打开音乐软件播放指定歌单
– 操控剪映自动导入素材、添加背景音乐、导出视频
– 打开 Photoshop 批量处理图片
这已经不是”编程助手”的范畴了,这是操作系统级别的自动化。
6. Skills(技能)+ MCP:把工作流固化成”一键操作”
Skills:你的专属自动化工作流
你可以把验证成功的复杂工作流固化成一个”技能”(Skill),以后一键调用。
实战案例:
你经常需要做这件事:
1. 抓取 GitHub 热门项目
2. 分析项目亮点,撰写推荐文章
3. 生成配图
4. 发送到飞书群
第一次你带着 Codex 一步步做完,确认流程没问题后,把它保存为一个 Skill,取名”GitHub 热门推荐”。以后每周一你只需要说:”执行 GitHub 热门推荐”,Codex 自动跑完全流程。
这就是 Agent 的终极形态——不是每次重新教,而是越用越聪明。
MCP:连接外部知识库
MCP(Model Context Protocol)让 Codex 能连接外部服务器和知识库。比如连入你的 NotebookLM,直接读取里面的访谈笔记作为上下文。相当于给 Codex 接上了你的”第二大脑”。
7. 自动化定时任务:真正的”无人值守”
把上面所有能力串起来,再加上定时任务,Codex 就变成了一个7×24 小时的数字员工。
实战场景:
– 每周一早晨 9 点,自动执行”GitHub 热门项目推荐”技能,生成文章发到飞书群
– 每天下班前 30 分钟,自动读取日历和邮件,生成一份工作日报发给你
– 每小时检查一次某个网站的价格变动,降价了立刻通知你
设置一次,持续运行。你只需要定期验收结果、调整策略。
三、跨端联动:手机遥控电脑
Codex 还有一个很实用的场景:手机远程控制。
把手机的 ChatGPT 跟电脑端的 Codex 绑定后,你可以在通勤路上用手机发指令,让家里的/公司的电脑自动开始干活。比如:
- “帮我渲染昨晚那个视频项目”
- “把桌面上的 PPT 转成 PDF 发到我的邮箱”
- “开始跑那个数据分析脚本,我到家要看到结果”
设备之间的边界被彻底打破了。你的手机是遥控器,电脑是执行器,Codex 是大脑。
四、核心观点:从”问 AI”到”管理 AI”
视频最后提到一个很重要的观点,我想再强调一下:
人机交互已经从”问 AI”阶段,进入了”管理 AI”阶段。
用 Codex 这种 Agent 的时候,你的角色变了——
| 阶段 | 你的角色 | 互动方式 |
|---|---|---|
| 问 AI | 提问者 | “帮我写一段代码” |
| 管理 AI | 领导/产品经理 | “这个项目目标是 X,这是背景资料,这是验收标准,去执行吧” |
具体来说,你需要做四件事:
- 准备上下文环境——给 Codex 足够的背景信息(agents.md、项目文档、参考素材)
- 指明目标——清晰描述你要什么结果,而不是怎么实现
- 监督进度——利用计划模式和自动审查,确保它没跑偏
- 验收与沉淀——验收结果,把好的流程固化为 Skill,下次直接用
这不是”用工具”,这是”带团队”。Codex 是你的第一个”数字下属”,而且它不会离职、不会摸鱼、24 小时在线。
五、总结:谁应该马上开始用 Codex?
| 人群 | 推荐度 | 典型用法 |
|---|---|---|
| 产品经理/运营 | ⭐⭐⭐⭐⭐ | 自动写周报、批量处理素材、做数据报表 |
| 设计师 | ⭐⭐⭐⭐⭐ | 批量重命名/处理素材、生成配图、自动化设计流程 |
| 独立开发者 | ⭐⭐⭐⭐⭐ | 快速搭原型、自动部署、管理多个项目 |
| 非技术白领 | ⭐⭐⭐⭐⭐ | 装软件、整理文件、自动化重复办公任务 |
| 专业程序员 | ⭐⭐⭐⭐☆ | 作为 Claude Code 的补充,利用浏览器/计算机控制能力 |
Codex 不是完美的——它有时候会理解错需求,有时候会执行出错,有时候需要你反复纠正。但这恰恰说明:Agent 的价值不在于”替代你”,而在于”放大你”。
一个会用 Codex 的人,和一个不用 Codex 的人,工作效率的差距,会在未来 12 个月内拉到夸张的程度。
现在就是入局的最好时机。
本文基于 OpenAI Codex 零基础系统教程视频整理,结合实战场景与个人理解。