01 / SCENE
重复、易漏、标准明确周报润色、BRD 起草、PDF 复核、前端审美检查、数据报告,都是经验反复出现的现场。
Skill 的价值,并不在于把提示词写得更长,而在于把一类反复发生的工作,安放进可被发现、可被执行、可被检验的秩序里。真正的入门,是先判断哪一种经验值得沉淀,再用样例和评分闭环证明它没有辜负这次沉淀。
01 / SCENE
重复、易漏、标准明确周报润色、BRD 起草、PDF 复核、前端审美检查、数据报告,都是经验反复出现的现场。
02 / PACKAGE
SKILL.md + references + scripts主文件承载边界和路径,长材料退到引用文件,确定性的动作交给脚本。
03 / EVALUATE
任务集、评分表、对照组比较 no-skill、原 skill、改进版 skill,观察它是否真的改变了行为。
04 / EVOLVE
Darwin Skill Loop让 Codex 审计失败样例,只接受能在验证集上成立的增删改。
在 Codex 里,skill 可以理解为一个可复用的工作流文件夹。它把任务规则、参考材料和必要脚本组织在一起,让 Codex 在合适的任务里按同一套路径行动。
普通提示词解决的是一次对话里的表达问题,skill 解决的是长期工作里的秩序问题。它让一类任务拥有稳定的入口、边界、资料来源、执行步骤和验收方式。
启动时,Codex 主要看到 skill 的名称、描述和路径。只有判断某个任务需要它时,才会读取完整的 SKILL.md。
你可以显式写 $skill-name 点名调用,也可以只描述任务,让 Codex 根据 description 隐式选择。
本地沉淀先写 skill。需要团队安装、绑定 MCP 或 App、进入 marketplace 时,再把 skill 包装成 plugin。
my-skill/
SKILL.md 必需:名称、描述、工作流
agents/
openai.yaml 可选:App 展示与调用策略
references/ 可选:长参考资料
style-guide.md
examples.md
scripts/ 可选:可执行校验或处理脚本
validate.py
assets/ 可选:模板、图片、数据
LICENSE.txt 可选:授权说明
核心文件。frontmatter 写 name 和 description,正文写 Codex 必须遵守的步骤、边界和输出要求。
放风格指南、业务规则、术语表、样例和反例。它们按需读取,避免主文件过长。
放确定性动作,例如校验格式、解析文件、生成截图、批量处理数据。判断留给说明,机械动作交给脚本。
用于 Codex App 的展示信息、默认提示、隐式调用策略和工具依赖声明。它是增强项,不是最小必需项。
好 skill 的起点不是“我想教 Codex 一个知识点”,而是“这里有一类工作,如果每次都重新解释,就会持续消耗判断力,并在细节处产生偏差”。
固定报告、运营复盘、客服质检、PR 审查、网页视觉检查,适合被整理成可调用的流程。
不能编造事实,不能改变业务口径,必须先问缺失信息。这样的边界,应当被写进 skill。
品牌规范、合同条款、写作范例、SQL 口径、组件说明,不应散落在每一次对话里。
有样例输入、理想输出、失败清单和评分标准,skill 才能进入自评和迭代阶段。
Codex 官方建议先从本地 skill 开始,稳定后再包装成 plugin。plugin 是分发单元,skill 才是工作流本身。两者不应混同。
在 Codex 里显式调用 $skill-creator,先说明用途、触发条件、边界和是否需要脚本。初版不必追求复杂,instruction-only 往往更接近真实起点。
$skill-creator 我想创建一个 skill: 用于把中文周报改成 5W1H 风格。 要求先识别缺失事实,不能替用户编造。
最小结构是一个文件夹加 SKILL.md。name 负责身份,description 负责触发判断。长模板放 references,确定性校验放 scripts。
my-skill/
SKILL.md
references/
examples.md
scripts/
validate.py
个人长期使用可放用户 skill 目录,团队项目可放仓库的 .agents/skills。Codex 采用渐进披露:启动时只看名称和描述,命中后才读完整说明。
.agents/skills/my-skill/SKILL.md --- name: my-skill description: Use when... ---
用 $skill-installer 安装 OpenAI curated 或 experimental skills,也可以把 GitHub 目录 URL 交给它。安装后若没有出现,重启 Codex。
$skill-installer gh-address-comments $skill-installer install https://github.com/openai/skills/tree/main/skills/.experimental/create-plan
如果要给团队安装、绑定 MCP、App 或发布到 marketplace,再用 @plugin-creator 打包。个人尝试不必过早进入分发形态。
@plugin-creator 目标:把一个稳定 skill 包装成可安装 plugin。
skill 的检验对象不是文本,而是行为。一个 skill 是否达标,要看 Codex 在真实任务里是否更稳定地触发、更少遗漏边界、更能完成目标,并且在同一批样例上优于 no-skill 对照组。
拖动滑杆,模拟一次 Darwin Skill 的评分。最低项就是下一轮让 Codex 审计的入口。
当前建议:先补齐验证任务集,再让 Codex 对失败样例做最小改动。
这段提示词的目的不是让 Codex 自我夸奖,而是让它把 skill 放进同一批任务里反复试,直到改动经得起验证。
请使用 Darwin Skill Loop 评估这个 skill。 输入: 1. skill 文件夹路径 2. 10 个真实任务样例 3. 评分 rubric 流程: 先跑 no-skill 对照,记录每个样例的结果。 再显式调用 skill,记录触发、完成、事实边界、流程遵循和回归风险。 如果未达标,只提出最小修改方案,说明修改位置和原因。 应用修改后重跑验证集,比较前后分数和失败类型。 最后给出是否建议人类接受这次修改的结论。 约束: 不要为了提高分数改变业务事实。 不要删除原有边界。 如果验证集没有提升,撤回本轮修改建议。
先从能立刻减少重复解释的基础类目开始。每个 skill 都应该有明确边界,否则它会很快变成“什么都能帮”,最后也就什么都难以稳定完成。
先问缺失 5W1H,再改写成可提交版本。它保护的是事实边界,而不只是语言顺滑。
把业务背景、角色、流程、规则、异常、验收口径整理成可评审文档。
用于落地页、作品集、改版页面,按视觉密度、配色、排版和移动端做审计。
规定必须先查来源、标注不确定性、分清事实和推断,适合竞品和政策研究。
固定指标定义、对比周期、异常诊断和图表选择,减少每次重写分析口径。
专门检查 name、description、渐进披露、触发边界、测试样例和回归风险。
本页按官方 Codex 手册、OpenAI skills 仓库、Agent Skills 规范,以及最近一个月的公开研究整理。当前能初步判断的是:skill 正在从“提示词资产”转向“可评估的工作流资产”。
官方说明:skill 是 instructions、resources、optional scripts 的包,支持 CLI、IDE extension 和 Codex app;插件用于分发。
OpenAI 仓库展示了 system、curated、experimental skills,并说明可用 $skill-installer 从名称或 GitHub 目录安装。
规范定义 SKILL.md 的 frontmatter、目录结构、渐进披露、references、scripts 和校验方式。
OpenSkillEval、SkillOpt、SkillWiki 和 Agentic Skills Evaluation 共同指向一个趋势:skill 需要任务集、评分器和可回归的自我改进闭环。