基于 2026 年 6 月 18 日可查资料整理

让经验成为 Skill

Skill 的价值，并不在于把提示词写得更长，而在于把一类反复发生的工作，安放进可被发现、可被执行、可被检验的秩序里。真正的入门，是先判断哪一种经验值得沉淀，再用样例和评分闭环证明它没有辜负这次沉淀。

进入构建路径审视评分闭环

skill-lifecycle.mdready

01 / SCENE

重复、易漏、标准明确

周报润色、BRD 起草、PDF 复核、前端审美检查、数据报告，都是经验反复出现的现场。

02 / PACKAGE

SKILL.md + references + scripts

主文件承载边界和路径，长材料退到引用文件，确定性的动作交给脚本。

03 / EVALUATE

任务集、评分表、对照组

比较 no-skill、原 skill、改进版 skill，观察它是否真的改变了行为。

04 / EVOLVE

Darwin Skill Loop

让 Codex 审计失败样例，只接受能在验证集上成立的增删改。

什么是 Skill

在 Codex 里，skill 可以理解为一个可复用的工作流文件夹。它把任务规则、参考材料和必要脚本组织在一起，让 Codex 在合适的任务里按同一套路径行动。

definition

它不是更长的提示词

普通提示词解决的是一次对话里的表达问题，skill 解决的是长期工作里的秩序问题。它让一类任务拥有稳定的入口、边界、资料来源、执行步骤和验收方式。

Codex 先看到什么

启动时，Codex 主要看到 skill 的名称、描述和路径。只有判断某个任务需要它时，才会读取完整的 SKILL.md。

后续怎么触发

你可以显式写 $skill-name 点名调用，也可以只描述任务，让 Codex 根据 description 隐式选择。

什么时候做成 plugin

本地沉淀先写 skill。需要团队安装、绑定 MCP 或 App、进入 marketplace 时，再把 skill 包装成 plugin。

files

一个 skill 通常包含哪些文件

my-skill/
  SKILL.md                 必需：名称、描述、工作流
  agents/
    openai.yaml            可选：App 展示与调用策略
  references/              可选：长参考资料
    style-guide.md
    examples.md
  scripts/                 可选：可执行校验或处理脚本
    validate.py
  assets/                  可选：模板、图片、数据
  LICENSE.txt              可选：授权说明

SKILL.md

核心文件。frontmatter 写 name 和 description，正文写 Codex 必须遵守的步骤、边界和输出要求。

references/

放风格指南、业务规则、术语表、样例和反例。它们按需读取，避免主文件过长。

scripts/

放确定性动作，例如校验格式、解析文件、生成截图、批量处理数据。判断留给说明，机械动作交给脚本。

agents/openai.yaml

用于 Codex App 的展示信息、默认提示、隐式调用策略和工具依赖声明。它是增强项，不是最小必需项。

先辨认值得沉淀的现场

好 skill 的起点不是“我想教 Codex 一个知识点”，而是“这里有一类工作，如果每次都重新解释，就会持续消耗判断力，并在细节处产生偏差”。

高频

每周都会出现

固定报告、运营复盘、客服质检、PR 审查、网页视觉检查，适合被整理成可调用的流程。

规则

有明确禁区

不能编造事实，不能改变业务口径，必须先问缺失信息。这样的边界，应当被写进 skill。

材料

依赖模板或参考

品牌规范、合同条款、写作范例、SQL 口径、组件说明，不应散落在每一次对话里。

验证

结果能被验收

有样例输入、理想输出、失败清单和评分标准，skill 才能进入自评和迭代阶段。

从一份文件开始建立秩序

Codex 官方建议先从本地 skill 开始，稳定后再包装成 plugin。plugin 是分发单元，skill 才是工作流本身。两者不应混同。

step 01

用内置创建器起草

在 Codex 里显式调用 $skill-creator，先说明用途、触发条件、边界和是否需要脚本。初版不必追求复杂，instruction-only 往往更接近真实起点。

$skill-creator

我想创建一个 skill：
用于把中文周报改成 5W1H 风格。
要求先识别缺失事实，不能替用户编造。

step 02

手工结构保持简单

最小结构是一个文件夹加 SKILL.md。name 负责身份，description 负责触发判断。长模板放 references，确定性校验放 scripts。

my-skill/
  SKILL.md
  references/
    examples.md
  scripts/
    validate.py

step 03

放到正确位置

个人长期使用可放用户 skill 目录，团队项目可放仓库的 .agents/skills。Codex 采用渐进披露：启动时只看名称和描述，命中后才读完整说明。

.agents/skills/my-skill/SKILL.md

---
name: my-skill
description: Use when...
---

step 04

从 GitHub 安装他人的 skill

用 $skill-installer 安装 OpenAI curated 或 experimental skills，也可以把 GitHub 目录 URL 交给它。安装后若没有出现，重启 Codex。

$skill-installer gh-address-comments

$skill-installer install
https://github.com/openai/skills/tree/main/skills/.experimental/create-plan

step 05

要分发时再做 plugin

如果要给团队安装、绑定 MCP、App 或发布到 marketplace，再用 @plugin-creator 打包。个人尝试不必过早进入分发形态。

@plugin-creator

目标：把一个稳定 skill
包装成可安装 plugin。

如何判断这个 Skill 的效果

skill 的检验对象不是文本，而是行为。一个 skill 是否达标，要看 Codex 在真实任务里是否更稳定地触发、更少遗漏边界、更能完成目标，并且在同一批样例上优于 no-skill 对照组。

建立样例任务集 AI 检测是否达标生成改进方案实测验证效果人类确认结果

Darwin Skill Loop 怎么用

01 baseline

先准备 5 到 10 个真实任务，跑一次 no-skill 对照，留下原始完成质量。

02 audit

让 Codex 显式调用 skill 执行同一批任务，按触发、完成、事实边界、流程遵循打分。

03 proposal

不达标时，让 Codex 根据失败样例提出最小修改方案，而不是重写整个 skill。

04 validation

把改动后的 skill 重跑验证集，比较分数、失败类型和是否出现新回归。

05 confirmation

最后由人确认：改进是否符合业务口径，是否值得进入个人复用或团队分发。

accept rule

只有验证效果提升、边界没有变形、旧样例没有明显退化，才接受这次修改。

Darwin rubric

给当前 skill 留下分数

拖动滑杆，模拟一次 Darwin Skill 的评分。最低项就是下一轮让 Codex 审计的入口。

触发描述清晰度 7

步骤可执行性 7

资料拆分质量 6

验证样例覆盖 5

失败后修正能力 5

60/100

需要补验证集

当前建议：先补齐验证任务集，再让 Codex 对失败样例做最小改动。

可直接交给 Codex 的验证提示

这段提示词的目的不是让 Codex 自我夸奖，而是让它把 skill 放进同一批任务里反复试，直到改动经得起验证。

请使用 Darwin Skill Loop 评估这个 skill。

输入：
1. skill 文件夹路径
2. 10 个真实任务样例
3. 评分 rubric

流程：
先跑 no-skill 对照，记录每个样例的结果。
再显式调用 skill，记录触发、完成、事实边界、流程遵循和回归风险。
如果未达标，只提出最小修改方案，说明修改位置和原因。
应用修改后重跑验证集，比较前后分数和失败类型。
最后给出是否建议人类接受这次修改的结论。

约束：
不要为了提高分数改变业务事实。
不要删除原有边界。
如果验证集没有提升，撤回本轮修改建议。

从基础 Skill 建立个人秩序

先从能立刻减少重复解释的基础类目开始。每个 skill 都应该有明确边界，否则它会很快变成“什么都能帮”，最后也就什么都难以稳定完成。

材料与近月余波

本页按官方 Codex 手册、OpenAI skills 仓库、Agent Skills 规范，以及最近一个月的公开研究整理。当前能初步判断的是：skill 正在从“提示词资产”转向“可评估的工作流资产”。

Codex Agent Skills

官方说明：skill 是 instructions、resources、optional scripts 的包，支持 CLI、IDE extension 和 Codex app；插件用于分发。

developers.openai.com/codex/skills.md

OpenAI Skills Catalog

OpenAI 仓库展示了 system、curated、experimental skills，并说明可用 $skill-installer 从名称或 GitHub 目录安装。

github.com/openai/skills

Agent Skills Specification

规范定义 SKILL.md 的 frontmatter、目录结构、渐进披露、references、scripts 和校验方式。

agentskills.io/specification

2026 年 5 月到 6 月研究

OpenSkillEval、SkillOpt、SkillWiki 和 Agentic Skills Evaluation 共同指向一个趋势：skill 需要任务集、评分器和可回归的自我改进闭环。

OpenSkillEval · SkillOpt · SkillWiki · Evaluation Framework

什么是 Skill

它不是更长的提示词

一个 skill 通常包含哪些文件

先辨认值得沉淀的现场

从一份文件开始建立秩序

如何判断这个 Skill 的效果

给当前 skill 留下分数

可直接交给 Codex 的验证提示

从基础 Skill 建立个人秩序

中文周报润色

BRD 生成

前端审美检查

资料溯源报告

数据报告框架

Skill 审计器

材料与近月余波