三类业务统一 SOP 主文档¶

版本: v0.5-alpha · 2026-06-13 适用: chunx 内部团队 (出题人 / 教案人 / 评测人 / 审核人 / 项目经理) 主管理底座: 飞书多维表格 (Lark Bitable)

1. 三类业务一图速览¶

                ┌─────────────────────────────────────────┐
                │       chunx 三类业务 1 张图             │
                └─────────────────────────────────────────┘

┌─ 第一类 ─ 出题 (LLM 答题) ──────────┐
│  甲方: 行业头部 / 模型评测方       │ → ecc-vert-case   v1.0
│  产出: 12 案例主稿 + 50 附件        │   9 脚本 / 12 行业
│  周期: 2-3 周 / 单价: 高           │
└────────────────────────────────────┘

┌─ 第二类 ─ 知识教案 (agent 知识) ────┐
│  甲方: agent 训练方 / 头部模型公司   │ → agent-knowledge-task v0.5
│  产出: 6 领域 × 200-500 条          │   8 脚本 / 6 领域
│  周期: 1-2 周 / 单价: 中           │
└────────────────────────────────────┘

┌─ 第三类 ─ 基准评测 (agent 端到端) ───┐
│  甲方: 模型评测方 / 标杆评测项目     │ → agent-benchmark-lab v0.5
│  产出: 18 task_spec + 6 类 L3      │   8 脚本 / 6 类 L3
│  周期: 1-2 天 / 单价: 高 (按测量级) │
└────────────────────────────────────┘

2. 三类业务统一的"5 P0 红线抽象层"¶

抽象 P0	第一类 (出题)	第二类 (知识教案)	第三类 (基准评测)
P0-1 真人不可替代	12 行业专家 review 12 主稿	6 行业真人梳理 1100-2600 条	12 行业专家跑评测
P0-2 数据脱敏	客户名/UID/人名	真人案例/事故	评测数据集
P0-3 可复现	git 可回滚	1 份完整示范 (4 段)	Docker 隔离 + 隐藏种子
P0-4 可审计	9 维度打分	3 维验收 (密度/链/术语)	pass@k harness + 难度锚
P0-5 AI 痕迹自检	数字做旧	AI 模拟数据	评测公平性

任何 P0 触红线 → 立刻停, 触发整改, 不允许"差不多就行"。

3. 6 阶段统一生产闭环¶

[需求接入] → [立项+准入] → [生产执行] → [自审 P0] → [真人 review] → [交付+复盘]
   1天          1-3天         主体周期       0.5-1天     2-5天         1天

3.1 阶段 1: 需求接入 (1 天)¶

甲方下发 docx/zip/飞书云文档链接
飞书多维表格"需求接入表"建项, 字段: 业务类别 / 甲方 / 单据号 / 文件链接 / 到期日 / 负责人 / 状态
业务负责人 invoke 对应 skill

3.2 阶段 2: 立项+准入 (1-3 天)¶

准入 8 项必过:

任何 1 项不过 → 不立项。

3.3 阶段 3: 生产执行¶

按对应 skill 跑: - 第一类: ecc-vert-case/scripts/01-07.py - 第二类: agent-knowledge-task/scripts/01-08.py - 第三类: agent-benchmark-lab/scripts/01-08.py

每跑一脚本 → 飞书多维表格"生产进度表"更新一行。

3.4 阶段 4: 自审 P0 (0.5-1 天)¶

第一类: audit_code_reviewer.py
第二类: 04_写验收.py + 06_知识密度审计.py + 07_推理链审计.py
第三类: 02_audit_5P0.py + 06_docker_isolation.py + 07_pass_at_k_harness.py

5 P0 任意触红线 → 整改 → 重跑 → 全过才进下阶段。

3.5 阶段 5: 真人 review (2-5 天)¶

P0-1 的真正实现: - 行业专家逐条 review (不允许"抽样") - 审核人按"审核要点速查手册"逐项打分 - 修订建议 → 反馈生产 → 重跑 → 再 review

3.6 阶段 6: 交付+复盘 (1 天)¶

跑 08_交付打包.py → zip
CSV 双轨产出 → 导入飞书多维表格"交付总表"
复盘会议 5 项必谈: 时间偏差 / P0 触发次数 / 缺陷率 / 甲方反馈 / 改进项

4. 1 句话触发 (新员工)¶

业务	触发语	自动 invoke
第一类	"我要做 vert 出题" / "12 案例"	ecc-vert-case
第二类	"我要做 CAD 知识教案" / "agent 领域知识任务"	agent-knowledge-task
第三类	"我要做 agent 端到端基准评测" / "跑 V5-benchmark"	agent-benchmark-lab

5. 飞书多维表格表结构 (主管理底座)¶

7 主表 + 3 辅助表:

主表: 1. 需求接入表 — 类别/甲方/单号/文件链接/到期日/负责人/状态 2. 项目立项表 — 项目ID/类别/准入8项/启动日/预计交付/PM/专家 3. 生产进度表 — task_id/脚本/跑通日期/备注/卡点/负责人 4. P0 红线表 — 项目ID/P0编号/触发日/原因/整改人/整改日/状态 5. 真人 review 表 — 项目ID/条目ID/审核人/评分/缺陷/修订建议/完成日 6. 交付总表 — 项目ID/交付日/zip路径/验收/反馈/复盘日 7. 复盘归档表 — 项目ID/时间偏差/P0次数/缺陷率/改进项/责任人

辅助表: 8. 甲方画像表 — 甲方/类别/单价区间/偏好/历史合作单数 9. 行业专家表 — 姓名/行业/排期日历/工时单价/联系 10. 历次踩坑表 — 项目ID/踩坑事件/根因/解决方案/已写入文档(是/否)

6. 关键 KPI (PM 周报必填)¶

KPI	第一类	第二类	第三类
周期 (天)	≤21	≤14	≤2
P0 触发次数	≤1	≤2	≤1
缺陷率	≤10%	≤15%	≤10%
甲方一次过率	≥80%	≥75%	≥80%
复盘归档率	100%	100%	100%

7. 必读伴随文档¶

文档	角色
`sop/02_甲方需求与审核要点.md`	出题人 / 审核人
`sop/03_项目管理_甘特+checklist.md`	项目经理
`sop/04_5角色SOP教程.md`	全员
`toolbox/01_方法论与工具箱.md`	全员
`training/01_新员工1周上手.md`	新员工
`audit-mock/01_对抗审查报告.md`	审核人

归属: ~/.claude/skills/ecc-shared/sop/01_统一SOP主文档.md 适用: 三类业务全员