三类业务统一 SOP 主文档¶
版本: v0.5-alpha · 2026-06-13 适用: chunx 内部团队 (出题人 / 教案人 / 评测人 / 审核人 / 项目经理) 主管理底座: 飞书多维表格 (Lark Bitable)
1. 三类业务一图速览¶
┌─────────────────────────────────────────┐
│ chunx 三类业务 1 张图 │
└─────────────────────────────────────────┘
┌─ 第一类 ─ 出题 (LLM 答题) ──────────┐
│ 甲方: 行业头部 / 模型评测方 │ → ecc-vert-case v1.0
│ 产出: 12 案例主稿 + 50 附件 │ 9 脚本 / 12 行业
│ 周期: 2-3 周 / 单价: 高 │
└────────────────────────────────────┘
┌─ 第二类 ─ 知识教案 (agent 知识) ────┐
│ 甲方: agent 训练方 / 头部模型公司 │ → agent-knowledge-task v0.5
│ 产出: 6 领域 × 200-500 条 │ 8 脚本 / 6 领域
│ 周期: 1-2 周 / 单价: 中 │
└────────────────────────────────────┘
┌─ 第三类 ─ 基准评测 (agent 端到端) ───┐
│ 甲方: 模型评测方 / 标杆评测项目 │ → agent-benchmark-lab v0.5
│ 产出: 18 task_spec + 6 类 L3 │ 8 脚本 / 6 类 L3
│ 周期: 1-2 天 / 单价: 高 (按测量级) │
└────────────────────────────────────┘
2. 三类业务统一的"5 P0 红线 抽象层"¶
| 抽象 P0 | 第一类 (出题) | 第二类 (知识教案) | 第三类 (基准评测) |
|---|---|---|---|
| P0-1 真人不可替代 | 12 行业专家 review 12 主稿 | 6 行业真人梳理 1100-2600 条 | 12 行业专家跑评测 |
| P0-2 数据脱敏 | 客户名/UID/人名 | 真人案例/事故 | 评测数据集 |
| P0-3 可复现 | git 可回滚 | 1 份完整示范 (4 段) | Docker 隔离 + 隐藏种子 |
| P0-4 可审计 | 9 维度打分 | 3 维验收 (密度/链/术语) | pass@k harness + 难度锚 |
| P0-5 AI 痕迹自检 | 数字做旧 | AI 模拟数据 | 评测公平性 |
任何 P0 触红线 → 立刻停, 触发整改, 不允许"差不多就行"。
3. 6 阶段统一生产闭环¶
3.1 阶段 1: 需求接入 (1 天)¶
- 甲方下发 docx/zip/飞书云文档 链接
- 飞书多维表格"需求接入表"建项, 字段: 业务类别 / 甲方 / 单据号 / 文件链接 / 到期日 / 负责人 / 状态
- 业务负责人 invoke 对应 skill
3.2 阶段 2: 立项+准入 (1-3 天)¶
准入 8 项必过:
- 需求文档完整 (含 5 P0 说明)
- 行业方向明确
- 真人资源排期到位
- 工具链齐全 (skill 三件套 + 飞书表)
-
references/历次踩坑.md通读 - 预算/单价/付款达成
- 风险评估
- 三方启动会议
任何 1 项不过 → 不立项。
3.3 阶段 3: 生产执行¶
按对应 skill 跑:
- 第一类: ecc-vert-case/scripts/01-07.py
- 第二类: agent-knowledge-task/scripts/01-08.py
- 第三类: agent-benchmark-lab/scripts/01-08.py
每跑一脚本 → 飞书多维表格"生产进度表"更新一行。
3.4 阶段 4: 自审 P0 (0.5-1 天)¶
- 第一类:
audit_code_reviewer.py - 第二类:
04_写验收.py + 06_知识密度审计.py + 07_推理链审计.py - 第三类:
02_audit_5P0.py + 06_docker_isolation.py + 07_pass_at_k_harness.py
5 P0 任意触红线 → 整改 → 重跑 → 全过才进下阶段。
3.5 阶段 5: 真人 review (2-5 天)¶
P0-1 的真正实现: - 行业专家逐条 review (不允许"抽样") - 审核人按"审核要点速查手册"逐项打分 - 修订建议 → 反馈生产 → 重跑 → 再 review
3.6 阶段 6: 交付+复盘 (1 天)¶
- 跑
08_交付打包.py→ zip - CSV 双轨产出 → 导入飞书多维表格"交付总表"
- 复盘会议 5 项必谈: 时间偏差 / P0 触发次数 / 缺陷率 / 甲方反馈 / 改进项
4. 1 句话触发 (新员工)¶
| 业务 | 触发语 | 自动 invoke |
|---|---|---|
| 第一类 | "我要做 vert 出题" / "12 案例" | ecc-vert-case |
| 第二类 | "我要做 CAD 知识教案" / "agent 领域知识任务" | agent-knowledge-task |
| 第三类 | "我要做 agent 端到端基准评测" / "跑 V5-benchmark" | agent-benchmark-lab |
5. 飞书多维表格表结构 (主管理底座)¶
7 主表 + 3 辅助表:
主表: 1. 需求接入表 — 类别/甲方/单号/文件链接/到期日/负责人/状态 2. 项目立项表 — 项目ID/类别/准入8项/启动日/预计交付/PM/专家 3. 生产进度表 — task_id/脚本/跑通日期/备注/卡点/负责人 4. P0 红线表 — 项目ID/P0编号/触发日/原因/整改人/整改日/状态 5. 真人 review 表 — 项目ID/条目ID/审核人/评分/缺陷/修订建议/完成日 6. 交付总表 — 项目ID/交付日/zip路径/验收/反馈/复盘日 7. 复盘归档表 — 项目ID/时间偏差/P0次数/缺陷率/改进项/责任人
辅助表: 8. 甲方画像表 — 甲方/类别/单价区间/偏好/历史合作单数 9. 行业专家表 — 姓名/行业/排期日历/工时单价/联系 10. 历次踩坑表 — 项目ID/踩坑事件/根因/解决方案/已写入文档(是/否)
6. 关键 KPI (PM 周报必填)¶
| KPI | 第一类 | 第二类 | 第三类 |
|---|---|---|---|
| 周期 (天) | ≤21 | ≤14 | ≤2 |
| P0 触发次数 | ≤1 | ≤2 | ≤1 |
| 缺陷率 | ≤10% | ≤15% | ≤10% |
| 甲方一次过率 | ≥80% | ≥75% | ≥80% |
| 复盘归档率 | 100% | 100% | 100% |
7. 必读伴随文档¶
| 文档 | 角色 |
|---|---|
sop/02_甲方需求与审核要点.md |
出题人 / 审核人 |
sop/03_项目管理_甘特+checklist.md |
项目经理 |
sop/04_5角色SOP教程.md |
全员 |
toolbox/01_方法论与工具箱.md |
全员 |
training/01_新员工1周上手.md |
新员工 |
audit-mock/01_对抗审查报告.md |
审核人 |
归属: ~/.claude/skills/ecc-shared/sop/01_统一SOP主文档.md
适用: 三类业务全员