Skip to content

三类业务统一 SOP 主文档

版本: v0.5-alpha · 2026-06-13 适用: chunx 内部团队 (出题人 / 教案人 / 评测人 / 审核人 / 项目经理) 主管理底座: 飞书多维表格 (Lark Bitable)


1. 三类业务一图速览

                ┌─────────────────────────────────────────┐
                │       chunx 三类业务 1 张图             │
                └─────────────────────────────────────────┘

┌─ 第一类 ─ 出题 (LLM 答题) ──────────┐
│  甲方: 行业头部 / 模型评测方       │ → ecc-vert-case   v1.0
│  产出: 12 案例主稿 + 50 附件        │   9 脚本 / 12 行业
│  周期: 2-3 周 / 单价: 高           │
└────────────────────────────────────┘

┌─ 第二类 ─ 知识教案 (agent 知识) ────┐
│  甲方: agent 训练方 / 头部模型公司   │ → agent-knowledge-task v0.5
│  产出: 6 领域 × 200-500 条          │   8 脚本 / 6 领域
│  周期: 1-2 周 / 单价: 中           │
└────────────────────────────────────┘

┌─ 第三类 ─ 基准评测 (agent 端到端) ───┐
│  甲方: 模型评测方 / 标杆评测项目     │ → agent-benchmark-lab v0.5
│  产出: 18 task_spec + 6 类 L3      │   8 脚本 / 6 类 L3
│  周期: 1-2 天 / 单价: 高 (按测量级) │
└────────────────────────────────────┘

2. 三类业务统一的"5 P0 红线 抽象层"

抽象 P0 第一类 (出题) 第二类 (知识教案) 第三类 (基准评测)
P0-1 真人不可替代 12 行业专家 review 12 主稿 6 行业真人梳理 1100-2600 条 12 行业专家跑评测
P0-2 数据脱敏 客户名/UID/人名 真人案例/事故 评测数据集
P0-3 可复现 git 可回滚 1 份完整示范 (4 段) Docker 隔离 + 隐藏种子
P0-4 可审计 9 维度打分 3 维验收 (密度/链/术语) pass@k harness + 难度锚
P0-5 AI 痕迹自检 数字做旧 AI 模拟数据 评测公平性

任何 P0 触红线 → 立刻停, 触发整改, 不允许"差不多就行"。


3. 6 阶段统一生产闭环

[需求接入] → [立项+准入] → [生产执行] → [自审 P0] → [真人 review] → [交付+复盘]
   1天          1-3天         主体周期       0.5-1天     2-5天         1天

3.1 阶段 1: 需求接入 (1 天)

  • 甲方下发 docx/zip/飞书云文档 链接
  • 飞书多维表格"需求接入表"建项, 字段: 业务类别 / 甲方 / 单据号 / 文件链接 / 到期日 / 负责人 / 状态
  • 业务负责人 invoke 对应 skill

3.2 阶段 2: 立项+准入 (1-3 天)

准入 8 项必过:

  • 需求文档完整 (含 5 P0 说明)
  • 行业方向明确
  • 真人资源排期到位
  • 工具链齐全 (skill 三件套 + 飞书表)
  • references/历次踩坑.md 通读
  • 预算/单价/付款达成
  • 风险评估
  • 三方启动会议

任何 1 项不过 → 不立项。

3.3 阶段 3: 生产执行

按对应 skill 跑: - 第一类: ecc-vert-case/scripts/01-07.py - 第二类: agent-knowledge-task/scripts/01-08.py - 第三类: agent-benchmark-lab/scripts/01-08.py

每跑一脚本 → 飞书多维表格"生产进度表"更新一行。

3.4 阶段 4: 自审 P0 (0.5-1 天)

  • 第一类: audit_code_reviewer.py
  • 第二类: 04_写验收.py + 06_知识密度审计.py + 07_推理链审计.py
  • 第三类: 02_audit_5P0.py + 06_docker_isolation.py + 07_pass_at_k_harness.py

5 P0 任意触红线 → 整改 → 重跑 → 全过才进下阶段。

3.5 阶段 5: 真人 review (2-5 天)

P0-1 的真正实现: - 行业专家逐条 review (不允许"抽样") - 审核人按"审核要点速查手册"逐项打分 - 修订建议 → 反馈生产 → 重跑 → 再 review

3.6 阶段 6: 交付+复盘 (1 天)

  • 08_交付打包.py → zip
  • CSV 双轨产出 → 导入飞书多维表格"交付总表"
  • 复盘会议 5 项必谈: 时间偏差 / P0 触发次数 / 缺陷率 / 甲方反馈 / 改进项

4. 1 句话触发 (新员工)

业务 触发语 自动 invoke
第一类 "我要做 vert 出题" / "12 案例" ecc-vert-case
第二类 "我要做 CAD 知识教案" / "agent 领域知识任务" agent-knowledge-task
第三类 "我要做 agent 端到端基准评测" / "跑 V5-benchmark" agent-benchmark-lab

5. 飞书多维表格表结构 (主管理底座)

7 主表 + 3 辅助表:

主表: 1. 需求接入表 — 类别/甲方/单号/文件链接/到期日/负责人/状态 2. 项目立项表 — 项目ID/类别/准入8项/启动日/预计交付/PM/专家 3. 生产进度表 — task_id/脚本/跑通日期/备注/卡点/负责人 4. P0 红线表 — 项目ID/P0编号/触发日/原因/整改人/整改日/状态 5. 真人 review 表 — 项目ID/条目ID/审核人/评分/缺陷/修订建议/完成日 6. 交付总表 — 项目ID/交付日/zip路径/验收/反馈/复盘日 7. 复盘归档表 — 项目ID/时间偏差/P0次数/缺陷率/改进项/责任人

辅助表: 8. 甲方画像表 — 甲方/类别/单价区间/偏好/历史合作单数 9. 行业专家表 — 姓名/行业/排期日历/工时单价/联系 10. 历次踩坑表 — 项目ID/踩坑事件/根因/解决方案/已写入文档(是/否)


6. 关键 KPI (PM 周报必填)

KPI 第一类 第二类 第三类
周期 (天) ≤21 ≤14 ≤2
P0 触发次数 ≤1 ≤2 ≤1
缺陷率 ≤10% ≤15% ≤10%
甲方一次过率 ≥80% ≥75% ≥80%
复盘归档率 100% 100% 100%

7. 必读伴随文档

文档 角色
sop/02_甲方需求与审核要点.md 出题人 / 审核人
sop/03_项目管理_甘特+checklist.md 项目经理
sop/04_5角色SOP教程.md 全员
toolbox/01_方法论与工具箱.md 全员
training/01_新员工1周上手.md 新员工
audit-mock/01_对抗审查报告.md 审核人

归属: ~/.claude/skills/ecc-shared/sop/01_统一SOP主文档.md 适用: 三类业务全员