Skip to content

三类业务甲方需求 + 审核要点速查手册

版本: v0.5-alpha · 2026-06-13 用途: 接手新项目立即翻一遍, 防漏验收点


一、第一类 · 垂域出题

1.1 甲方需求 7 件套

  • 甲方业务介绍 (≥1 页)
  • 目标 LLM 测什么能力
  • 12 行业/类目配比
  • L1/L2/L3 难度分布
  • 附件量级 (每案例 3-50 份, 真实数据)
  • 验收标准 (9 维度阈值)
  • 付款条款

1.2 审核要点 (9 维度)

# 维度 权重 红线
1 真实数据源 15 假来源 / 链接 404
2 数值一致性 13 主稿 vs 附件 vs 公式 三方差 >5%
3 推理链完整 12 跳跃
4 附件真实可信 11 AI 模拟
5 8.2.7 多样性 10 12 案例同质
6 L1/L3 均衡 9 L1 >60%
7 发文机关真实 9 虚构监管局
8 历史日期合理 8 时间错乱
9 客户脱敏 8 UID/手机号泄露

1.3 拒收原因 Top 10

  1. AI 痕迹明显 (数字 0.85/0.90/0.95 工整)
  2. 附件用 ChatGPT 生成假数据
  3. 多案例同主题 (4 个都是客户流失)
  4. L1 占比 >60% (太简单)
  5. 推理链断裂
  6. 真实数据源链接 404
  7. 客户 UID 直接出现
  8. 数值不对账 (主稿 12.3% / 附件算 15%)
  9. 虚构监管机关
  10. ≥3 个案例同客户名

二、第二类 · 知识教案

2.1 甲方需求 6 件套

  • agent 训练目标
  • 6 领域/量级 (200-500 条/领域)
  • 字段规范 (行业/学历/年限/知识点/格式)
  • 1 份完整示范要求 (4 段)
  • 验收 3 维 (密度/链/术语)
  • 交付物形态 (JSON/MD/xlsx)

2.2 审核要点 (3 维)

# 维度 阈值 自动审核 红线
1 知识密度 ≥5 kp/条 06_知识密度审计.py <5
2 推理链完整 4 段全有 07_推理链审计.py 缺段
3 术语规范 100% 真人 review 用泛词

2.3 拒收原因 Top 10

  1. 知识密度 <5 (AI 写不到 5 真知识点)
  2. 推理链跳跃 (代码变量未定义直接用)
  3. 用"XX 系统/某软件"等泛词
  4. Task 示例代码跑不通
  5. KP 是泛泛而谈不是具体知识
  6. BK 段落太短 (<200 字)
  7. 案例不真实
  8. 6 领域配比偏离 (工程 80%)
  9. 跨领域知识混淆 (CAD 写成 SolidWorks 用法)
  10. 整批 AI 生成无真人 review 痕迹

三、第三类 · Agent 基准评测

3.1 甲方需求 8 件套

  • 6 类 L3 范围
  • 18 task_spec (含难度锚 + headroom)
  • judge_public.py
  • cases.json (14 case)
  • Dockerfile + requirements.txt
  • 隐藏种子 + 反作弊
  • 难度 anchor 标注
  • 评测报告模板

3.2 审核要点 (5 P0)

# P0 自动审核 触红线后果
1 评测公平性 隐藏种子检查 评测无效
2 数据集泄漏 02_audit_5P0.py 评测失真
3 越权执行 06_docker_isolation.py 安全事故
4 不可复现 Dockerfile 校验 整批作废
5 无难度标注 anchor/headroom 字段校验 难度不可比

重点维度: - 8.2.1 证据链 (9 分) — arxiv/SWE-bench/AutoLab 真实来源 - 8.2.5 计算公式 (13 分) — speedup = baseline_s/median

3.3 拒收原因 Top 10

  1. judge_public.py 跑挂/超时
  2. Docker 起不来
  3. 评测题被 agent 训练过 (污染)
  4. 没隐藏种子, 多次跑结果差很多
  5. scenario.py 误伤主机
  6. 难度锚不一致 (一个 L3 比 L1 简单)
  7. 真实事件源链接 404 (SWE-bench issue close)
  8. pass@k 公式错
  9. 评测报告无失败轨迹
  10. baseline 缺失, 无法算 speedup

四、三类业务通用拒收三大共因

  1. AI 痕迹明显 (数字整齐, 用词官方, 句式重复)
  2. 真人 review 痕迹缺失 (无手工修订, 无专家签字)
  3. 数据脱敏不彻底 (漏 UID, 漏手机号, 漏内部代号)

五、审核人工作流 (1 项目 1-2 天)

Day 1:
 08:00 接手, 飞书"真人 review 表"建项
 08:30 跑自审脚本看 5 P0 + 9 维
 09:00 逐条 review (二类 200-500 条/天, 一/三类 12 主稿/天)
 16:00 整理缺陷, 反馈生产
 17:00 收工

Day 2:
 09:00 等修订完, 重审
 14:00 完成, "真人 review 表"标 done, 通知 PM

六、配套查询命令

查啥 命令
历次踩坑 cat ~/.claude/skills/ecc-vert-case/references/历次踩坑.md
12 类目配比 cat ~/.claude/skills/ecc-vert-case/references/8类目配比.md
6 领域分类 cat ~/.claude/skills/agent-knowledge-task/references/6领域分类表.md
6 类 L3 基准 cat ~/.claude/skills/agent-benchmark-lab/references/6类L3基准.md
甲方要求模板 cat ~/.claude/skills/ecc-vert-case/references/甲方要求模板.md

归属: ~/.claude/skills/ecc-shared/sop/02_甲方需求与审核要点.md 更新: 每项目复盘补充新拒收原因