三类业务甲方需求 + 审核要点速查手册
版本: v0.5-alpha · 2026-06-13
用途: 接手新项目立即翻一遍, 防漏验收点
一、第一类 · 垂域出题
1.1 甲方需求 7 件套
1.2 审核要点 (9 维度)
| # |
维度 |
权重 |
红线 |
| 1 |
真实数据源 |
15 |
假来源 / 链接 404 |
| 2 |
数值一致性 |
13 |
主稿 vs 附件 vs 公式 三方差 >5% |
| 3 |
推理链完整 |
12 |
跳跃 |
| 4 |
附件真实可信 |
11 |
AI 模拟 |
| 5 |
8.2.7 多样性 |
10 |
12 案例同质 |
| 6 |
L1/L3 均衡 |
9 |
L1 >60% |
| 7 |
发文机关真实 |
9 |
虚构监管局 |
| 8 |
历史日期合理 |
8 |
时间错乱 |
| 9 |
客户脱敏 |
8 |
UID/手机号泄露 |
1.3 拒收原因 Top 10
- AI 痕迹明显 (数字 0.85/0.90/0.95 工整)
- 附件用 ChatGPT 生成假数据
- 多案例同主题 (4 个都是客户流失)
- L1 占比 >60% (太简单)
- 推理链断裂
- 真实数据源链接 404
- 客户 UID 直接出现
- 数值不对账 (主稿 12.3% / 附件算 15%)
- 虚构监管机关
- ≥3 个案例同客户名
二、第二类 · 知识教案
2.1 甲方需求 6 件套
2.2 审核要点 (3 维)
| # |
维度 |
阈值 |
自动审核 |
红线 |
| 1 |
知识密度 |
≥5 kp/条 |
06_知识密度审计.py |
<5 |
| 2 |
推理链完整 |
4 段全有 |
07_推理链审计.py |
缺段 |
| 3 |
术语规范 |
100% |
真人 review |
用泛词 |
2.3 拒收原因 Top 10
- 知识密度 <5 (AI 写不到 5 真知识点)
- 推理链跳跃 (代码变量未定义直接用)
- 用"XX 系统/某软件"等泛词
- Task 示例代码跑不通
- KP 是泛泛而谈不是具体知识
- BK 段落太短 (<200 字)
- 案例不真实
- 6 领域配比偏离 (工程 80%)
- 跨领域知识混淆 (CAD 写成 SolidWorks 用法)
- 整批 AI 生成无真人 review 痕迹
三、第三类 · Agent 基准评测
3.1 甲方需求 8 件套
3.2 审核要点 (5 P0)
| # |
P0 |
自动审核 |
触红线后果 |
| 1 |
评测公平性 |
隐藏种子检查 |
评测无效 |
| 2 |
数据集泄漏 |
02_audit_5P0.py |
评测失真 |
| 3 |
越权执行 |
06_docker_isolation.py |
安全事故 |
| 4 |
不可复现 |
Dockerfile 校验 |
整批作废 |
| 5 |
无难度标注 |
anchor/headroom 字段校验 |
难度不可比 |
重点维度:
- 8.2.1 证据链 (9 分) — arxiv/SWE-bench/AutoLab 真实来源
- 8.2.5 计算公式 (13 分) — speedup = baseline_s/median
3.3 拒收原因 Top 10
- judge_public.py 跑挂/超时
- Docker 起不来
- 评测题被 agent 训练过 (污染)
- 没隐藏种子, 多次跑结果差很多
- scenario.py 误伤主机
- 难度锚不一致 (一个 L3 比 L1 简单)
- 真实事件源链接 404 (SWE-bench issue close)
- pass@k 公式错
- 评测报告无失败轨迹
- baseline 缺失, 无法算 speedup
四、三类业务通用拒收三大共因
- AI 痕迹明显 (数字整齐, 用词官方, 句式重复)
- 真人 review 痕迹缺失 (无手工修订, 无专家签字)
- 数据脱敏不彻底 (漏 UID, 漏手机号, 漏内部代号)
五、审核人工作流 (1 项目 1-2 天)
Day 1:
08:00 接手, 飞书"真人 review 表"建项
08:30 跑自审脚本看 5 P0 + 9 维
09:00 逐条 review (二类 200-500 条/天, 一/三类 12 主稿/天)
16:00 整理缺陷, 反馈生产
17:00 收工
Day 2:
09:00 等修订完, 重审
14:00 完成, "真人 review 表"标 done, 通知 PM
六、配套查询命令
| 查啥 |
命令 |
| 历次踩坑 |
cat ~/.claude/skills/ecc-vert-case/references/历次踩坑.md |
| 12 类目配比 |
cat ~/.claude/skills/ecc-vert-case/references/8类目配比.md |
| 6 领域分类 |
cat ~/.claude/skills/agent-knowledge-task/references/6领域分类表.md |
| 6 类 L3 基准 |
cat ~/.claude/skills/agent-benchmark-lab/references/6类L3基准.md |
| 甲方要求模板 |
cat ~/.claude/skills/ecc-vert-case/references/甲方要求模板.md |
归属: ~/.claude/skills/ecc-shared/sop/02_甲方需求与审核要点.md
更新: 每项目复盘补充新拒收原因