三类业务甲方需求 + 审核要点速查手册¶

版本: v0.5-alpha · 2026-06-13 用途: 接手新项目立即翻一遍, 防漏验收点

一、第一类 · 垂域出题¶

1.1 甲方需求 7 件套¶

1.2 审核要点 (9 维度)¶

#	维度	权重	红线
1	真实数据源	15	假来源 / 链接 404
2	数值一致性	13	主稿 vs 附件 vs 公式三方差 >5%
3	推理链完整	12	跳跃
4	附件真实可信	11	AI 模拟
5	8.2.7 多样性	10	12 案例同质
6	L1/L3 均衡	9	L1 >60%
7	发文机关真实	9	虚构监管局
8	历史日期合理	8	时间错乱
9	客户脱敏	8	UID/手机号泄露

1.3 拒收原因 Top 10¶

AI 痕迹明显 (数字 0.85/0.90/0.95 工整)
附件用 ChatGPT 生成假数据
多案例同主题 (4 个都是客户流失)
L1 占比 >60% (太简单)
推理链断裂
真实数据源链接 404
客户 UID 直接出现
数值不对账 (主稿 12.3% / 附件算 15%)
虚构监管机关
≥3 个案例同客户名

二、第二类 · 知识教案¶

2.1 甲方需求 6 件套¶

agent 训练目标
6 领域/量级 (200-500 条/领域)
字段规范 (行业/学历/年限/知识点/格式)
1 份完整示范要求 (4 段)
验收 3 维 (密度/链/术语)
交付物形态 (JSON/MD/xlsx)

2.2 审核要点 (3 维)¶

#	维度	阈值	自动审核	红线
1	知识密度	≥5 kp/条	`06_知识密度审计.py`	<5
2	推理链完整	4 段全有	`07_推理链审计.py`	缺段
3	术语规范	100%	真人 review	用泛词

2.3 拒收原因 Top 10¶

知识密度 <5 (AI 写不到 5 真知识点)
推理链跳跃 (代码变量未定义直接用)
用"XX 系统/某软件"等泛词
Task 示例代码跑不通
KP 是泛泛而谈不是具体知识
BK 段落太短 (<200 字)
案例不真实
6 领域配比偏离 (工程 80%)
跨领域知识混淆 (CAD 写成 SolidWorks 用法)
整批 AI 生成无真人 review 痕迹

三、第三类 · Agent 基准评测¶

3.1 甲方需求 8 件套¶

3.2 审核要点 (5 P0)¶

#	P0	自动审核	触红线后果
1	评测公平性	隐藏种子检查	评测无效
2	数据集泄漏	`02_audit_5P0.py`	评测失真
3	越权执行	`06_docker_isolation.py`	安全事故
4	不可复现	Dockerfile 校验	整批作废
5	无难度标注	anchor/headroom 字段校验	难度不可比

重点维度: - 8.2.1 证据链 (9 分) — arxiv/SWE-bench/AutoLab 真实来源 - 8.2.5 计算公式 (13 分) — speedup = baseline_s/median

3.3 拒收原因 Top 10¶

judge_public.py 跑挂/超时
Docker 起不来
评测题被 agent 训练过 (污染)
没隐藏种子, 多次跑结果差很多
scenario.py 误伤主机
难度锚不一致 (一个 L3 比 L1 简单)
真实事件源链接 404 (SWE-bench issue close)
pass@k 公式错
评测报告无失败轨迹
baseline 缺失, 无法算 speedup

四、三类业务通用拒收三大共因¶

AI 痕迹明显 (数字整齐, 用词官方, 句式重复)
真人 review 痕迹缺失 (无手工修订, 无专家签字)
数据脱敏不彻底 (漏 UID, 漏手机号, 漏内部代号)

五、审核人工作流 (1 项目 1-2 天)¶

Day 1:
 08:00 接手, 飞书"真人 review 表"建项
 08:30 跑自审脚本看 5 P0 + 9 维
 09:00 逐条 review (二类 200-500 条/天, 一/三类 12 主稿/天)
 16:00 整理缺陷, 反馈生产
 17:00 收工

Day 2:
 09:00 等修订完, 重审
 14:00 完成, "真人 review 表"标 done, 通知 PM

六、配套查询命令¶

查啥	命令
历次踩坑	`cat ~/.claude/skills/ecc-vert-case/references/历次踩坑.md`
12 类目配比	`cat ~/.claude/skills/ecc-vert-case/references/8类目配比.md`
6 领域分类	`cat ~/.claude/skills/agent-knowledge-task/references/6领域分类表.md`
6 类 L3 基准	`cat ~/.claude/skills/agent-benchmark-lab/references/6类L3基准.md`
甲方要求模板	`cat ~/.claude/skills/ecc-vert-case/references/甲方要求模板.md`

归属: ~/.claude/skills/ecc-shared/sop/02_甲方需求与审核要点.md 更新: 每项目复盘补充新拒收原因