切换主题
标签测评
想知道 AI 标签打得准不准?标签测评让你用真实通话验证打标效果,再决定要不要发布到线上生效。
标签测评整体流程基于:你先人工标注一批通话的正确答案(标准答案),系统再用这份答案去衡量不同版本标签的打标结果,看哪个版本更准。
整体流程
开启标签测评 → 维护草稿版本 → 新建标注集 → 选取通话并标注 → 创建测评任务 → 查看报告 → 发布
第一步:开启标签测评
进入「组件 → 标签」,点击右上角去开启,确认后即可开启。
开启成功后,标签页会出现「草稿版本」和「线上版本」两个 Tab。系统会自动将当前线上标签同步一份到草稿版本,作为草稿版本的初始数据。
开启前请注意:
- 开启后,标签不能再直接在线上版本编辑,需要在草稿版本修改后发布才能生效
- 开启后不支持关闭:开启后标签的生效流程会切换为「草稿版本 → 发布到线上」,这个流程是单向的,无法回退到直接编辑线上版本的方式

去开启标签测评

确认开启
第二步:维护草稿版本
在「组件 → 标签 → 草稿版本」中,对你想要验证的标签进行修改。
草稿版本支持新建、编辑、删除标签组和标签,操作方式与原来的标签管理完全一致。
修改完成后,草稿版本的内容不会自动生效,需要你在测评满意后手动发布。

第三步:新建标注集
- 点击标签页右上角【去测评】,进入「标签测评 / 标注集」页,点击新建标注集。
- 填写标注集名称,选择机器人(选定后不可修改),配置测评标签(默认带入该机器人绑定的标签组,可以调整)。
测评标签圈定了本次测评的范围:标注时你从这些标签里选答案,测评时系统也基于这些标签对通话记录打标。

前往标签测评

标注集页

新建标注集

如标注集未选取任一通话,点击列表中的【查看详情】,进入选取通话。
第四步:选取通话
创建标注集后,进入详情页,点击选取通话。
筛选你想要用于测评的历史通话,勾选后提交。每个标注集最多选取 1000 条,提交后不可修改,请确认好再提交。

前往选取通话

选取对应机器人的真实通话
第五步:标注标准答案
通话选好后,逐条为每条通话打上你认为正确的标签,作为「标准答案」。
点击列表中的去标注,进入标注页:
- 左侧显示完整通话内容及线上打标结果,供参考
- 右侧选择过程标签和结果标签作为标准答案
- 系统默认回显线上打标结果,你可以直接用,也可以调整
标注完一条后,点击标注并下一条继续,或点击标注保存后返回列表。
不需要全部标注完才能发起测评,标注了多少条,系统就测评多少条。

选取通话后,标注每通通话的标准答案

进行标注

每通通话的标注结果将作为正确答案,并作为测评结果的依据。
第六步:创建测评任务
- 点击导航【测评】,进入「标签测评 / 测评任务」页,点击新建测评任务。
- 填写任务名称,选择刚才准备好的标注集,点击开始测评。
- 系统开始进入测评:
- 用你配置的测评标签,对标注集里的通话重新打标,生成测评版本的打标结果
- 读取线上版本对同批通话的历史打标结果
- 分别与你的标准答案对比,统计对比结果:一致 / 不一致(一致指打标结果与标准答案完全相同,不一致则表示与标准答案有偏差)
- 测评完成后,任务状态变为:完成。
- 如果中途不想继续,可以点击任务列表中的终止,终止后测评不再继续,但已完成部分的报告仍可查看。

前往测评任务页

新建测评任务
第七步:查看测评报告
- 点击测评任务列表中的详情,进入测评报告页。
- 报告按过程标签和结果标签分 Tab 展示测评结果,基于每条通话展示:
- 你标注的标准答案
- 测评版本的打标结果,以及与标准答案是否一致
- 线上版本的打标结果,以及与标准答案是否一致
- 通过对比两列结果,你可以直观判断哪个版本打标更准确:与标准答案一致数量更高的版本,说明打标效果更好。
- 筛选问题样本: 勾选「测评版本问题样本」或「线上版本问题样本」,快速定位打标不一致的通话。
- AI 建议: 对于打标不一致的通话,点击生成建议,AI 会分析偏差原因并给出改进方向。

点击列表中的【查看详情】,查看测评报告

查看测评报告

查看 AI 建议
第八步:发布草稿版本
测评结果满意后,回到「组件 → 标签 → 草稿版本」,点击发布。
选择要发布的标签组,点击确认发布,草稿版本的内容会覆盖线上对应标签组。
新增的标签组发布后,还需要前往「机器人」页面绑定,才能参与打标。

将改动的草稿版本,发布到线上生效。