标签测评

想知道 AI 标签打得准不准？标签测评让你用真实通话验证打标效果，再决定要不要发布到线上生效。

标签测评整体流程基于：你先人工标注一批通话的正确答案（标准答案），系统再用这份答案去衡量不同版本标签的打标结果，看哪个版本更准。

整体流程

开启标签测评 → 维护草稿版本 → 新建标注集 → 选取通话并标注 → 创建测评任务 → 查看报告 → 发布

第一步：开启标签测评

进入「组件 → 标签」，点击右上角去开启，确认后即可开启。

开启成功后，标签页会出现「草稿版本」和「线上版本」两个 Tab。系统会自动将当前线上标签同步一份到草稿版本，作为草稿版本的初始数据。

开启前请注意：

开启后，标签不能再直接在线上版本编辑，需要在草稿版本修改后发布才能生效
开启后不支持关闭：开启后标签的生效流程会切换为「草稿版本 → 发布到线上」，这个流程是单向的，无法回退到直接编辑线上版本的方式

去开启标签测评

确认开启

第二步：维护草稿版本

在「组件 → 标签 → 草稿版本」中，对你想要验证的标签进行修改。

草稿版本支持新建、编辑、删除标签组和标签，操作方式与原来的标签管理完全一致。

修改完成后，草稿版本的内容不会自动生效，需要你在测评满意后手动发布。

第三步：新建标注集

点击标签页右上角【去测评】，进入「标签测评 / 标注集」页，点击新建标注集。
填写标注集名称，选择机器人（选定后不可修改），配置测评标签（默认带入该机器人绑定的标签组，可以调整）。

测评标签圈定了本次测评的范围：标注时你从这些标签里选答案，测评时系统也基于这些标签对通话记录打标。

前往标签测评

标注集页

新建标注集

如标注集未选取任一通话，点击列表中的【查看详情】，进入选取通话。

第四步：选取通话

创建标注集后，进入详情页，点击选取通话。

筛选你想要用于测评的历史通话，勾选后提交。每个标注集最多选取 1000 条，提交后不可修改，请确认好再提交。

前往选取通话

选取对应机器人的真实通话

第五步：标注标准答案

通话选好后，逐条为每条通话打上你认为正确的标签，作为「标准答案」。

点击列表中的去标注，进入标注页：

左侧显示完整通话内容及线上打标结果，供参考
右侧选择过程标签和结果标签作为标准答案
系统默认回显线上打标结果，你可以直接用，也可以调整

标注完一条后，点击标注并下一条继续，或点击标注保存后返回列表。

不需要全部标注完才能发起测评，标注了多少条，系统就测评多少条。

选取通话后，标注每通通话的标准答案

进行标注

每通通话的标注结果将作为正确答案，并作为测评结果的依据。

第六步：创建测评任务

点击导航【测评】，进入「标签测评 / 测评任务」页，点击新建测评任务。
填写任务名称，选择刚才准备好的标注集，点击开始测评。
系统开始进入测评：
1. 用你配置的测评标签，对标注集里的通话重新打标，生成测评版本的打标结果
2. 读取线上版本对同批通话的历史打标结果
3. 分别与你的标准答案对比，统计对比结果：一致 / 不一致（一致指打标结果与标准答案完全相同，不一致则表示与标准答案有偏差）
测评完成后，任务状态变为：完成。
如果中途不想继续，可以点击任务列表中的终止，终止后测评不再继续，但已完成部分的报告仍可查看。

前往测评任务页

新建测评任务

第七步：查看测评报告

点击测评任务列表中的详情，进入测评报告页。
报告按过程标签和结果标签分 Tab 展示测评结果，基于每条通话展示：
1. 你标注的标准答案
2. 测评版本的打标结果，以及与标准答案是否一致
3. 线上版本的打标结果，以及与标准答案是否一致
通过对比两列结果，你可以直观判断哪个版本打标更准确：与标准答案一致数量更高的版本，说明打标效果更好。
筛选问题样本： 勾选「测评版本问题样本」或「线上版本问题样本」，快速定位打标不一致的通话。
AI 建议： 对于打标不一致的通话，点击生成建议，AI 会分析偏差原因并给出改进方向。

点击列表中的【查看详情】，查看测评报告

查看测评报告

查看 AI 建议

第八步：发布草稿版本

测评结果满意后，回到「组件 → 标签 → 草稿版本」，点击发布。

选择要发布的标签组，点击确认发布，草稿版本的内容会覆盖线上对应标签组。

新增的标签组发布后，还需要前往「机器人」页面绑定，才能参与打标。

将改动的草稿版本，发布到线上生效。

标签

标签测评 ​

整体流程 ​

第一步：开启标签测评 ​

第二步：维护草稿版本 ​

第三步：新建标注集 ​

第四步：选取通话 ​

第五步：标注标准答案 ​

第六步：创建测评任务 ​

第七步：查看测评报告 ​

第八步：发布草稿版本 ​