一、十年能力地图:一条电话线串起的进化史
1.0 机械播报(2013-2016)
关键词:TTS、模板、固定语音
典型场景:信用卡还款提醒
痛点:挂断率 70%+,投诉率高居不下
2.0 关键词触发(2017-2019)
关键词:ASR、正则表达式、节点树
典型场景:电商物流确认
痛点:用户一说“我不是本人”,机器人原地宕机
3.0 意图模型(2020-2022)
关键词:NLP、BERT、意图槽位
典型场景:保险续保召回
痛点:需要 2000 条语料才能训一个意图,冷启动两个月
4.0 大模型对话(2023-now)
关键词:LLM、few-shot、动态知识
典型场景:SaaS 续约、医疗随访、政务反诈
核心变化:
- 配置量:从 2000 句降到 50 句示例
- 对话轮次:平均 5.7 轮→12 轮
- 挂断率:48%→23%(avavox 2024Q2 报告,样本 3100 万通)
二、大模型到底改了哪三行代码?
- 提示词即流程
把“节点树”换成“提示词”,用自然语言写剧本:
“你是××银行客服,用户若问‘利率’,先确认存款类型,再给出官方利率,禁止承诺额外收益。”
上线时间从 3 周缩到 3 小时。 - 动态知识挂载
以前每改一次活动话术,要重启训练。现在把最新 PDF 扔进向量库,机器人实时检索,次晨即可外呼。 - 情绪兜底策略
大模型自带“情绪识别”接口,检测到用户声线升高 20% 且出现“投诉”关键词,自动切人工,并生成 120 字摘要,客服点开即可接话。

三、企业选型七步法(附避坑清单)
Step1 明确业务类型
- 通知类:物流、还款——对 NLU 要求低,选 2.0 方案即可
- 营销类:续费、增购——需要多轮对话,必须 4.0
Step2 看“召回率”而非“准确率”
厂商常报“意图识别准确率 98%”,但“召回率”才是能否把用户真实意图捞回来的关键。让销售现场跑 100 通真实录音,统计漏抓比例,高于 8% 直接淘汰。
Step3 测“冷启动”速度
给厂商 50 句未出现的业务语料,要求第二天出 demo。做不出就是伪大模型。
Step4 查“向量库更新”权限
能否把自家知识库 PDF、Excel 直接拖进去?是否需要额外付费?部分厂商按“千条向量”收费,后期成本翻倍。
Step5 问“情绪兜底”阈值可调吗?
默认 0.8 情绪值切人工,在催收场景太敏感,导致人工成本反增。必须让运营后台能自行调节。
Step6 看“并发账单”
大模型按 token 计费,外呼并发越高,账单越不可控。选“封顶套餐”或“并发包月”,避免月底结算时“惊吓”。
Step7 留“退出通道”
合同里写明:训练数据可导出、模型可本地部署、3 个月不满意可退未用并发。防止被一家绑定,第二年涨价 50%。
四、避坑 7 连击,句句都是学费
- 伪大模型:底层还是 3.0 意图树,只在开场白套一段 GPT 生成的话术,用户一旦脱离主流程就露馅。
- 数据托管陷阱:说“免费训练”,却把录音留在人家云端,第二年做竞品分析,你的客户画像成了别人的销售线索。
- 并发“虚标”:号称 1000 并发,实际把“空号、关机”也算进并发池,真实可用仅 300,高峰时段排队 40 分钟。
- 隐形 token 费:语音转文本先过一遍 ASR,再进大模型,双重计费,单通成本 0.28 元→0.57 元。
- 质检双标:厂商用“通用敏感词库”给你做质检,结果你的医疗客户说“乳腺癌”被误判违规,录音全线下架。
- 人工座席套利:机器人故意把高意向客户标记为“情绪异常”,转给指定外包人工,按人头再收一次费。
- 合同“自动续签”:小字写明“到期未书面提出即自动续一年”,第二年价格上浮 30%,想退就得付 50% 违约金。
五、一句话总结
外呼机器人选的是“对话能力”,不是“打电话能力”;选的是“数据主权”,不是“便宜套餐”;选的是“可随时抽身”,不是“终身捆绑”。把七步法和七连击打印出来,让采购、法务、业务三方签字,再开 PoC,基本就能避开 90% 的坑。

