智能客服搭建（6）——5步骤之二富集数据资源

阅读量：3974 次

发布时间：2019-05-24

本文共 1039 字，大约阅读时间需要 3 分钟。

这是五篇第二篇，坚持到这里我们已经对智能客服不再陌生，甚至有点疲倦？？？还需要继续努力。
2020.12.26插入：对于UNIT的专业术语和对话系统设计的专业术语需要多翻阅一下（温馨小提示）

欢迎大家来一起学习(#^.#)。

文章目录

一、资源类型和如何富集

资源类型

词典词槽

对话样本

问答对

如何富集

指定业务场景提取数据

对话日志中抽象相关数据

官方数据库

~~下面我们来具体看如何富集数据~~

二、富集词典词槽

介绍

获取更多的实体编辑数据。

比如：做一个打开某app的功能，可能就需要收集一些常用app的名称，使得系统识别准确率更高

标准

针对每个词槽/关键词至少产出3-5实例

原则

尽可能复用系统预置词槽

使用自定义词典、规则加以补充

技巧

自定义词典、规则优先级高于系统内置

自定义词槽之间优先级相等。如果一个词属于多个词槽，相应的识别出来多个词槽候选

规则的形式是正则表达式，注意控制通配符的范围，善用捕捉功能加以限制

在这里插入图片描述

三、富集对话样本&问答对

介绍

获取更多的可以标注数据条目。

例如聊天数据或者问答数据，一些社交媒体、论坛、问答社区可能包含此类数据。

通常情况下，标注100个对话样本就可以进行基本的训练，当数据达到1000个的时候，可以达到基本可用的标准。

下图是UNIT平台上训练机器人的图（后续会有实操）

标注对话模板

Q:没有真实样本或者问答对怎么办

A：在没有真实的业务数据的情况下，搭建一些对话模板，用这个模板搭建的系统上线，进一步积累真实的对话样本。

注：对话模板是一种快速生效的匹配工具，可以根据训练集抽象高质量的模板提升效果。甚至在某些高标准模板情况下，可以直接用来训练。

下图是UNIT平台添加对话模板

在这里插入图片描述

四、数据后续处理

数据清洗。清理获取到的数据，使用正则表达式等工具将数据清理完善。

数据标注。部分数据可能需要后续的人工标注才能使用，包括意图分类、领域分类标注、包含的槽值与实体的标注等。

数据变形。对特定数据进行进行变形处理，使他们能够兼容更多可能的情形。

例如：常见的文本资料里面可能出现中英文标点混用，可能出现“的”、“得”、“地”混用的情况，应该尽可能的做一些合理的数据变形，使得机器具有更多泛用性。

~~针对这个，提一点我自己的理解。~~

用户：

怎么才能快乐的玩足球呢？

分析：

这里其实正确问法应该是“怎么才能快乐地玩足球”，如果我们给机器人没有做三种de的数据合理变形，三种de通用，就可能造成召回率/问题解决率/成功率低下的问题。

转载地址：http://vfxki.baihongyu.com/

你可能感兴趣的文章