本文共 1039 字,大约阅读时间需要 3 分钟。
欢迎大家来一起学习(#.#)。这是五篇第二篇,坚持到这里我们已经对智能客服不再陌生,甚至有点疲倦???还需要继续努力。
2020.12.26插入:对于UNIT的专业术语和对话系统设计的专业术语需要多翻阅一下(温馨小提示)
下面我们来具体看如何富集数据
获取更多的实体编辑数据。
比如:做一个打开某app的功能,可能就需要收集一些常用app的名称,使得系统识别准确率更高针对每个词槽/关键词至少产出3-5实例
获取更多的可以标注数据条目。
例如聊天数据或者问答数据,一些社交媒体、论坛、问答社区可能包含此类数据。通常情况下,标注100个对话样本就可以进行基本的训练,当数据达到1000个的时候,可以达到基本可用的标准。
下图是UNIT平台上训练机器人的图(后续会有实操)
Q:没有真实样本或者问答对怎么办
A:在没有真实的业务数据的情况下,搭建一些对话模板,用这个模板搭建的系统上线,进一步积累真实的对话样本。
注:对话模板是一种快速生效的匹配工具,可以根据训练集抽象高质量的模板提升效果。甚至在某些高标准模板情况下,可以直接用来训练。
下图是UNIT平台添加对话模板
例如:常见的文本资料里面可能出现中英文标点混用,可能出现“的”、“得”、“地”混用的情况,应该尽可能的做一些合理的数据变形,使得机器具有更多泛用性。
针对这个,提一点我自己的理解。
用户:
怎么才能快乐的玩足球呢?分析:
这里其实正确问法应该是“怎么才能快乐地玩足球”,如果我们给机器人没有做三种de的数据合理变形,三种de通用,就可能造成召回率/问题解决率/成功率低下的问题。转载地址:http://vfxki.baihongyu.com/