博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
智能客服搭建(6)——5步骤之二富集数据资源
阅读量:3974 次
发布时间:2019-05-24

本文共 1039 字,大约阅读时间需要 3 分钟。

这是五篇第二篇,坚持到这里我们已经对智能客服不再陌生,甚至有点疲倦???还需要继续努力。

2020.12.26插入:对于UNIT的专业术语和对话系统设计的专业术语需要多翻阅一下(温馨小提示)

欢迎大家来一起学习(#.#)。

文章目录

一、资源类型和如何富集

资源类型

  • 词典词槽
  • 对话样本
  • 问答对

如何富集

  • 指定业务场景提取数据
  • 对话日志中抽象相关数据
  • 官方数据库

下面我们来具体看如何富集数据

二、富集词典词槽

介绍

获取更多的实体编辑数据。

比如:做一个打开某app的功能,可能就需要收集一些常用app的名称,使得系统识别准确率更高

标准

针对每个词槽/关键词至少产出3-5实例

原则

  1. 尽可能复用系统预置词槽
  2. 使用自定义词典、规则加以补充

技巧

  1. 自定义词典、规则优先级高于系统内置
  2. 自定义词槽之间优先级相等。如果一个词属于多个词槽,相应的识别出来多个词槽候选
  3. 规则的形式是正则表达式,注意控制通配符的范围,善用捕捉功能加以限制

在这里插入图片描述

三、富集对话样本&问答对

介绍

获取更多的可以标注数据条目。

例如聊天数据或者问答数据,一些社交媒体、论坛、问答社区可能包含此类数据。

通常情况下,标注100个对话样本就可以进行基本的训练,当数据达到1000个的时候,可以达到基本可用的标准。

下图是UNIT平台上训练机器人的图(后续会有实操)

在这里插入图片描述

标注对话模板

Q:没有真实样本或者问答对怎么办

A:在没有真实的业务数据的情况下,搭建一些对话模板,用这个模板搭建的系统上线,进一步积累真实的对话样本。

注:对话模板是一种快速生效的匹配工具,可以根据训练集抽象高质量的模板提升效果。甚至在某些高标准模板情况下,可以直接用来训练。

下图是UNIT平台添加对话模板

在这里插入图片描述

四、数据后续处理

  1. 数据清洗。清理获取到的数据,使用正则表达式等工具将数据清理完善。
  2. 数据标注。部分数据可能需要后续的人工标注才能使用,包括意图分类、领域分类标注、包含的槽值与实体的标注等。
  3. 数据变形。对特定数据进行进行变形处理,使他们能够兼容更多可能的情形。

例如:常见的文本资料里面可能出现中英文标点混用,可能出现“的”、“得”、“地”混用的情况,应该尽可能的做一些合理的数据变形,使得机器具有更多泛用性。

针对这个,提一点我自己的理解。

用户:

怎么才能快乐的玩足球呢?

分析:

这里其实正确问法应该是“怎么才能快乐地玩足球”,如果我们给机器人没有做三种de的数据合理变形,三种de通用,就可能造成召回率/问题解决率/成功率低下的问题。

转载地址:http://vfxki.baihongyu.com/

你可能感兴趣的文章
Redis在新浪微博中的应用
查看>>
微博CacheService架构浅析
查看>>
Google字体库引起的首页加载缓慢的解决方法
查看>>
apache调优
查看>>
linux中rpm常用命令
查看>>
tcp连接的11种状态
查看>>
url转码和解码
查看>>
编译安装ruby1.9.3(No rvm)
查看>>
详解如何在ubuntu上安装node.js
查看>>
tmpfs用法
查看>>
你真的会python嘛?
查看>>
Python的魔法(一): 基本知识
查看>>
Python的魔法二:开发的'坑'
查看>>
mysql查询重复记录的方法
查看>>
python单元测试unittest
查看>>
Python单元测试框架
查看>>
Python自动单元测试框架
查看>>
linux curl命令详解,以及实例
查看>>
python模拟浏览器登录
查看>>
js过滤特殊字符
查看>>