极速快3_快3app赚钱_极速快3app赚钱

如何使用PaddlePaddle进行意图识别

时间:2019-11-27 02:28:00 出处:极速快3_快3app赚钱_极速快3app赚钱

2018-04-12 16:11   观天下     

帮我评论(

)

字号:T|T

前言 : 意图识别是通过分类的法子将句子可能你们都你们都常说的query分到相应的意图种类。举一个 多简单的例子,帮我听周杰伦的歌,这个 query的意图便是属于音乐意图,帮我听郭德纲的相声便是属于电台意图。做好了意图识别一个 多多对于本来nlp的应用都会 特别要的提升,比如在搜索引擎领域使用意图识别来获取与用户输入的query最相关的信息。举个例子,用户在查询"生化危机"时,你们都你们都知道"生化危机"既有游戏还有电影,歌曲等等,可能你们都你们都通过意图识别发现该用户是想玩"生化危机"的游戏时,一个 多多们直接将游戏的查询结果返回给用户,就会节省用户的搜索点击次数,缩短搜索时间,大幅提高用户的体验。再进一步说,做好意图识别一个 多多,你们都你们都能够将一个 多用户的query 限定到一个 多垂直领域比如通过意图识别一个 多多发现该用户输入的生化危机本来想找"生化危机"的游戏进行下载,只有你们都你们都在游戏这个 领域下进行搜索能够得到更高质量的搜索结果,进一步提高搜索体验

你们都你们都再举一个 多目前最火热的聊天机器人来说明一下意图识别的重要性。目前各式各样的聊天机器人,智能客服,智能音箱所能防止的大问题种类都会 有限制的。比如某聊天机器人目前只有80个技能,只有用户向聊天机器人发出一个 多指令,聊天机器人首先得根据意图识别将用户的query分到某一个 多可能某几次技能上去,之前 再进行后续的防止。可能一开始的用户意图识别识别错了,只有后续的工作直接本来无用功了,会给用户带来非常不好的用户体验。

说了只有多,着实本来想说明意图识别是一件非常重要的工作。你们都你们都再来看看目前工业界的水平,就业界来看,目前一点公司的在特定领域的意图识别准确率可能够能达到96%甚至更高了,在能够预见的未来意图识别的准确率只会更高,覆盖范围只会更广, 在通用领域达到99%,甚至99.9%也本来时间早晚的大问题。而这个 时间你爱不爱我在两到三年来就能够到来。

做好了意图识别一个 多多,那种相似于于电影场景上方人机交互都会 了实现的可能,用户向机器发来的每一个 多query,机器都能准确的理解用户的意图,之前 准确的给予回复。人与机器连续,多轮自然的对话就能够借此实现了。想起来真的是非常的激动。

意图识别的前提

在做这个 工作一个 多多,你们都你们都首先得想好意图的划分大问题,这个 划分业界有本来叫法,比如技能。你们都你们都的聊天机器人有80个技能,潜在意思便是你们都你们都的意图有80类。在2018年的CES上方,Google Assistant 号称有80万个技能,这个 真的只有说太厉害了。还五种很通用的叫法叫领域 可能doamin,搜索引擎中的垂域搜索的意思是把用户的query分为本来特定的领域比如电台领域,音乐领域。搜索的一个 多多根据意图识别认为这个 query属于电台领域,于是便在电台领域进行搜索。可能意图识别的准确率比较高句子,一个 多多便能够大大加快搜索的时延和准确性。

本来Google Assistant的技能你爱不爱我本来简单的堆叠,之前 对于聊天机器人来说,你们都你们都业界一直有个观点,意图识别着实是聊天机器人非常重要的一个 多要素,之前 解析用户的语义可能慢慢不再成为对话机器人的核心,识别用户的意图一个 多多提供的服务开始成为对话机器人的产品差异化的核心。Goole Home 的80万个技能,绝对是这个 领域杀手级别的竞争力。

其次是应该想好意图识别的可扩展能力,尤其是在搜索领域,对话系统领域,随着意图覆盖的范围急剧增加,怎样保证意图的识别的准确率不下降甚至还能有提升着实是个很困难的事情,之前 也非常的重要,甚至你爱不爱我是意图识别最重要的一件事。不然你覆盖的技能数上去了,之前 意图识别的准确率下来了,着实本来一个 多多是只有什么意义的。

意图识别可扩展能力的另外一方面体现在简单技能的自动化生成,多样化技能的半自动化生成可能第三方开发者的开发技能的快速接入。在能够预见的未来,对话机器人的技能增加时延会非常的快。相似于于Google Assistant 的80万个技能,单凭人力可能某一家公司去开发80万个技能,得开发到猴年马月去了。自动化生成对话系统的技能,之前 保持足够的开放性是每一家有追求的聊天机器人厂商应该严肃思考的大问题。从业界来看,本来国内聊天机器人的公司这个 块可能才一个 多多起步,嘴上说着要开放,内心着实比较抗拒,工作排期排的很后。至于技能自动化生成你爱不爱我还只有思考到这个 步来。

最后一个 多方面是技能的评价大问题,当一个 多开发者开发完一个 多技能可能模型自动化生成一个 多技能一个 多多怎样评价一个 多技能生成的好坏也是非常重要的。简单一点来说着实你们都你们都生成了一个 多技能,之前 本来能生成一个 多技能就接入到你们都你们都的搜素引擎当中可能对话系统中来,必需得符合一定的标准。比如你们都你们都在搜索引擎当中开发了音乐 domain的垂域搜索你们都们都都你们都的意图识别准确的判别用户的query"帮我听周杰伦的歌"属于音乐这个 domain,并将query分过来到音乐领域进行垂域搜索。可能音乐的垂域搜索做的很差给用户返回的都会 陈奕迅的歌。用户体验本来会很好。就我看来,技能评价应该最少包括一个 多方面评价。第一个 多方面是效果上方的,可能你们都你们都用precision和recall来评价句子,每一个 多接入的domain可能技能 的F1值必需大于某个值能够够接入。第一个方面是工程上方的,每个接入的技能都能够 考虑到访问量大了一个 多多只有宕机。这个 对本公司开发的技能不需要有大的大问题,之前 第三方开发的技能,本来一个 多多只考虑了功能的实现和效果上方的大问题,往往不需要考虑访问量可能qps大了一个 多多为什么我么我在么在防止,结果就会造成整体服务超时。本来这个 点也是能够 慎重考虑的。

意图识别的基本法子

1.基于词典以及模版的规则法子

不同的意图会有的不同的领域词典,比如书名,歌曲名,商品名等等。当一个 多用户的意图来了一个 多多你们都你们都根据意图和词典的匹配程度可能重合程度来进行判断,最简单一个 多规则是哪个domain的词典重合程度高,就将该query判别给这个 领域。这个 工作的重点便是领域词典便须得做的足够好。

2.基于查询点击日志

可能是搜索引擎等类型业务场景,只有你们都你们都能够通过点击日志得到用户的意图。

3.基于分类模型来对用户的意图进行判别

使用分类法子是你们都你们都本次博客的重点,你们都你们都可能使用paddle作为模型的基本框架以CNN外接softmax 和LSTM外接softmax来进行意图识别方面工作的探索。本系列也初步定为三篇博客,本篇会作为开端篇做一点意图识别方面的介绍。第二篇是会使用LSTM+softmax来进行文本分类。第三篇会使用CNN 外接softmax来进行文本分类。

意图识别的难点

当前意图识别工作的难点有本来,在一个 多多的介绍中也提到了一点,之前 最大的难点着实是在于标注数据的获取。目前标注数据的获取主要来自两方面,一方面是专门的数据标注团队对数据进行标注,一方面是通过半监督的法子自动生成标注数据,我后续会在调研一个 多多,来专门进行这方面的介绍。本次会利用已有的标注数据来进行介绍。

总结

本次介绍了意图识别是什么,意图识别的重要性,意图识别的难点以及后续的博客计划,本质上来说意图识别是属于文本分类的五种,和感情的句子的句子分析相似于于工作只有什么很大的区别。之前 相比于感情的句子的句子分析,意图识别的分类种类要比一个 多多多了本来,准确性以及可扩展性的要求也高了不少。

作者:Modify

热门

热门标签