论文 | 用迁移学习解释:电商网站的用户评论应如何优化排序?

news/2024/4/27 14:29:28/文章来源:https://blog.csdn.net/weixin_33736649/article/details/88795346

摘要: 小蚂蚁说: 2018年6月初,自然语言处理三大顶会之一NAACL (Annual Conference of the North American Chapter of the Association for Computational Linguistics)在美国新奥尔良举行,吸引了世界各地的自然语言处理等领域的学者参加。

小蚂蚁说:

2018年6月初,自然语言处理三大顶会之一NAACL (Annual Conference of the North American Chapter of the Association for Computational Linguistics)在美国新奥尔良举行,吸引了世界各地的自然语言处理等领域的学者参加。

据统计,NAACL今年共收到了长短论文1092篇,蚂蚁金服人工智能部也有一篇论文被录用《Cross-Domain Review Helpfulness Prediction based on Convolutional Neural Networks with Auxiliary Domain Discriminators》,作者:陈岑、杨寅飞、周俊、李小龙、鲍盛。论文链接:http://aclweb.org/anthology/N...

本文主要讲述用迁移学习的方法改善电商网站中预测评论有用性的任务。

前言

随着电子商务网站的用户评论数量不断增加,如何估计评论的有用性并将其恰当地推荐给消费者至关重要。通常,关于商品评价内容有用性的研究都是要求每个领域/类别都有大量的标注样本(即每个商品都有大量区分好中差评的评论)。然而,这种假设在现实中不太实际,特别是对于样本比较少(评价较少)的或有OOV(out-of-vocabulary)问题的领域。因此,我们提出了一种基于卷积神经网络(CNN)的模型,它利用了基字和字符层面的表示来克服OOV问题。对于样本小的问题,我们主要利用基于特征迁移的迁移学习的技术来从其他领域里学习一些知识去帮助我们所感兴趣的领域。

基本思想就是这里假设源域和目标域有一些交叉特征(shared),也有些特有特征(specific),通过把源域和目标域映射到shared和specific特征空间,在这个新的空间里再进行学习。我们在迁移学习的框架里主要考虑了有adversarial network的specific-shared神经网络模型,可以对跨领域的多个数据同时建模。在公开的电商产品评论数据集上,我们的方法在准确性和跨领域稳健性方面都显著优于现有方案。

背景

电商平台是阿里巴巴的核心业务,例如淘宝,天猫,AliExpress,Lazada等。网络电商不像传统购物,用户可以看到摸到实物,而网上购物的话用户能看到的是只是商家修饰过的文字图片。伴随着网络电商的高速发展,现有网商消费者已经形成根据产品评论(review)来判断产品好坏,服务优劣的习惯。

同样的,对于生活服务平台比如说口碑,用户搜索商家信息,基本上基于评论来决定是否前去商家消费。随着越来越多的用户分享产品评论,大量商家水军的介入,这些评论质量的好坏也越来越难以判断。很多好的评论(这里“好”是指评论本身的质量,而不是产品的好坏)被埋在了大量评论中。如何更好对用户评论进行排序对电商平台来说很重要。这个任务在学术界和工业界都受到了高度的关注。

图片描述

过去大量的评论排序都是基于时间,点赞次数等。现在有些网站开始尝试基于评论的有用性来进行排序。最近关于评论有用性预测的研究已显示出效果,这些方法大多依赖使用专家经验和语义特征。例如,LIWC,INQUIRER和GALC等语义特征(Yang et al.,2015; Martin and Pu,2010),基于aspect的(Yang et al.,2016)和基于argument特征(Liu et al.,2017a)。然而,这些方法需要大量的标记样本去更好的训练模型。这在现实某些情况下是不实际的,且生成的模型仅适用于当前类别/领域,很难迁移到标注数据有限的领域。对于标注数据少的领域,很难训练一个好的模型,而且经常会观察到“out-of-vocabulary”(OOV)问题。

为了缓解上述问题,在这项工作中,我们提出了一种无需先验知识和专家经验的预测评论有用性的端到端方法。

近年来,卷积神经网络(CNN)在自然语言处理的许多任务中已经表现出显著的结果,因为其模型的高效率和与递归神经网络(RNN)可比的性能(Kim,2014; Zhang al.,2015)。因此我们用CNN作为这项工作的基础。由于字符级表示对于减轻文本分类和机器翻译等任务中的OOV问题显著有益(Ballesteros al.,2015; Kim al.,2016),我们通过添加基于字符的表示来丰富CNN的单词级表示。

实验表明,我们基于CNN的方法明显优于使用手工特征的方法,并且比现有的集成模型效果更好。同时,为了解决某些领域数据不足的问题,我们用跨域迁移学习方法(TL),来利用数据量多的领域的知识。值得注意的是,现有的关于这一任务的研究只关注单一类别/领域。我们尝试用经典的specific shared的模型来做跨域评论有用性预测这个任务,不同的是我们加入了对抗的loss,大大提高了评论有用性估计的准确性。

模型

首先我们把这个问题定义为一个回归问题来拟合多少比例的用户认为这个评论是有用的。我们在源领域(某些产品类别)有大量数据,目标领域有较少的标签数据(目标预测产品类别),我们希望用源领域帮助学习目标领域下的评论受众面排序。与此同时我们改进了TextCNN来更好的帮助此任务。方案具体如下:

图片描述

上图所示,模型主要分两部分,一个部分是改进的TextCNN来学习文本的表示,另外一个部分是加了对抗loss的迁移学习模型。

改进TextCNN

TextCNN核心在于文本分类任务中利用CNN来提取句子中类似n-gram的关键信息。其在情感分析里效果不错,而且优势是相较于常用于文本的RNN模型快很多,更容易符合线上serving的要求。TextCNN大致方案就是将输入的文本信息,学到对应的词向量,然后通过卷积神经网络来学习一个分数。在这里我们在TextCNN的基础上提出一个多粒度卷积神经网络模型。在词向量的基础上我们同时学习字符向量。字符向量的好处是可以解决传统TextCNN不能很好的处理新词的问题(OOV problem)。

主要分这几步:

查找词嵌入(word embedding),给输入的文本的每个词映射到一个词嵌入。
把评论文本句子中的每个词拆解成字符然后再组合一起输入到一个卷积层(convolutional layer)和一个最大池化层(max-pooling layer)去学习出一个定长的字符嵌入(character embedding)。

最后合并生成的词嵌入和字符嵌入,一起作为输入到卷积神经网络。

迁移学习

核心思想是从有很多标注数据的源领域里学习一些知识来帮助一个标注数据不多的目标领域。传统的机器学习需要对每个领域都积累大量训练数据,这将会耗费大量的人力与物力。如果我们能利用好现有的训练数据去帮助学习新的领域的学习任务将会大大减少标注的人力和物力。神经网络的本质是表征学习,自动选择及加工原始数据的特征。如图的上半部分我们利用一个由三部分网络结构组成的迁移学习的神经网络框架用于此任务。Source X表示源领域输入,Target X表示目标领域输入。

迁移学习一个比较经典的框架是specific shared的框架,如图上部分所示,基本idea是用一个神经网络学习共享的表征(shared representation) hc ,以及两个分别的神经网络去学习源领域和目标领域分别独享表征(domain-specific representation) hs 和 ht ,从而更好得同时学习源领域和目标领域的数据。用k=0表示源领域,k=1表示目标领域,模型如下:

图片描述

于此同时为了更好得学习共享的神经网络以及源领域和目标领域分别独享神经网络,我们在这个框架中引入对抗性损失函数(adversarial loss)[Liu et al., 2017b]。

图片描述

这里用的是entropy loss,是为了让学出来的特征和领域无关,即domain invariant的特征。

我们实际用的时候发现对抗的作用不大,主要原因是对于任何数据进来都无法区别它的领域,这样判别领域的模型容易退化。所以我们把判别领域的模型加到了domain specific的特征里。

具体来说,我们对每个领域的各自特征里分别引入了领域鉴别损失函数(domain discrimination loss,即去学习图中的domain label),所以这里我们多了两个loss,一个是源领域的Ls,另外一个是目标领域的Lt。

图片描述

对于不同领域来源的数据,我们最终就是优化如下目标函数(loss function):

图片描述

试验效果

我们在一个公开的数据里(Amazon的评论数据)上面测试我们的模型。主要用了Watches,Phone,Outdoor,Home,和Electronics五个领域的数据。

图片描述

基础模型的效果

为了验证我们基础模型的效果,我们和现有的五种人为构造特征的方法(STR,UGR,LIWC,INQ,ASP)[Yang et al.,2015]做了对比,同时我们对比了两个集成模型[Yang et al.,2016]。结果如下图所示,可以看出:

基础的CNN模型在这个任务里效果非常好,比任何一种单独特征的方法好,效果和集成模型比较接近。

通过我们对CNN的改进,我们的效果可以超过集成模型,这个说明我们的模型有非常好的领域自适应性,即不需要很多特征工程就可以适用于很多的领域。

图片描述

迁移学习的效果

我们继续验证我们迁移学习模型的效果。我们主要对比了三种方法,一个是仅用源领域数据(src-only),一个是仅用目标领域的数据(tgt-only),还有就是现有的考虑了对抗的迁移学习模型TL-S [liu et al., 2017b]。结果如下图所示,我们发现:

仅用目标领域数据的效果会比仅用源领域的效果好,这说明源领域和目标领域有领域的差异(domain gap)。

迁移学习的方法会比仅用目标领域的数据效果好,这个说明迁移学习对于目标领域有帮助。
我们提出的模型比现有的迁移学习框架效果好,特别是在数据小的领域提升比较明显。

图片描述

什么时候迁移学习最有效

我们这里发现我们的方法对于某些数据小的领域提升比较大(如上图),于是我们做了个实验去分析目标领域的数据大小对于迁移的有效性的影响。同样的,我们用Electronics(数据最多)作为源领域,outdoor作为目标领域。我们改变目标领域数据大小(从10%到100%),然后观察不同的比例数据下迁移的有效性。效果如下图所示:

很明显仅使用10%或者30%目标领域数据的情况下,迁移带来的提升越明显,说明我们的迁移学习的方法对于训练数据越少的目标领域帮助越大。

在全量的目标数据上(100%),我们的方法反而出现了略微的效果的降低。这个说明如果目标领域数据足够的话,其实仅用目标领域数据就可以训练一个不错的模型,这个时候迁移学习带来的收益比较微小。

图片描述

总结

在这项工作中,我们提出了一种无需先验知识和专家经验的预测评论有用性的端到端的方法。我们的方法是基于TextCNN,同时添加了基于字符的表示来丰富CNN的单词级表示,并且用了一个考虑了对抗loss的迁移学习方法。在一个公开的电商数据实验表明,我们的方法明显优于使用手工特征的集成模型,同时比现有的迁移学习框架更有效。目前我们的迁移学习方法也在蚂蚁金服反欺诈场景中得到了应用。在未来,我们会考虑把这个技术应用到更多的蚂蚁金服的业务场景里。

参考文献

  1. [Ballesteros al.,2015] Miguel Ballesteros, Chris Dyer, and Noah A.Smith.2015. Improved transition-based parsing by modeling characters instead ofwords with lstms. In EMNLP, pages 349–359.
  2. [Kim al.,2016] Yoon Kim, Yacine Jernite, David Sontag, and AlexanderM. Rush. 2016. Character-aware neural language models. In AAAI’16, pages2741–2749.
  3. [Martin and Pu,2010] Lionel Martin and Pearl Pu. 2010. Prediction ofHelpful Reviews Using Emotions Extraction. In AAAI, pages 1551–1557.
  4. [Liu et al., 2017a] Haijing Liu, Yang Gao, Pin Lv,Mengxue Li, ShiqiangGeng, Minglan Li, and Hao Wang. 2017a. Using argument-basedfeatures to predict and analyse review helpfulness. In EMNLP, pages 1358–1363.
  5. [Liu et al., 2017b] Pengfei Liu, Xipeng Qiu, andXuanjing Huang. 2017. Adversarial multi-task learning for text classification.In ACL, pages 1–10.
  6. [Yang et al.,2015] Yinfei Yang, Yaowei Yan, Minghui Qiu, and ForrestBao. 2015. Semantic analysis and helpfulness prediction of text for onlineproduct reviews. In ACL, Beijing, China, pages 38–44.
  7. [Yang et al.,2016] Yinfei Yang, Cen Chen, and Forrest Sheng Bao. 2016.Aspect-based helpfulness prediction for online product reviews. In ICTAI, pages836–843.

文章作者:兔子酱

原文链接

本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_733726.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何解决网站首页老是被篡改经常反复被篡改

网站首页被篡改说明你网站程序有漏洞导致被上传了脚本后门木马 从而进行篡改内容被百度收录一些BC内容和垃圾与网站不相关的内容,建议找专业做安全的来进行网站安全服务漏洞检测与修补以及代码安全审计,清理网站后门和恶意代码,而且这个快照内容被劫持 会在搜索引擎…

视频网站程序 linux,观看主流视频平台视频的Windows、Mac、Linux客户端:ivideo

ivideo是一款可以观看国内主流视频平台视频的客户端,支持Windows、Mac、Linux操作系统,以下对ivideo进行介绍,及启动、使用、编译的方法。ivideo简介基于Electron开发的跨平台客户端版本的视频播放器,该播放器包括国内主流视频平台…

【总结整理】如何系统地规划出具备上乘用户体验的网站--摘自《人人都是产品经理》...

如何系统地规划出具备上乘用户体验的网站?人人都是产品经理社区 发布于 2018-10-22 08:26:32 举报阅读数:1033​​现今,网站和web技术已经不算是新兴技术了,但是不得不承认,在当下的移动互联网时代,web技术…

实现网站页面的QQ临时会话,分享到空间微博等按钮.

原文:实现网站页面的QQ临时会话&#xff0c;分享到空间微博等按钮.一 qq临时会话要实现qq临时会话首先要到qq在线状态官网开通qq在线状态&#xff0c;其中临时对话也分为加密和未加密。1.1:加密模式<a target"_blank" href"http://sighttp.qq.com/authd?IDK…

宝塔 mysql 占用100_解决宝塔面板CPU占满100%,负载100%网站缓慢等问题【mysql篇】...

今天遇到一个朋友&#xff0c;说他的宝塔服务器面板cpu、负载都是100%&#xff0c;让我给解决&#xff0c;说起来很蒙&#xff0c;一般来说这种问题的可能性很多&#xff0c;有可能是程序性能、服务器负载能力、并发访问、木马病毒、被植入了挖矿程序等等&#xff0c;所以呢&am…

4月4日,网站都变成灰色了,这是如何实现的?

内容导航前言示例代码愿望前言 为表达全国各族人民对抗击新冠肺炎疫情斗争牺牲烈士和逝世同胞的深切哀悼&#xff0c;国务院决定&#xff0c;2020年4月4日举行全国性哀悼活动。各大网站纷纷响应号召&#xff0c;把网站设置成灰度模式。 示例代码 <!DOCTYPE html> <ht…

项目二《品优购电商网站》

项目二 <品优购电商项目开发> 文章目录项目二 <品优购电商项目开发>前言一、网站 favicon 图标制作favicon图标二、TDK三大标签SEO优化SEOTDK三、字体图标1、下载2、引入四、鼠标经过边框效果五、模块化开发及命名规范命名规范目录命名常用模块类名命名推荐ClassNa…

大型网站技术架构(一)大型网站架构演化

2019独角兽企业重金招聘Python工程师标准>>> 看完了有一本书&#xff0c;就应该有所收获&#xff0c;有所总结&#xff0c;最近把《大型网站技术架构》一书给看完了&#xff0c;给人的印象实在深刻&#xff0c;再加上之前也搞过书本上讲的反向代理和负载均衡以及ses…

python抓取网站URL小工具

1、安装Python requests模块&#xff08;通过pip&#xff09;&#xff1a; 环境搭建好了&#xff01; 2、测试一下抓取URL的过程&#xff1a; 抓取出来的URL有JavaScript代码&#xff0c;正则上还有待更加完善&#xff0c;有兴趣的可以研究下~&#xff01; 工具源代码: #coding…

《Oracle Java EE编程自学和面试指南》10-03:ServletContext实现网站访问计数器

深入了解IT/互联网行业及岗位&#xff0c;请参阅通用IT/互联网岗位招聘计划&#xff08;最新全岗版&#xff09;。 深入了解职业晋升及学习路线&#xff0c;请参阅最优职业晋升路线和课程学习指南&#xff08;最新全栈版&#xff09;。 内容导航&#xff1a; 前言1、登录人次统…

《Java EE实战指南》11-02:使用ServletContextListener实现网站访问计数器

《JavaEE实战指南》 11-01&#xff1a;Listener概念 内容导航&#xff1a; 前言1、计数器的问题及优化2、创建监听器类3、配置监听器4、运行效果 前言 – 1、计数器的问题及优化 上一章的计数器案例的问题&#xff1a;计数器直接存储在上下文对象中&#xff0c;所以容器重启…

解读大型网站系统架构的演化

前言 一个成熟的大型网站&#xff08;如淘宝、京东等&#xff09;的系统架构并不是开始设计就具备完整的高性能、高可用、安全等特性&#xff0c;它总是随着用户量的增加&#xff0c;业务功能的扩展逐渐演变完善的&#xff0c;在这个过程中&#xff0c;开发模式、技术架构、设计…

使用Java开发高性能网站需要关注的那些事儿

近期各家IT媒体举办的业内技术大会让很多网站都在披露自己的技术内幕与同行们分享&#xff0c;大到facebook&#xff0c;百度&#xff0c;小到刚起步的网站。facebook&#xff0c;百度之类的大型网站采用的技术和超凡的处理能力的确给人耳目一新的感觉&#xff0c;但并不是每个…

教务系统自动评教_「四川大学教务处本科登陆系统」四川大学本科教务系统 - 一键评教 - seo实验室...

四川大学教务处本科登陆系统为什么80%的码农都做不了架构师&#xff1f;>>>引用库&#xff1a;http-parser、boost、libcurl、STL其中boost使用了thread、container、regex三个模块。由于boost二进制文件太大&#xff0c;这里就不放工程了。不过编译完只有400多KB&…

html网站点击特效,HTML5 svg和CSS3炫酷鼠标点击按钮特效

这是一组效果非常炫酷的HTML5 svg和CSS3鼠标点击按钮特效。这组鼠标点击特效共有22种效果&#xff0c;大多数是在伪元素上使用CSS3 animations来制作动画效果。非常适合于移动手机APP上的按钮触摸特效。请注意这些效果需要在支持这些CSS属性的现代浏览器中才有效果&#xff0c;…

百度seo排名点击器app_SEO优化关键词上百度——高权重网站上百度排名

SEO优化关键词上百度——高权重网站上百度排名——百度搜索引擎&#xff1a;标语“百度一下&#xff0c;你就知道”&#xff0c;百度又被广大用户名为“度娘”&#xff0c;现目前覆盖了PC端和移动端&#xff0c;不管是PC端还是移动端&#xff0c;在搜索引擎市场上&#xff0c;一…

网站前端性能优化终极指南

性能黄金法则:80- 90%的终端用户响应时间花在下载前端&#xff0c;即页面上的所有组件:img、stylesheets、scripts等 1.缩小HTML、CSS和JavaScript 减少资源意味着从HTML、JavaScript和CSS中删除不必要的、不需要加载的字符&#xff0c;如空白字符、换行字符、注释和块分隔符…

神泣服务器维护公告,《神泣》官方网站—创天互娱

亲爱的玩家:大家好&#xff01;为了提升服务器质量&#xff0c;给大家一个稳定顺畅的游戏环境&#xff0c;《神泣》3区将于2020年4月9日开始进行服务器维护&版本更新&#xff0c;整个过程持续约4小时&#xff0c;预计于14:00时结束。更新后为1.0.0.78版本。根据具体情况维护…

hdfs网站服务器,服务器连hdfs配置

服务器连hdfs配置 内容精选换一换该任务指导用户使用Loader将数据从HDFS/OBS导出到SFTP服务器。创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。获取SFTP服务器使用的用户和密码&#xff0c;且该用户具备SFTP服务器…

代发核心期刊骗局_假网站,假邮箱,假编辑部……期刊骗子们还要蹦跶多久?...

科技日报记者 张盖伦王丽最近一直处在自己的论文会被盗用的恐慌中。一切源于两个月前的一次投稿。她通过百度搜索期刊官网&#xff0c;按照官网给出的邮箱投出论文&#xff0c;收到编辑部录用通知……过程明明都很顺利。只是&#xff0c;把版面费打给编辑部后&#xff0c;对方就…