你以为Youtube还只是个简单的视频网站?

news/2024/5/16 9:50:12/文章来源:https://blog.csdn.net/weixin_33982670/article/details/90385626

YouTube所使用的推荐系统是现在最大规模的、最先进的业界的推荐系统之一。在这篇论文中,我们在较高层面上描述这个系统,并重点关注了深度学习所带来的巨大的性能提升。

本论文根据典型的两阶段信息检索的二分法(two-stage information retrieval dichotomy)分为两部分:首先,我们详细描述了一种深度候选生成模型(deep candidate generation model),接着描述了一种分离的深度排名模型(deep ranking model)。通过设计、迭代、维护一个带有巨量面向用户的影响的巨型推荐系统,我们还提供了实用的经验教训和见解。

系统概述

我们的推荐系统的整体结构如图2所示。系统由两个神经网络组成:一个用于候选生成,一个用于排名。其中候选生成网络从用户的YouTube活动历史中提取事件作为输入,然后从一个大的视频库中检索出一个小数据集(上百个视频)。这些候选被认为通常与用户有很精准的相关性。这个候选生成网络仅通过协同过滤(collaborative filtering)提供广泛的个性化。用户之间的相似性可以通过粗粒度特征(例如视频观看的ID、搜索查询单词以及人口特征统计)表达。

一个推荐列表中出现的一些「最好」的推荐需要一种良好的表征,以在具有高召回率(recall)的候选集中区分相对的重要性。排名网络通过使用一个描述视频与用户的特征集合的期望目标函数来给每个视频打分,从而完成排名的任务。根据它们的得分,然后将最高分的视频展现给用户。

两阶段的推荐方法允许我们从一个很大(数百万)的语料库中进行推荐,与此同时还仍有在设备上出现的少量视频是个性化的吸引用户的内容。此外,这个设计能够和其他源生成的候选进行混合,例如在这一项早期工作[3]中描述的。

在开发过程中,我们广泛地使用了非网络的指标(准确度、召回率、ranking loss)来引导我们的系统的迭代改进。然而,为了最终测定一个算法或模型的效果,我们依靠于通过实时实验进行A/B测试。在一个实时实验中,我们能度量在点击率、观看时间与许多度量用户参与度的指标中不易察觉的变化。这是非常重要的,因为实时A/B测试结果不总是与离线实验有相关性。

图2:推荐系统架构:候选视频通过「漏斗」状的流程从大量视频中被检索出来并进行排名,然后再将其中一小部分展示给用户。

图3:深度候选生成模型架构:嵌入的稀疏特征是和稠密特征连结在一起的。在级联(concatenation)将可变大小的稀疏ID转换成适合隐藏层输入的固定宽度的向量之前,嵌入被取了平均。所有隐藏层是全连接的。在训练中,使用取样的softmax的输出之上的梯度下降对交叉熵损失进行最小化。在服务中,用一个近似最近邻(approximate nearest neighbor)查询生成数以百计的候选视频推荐。

图4:对于一个给定的视频,模型用样本年龄(example age)作为一个特征训练,能够精准表达出数据中的上传时间和依赖时间的受欢迎程度。如果没有这一特征,该模型会在训练窗口近似地预测平均似然(average likelihood)。

图5:给模型选择标签和输入上下文对离线评估来说很有挑战性,但是对实时性能有巨大的影响。如图,实心圆点?是网络的输入特征,空心圆点?是被去除的。我们发现在A/B测试上预测未来观看(5b)的表现更好。如5b所示,样本年龄表示为tmax ? tN,其中tmax是训练数据中的最大观测时间。

图6:描绘了嵌入的分类特征(包括一价特征和多价特征)的深度排名系统架构,这些特征带有共享的嵌入和规范化的连续特征的乘幂。所有层都是全连接的。在实践中,需要给网络馈送数百个特征。

结论

我们描述了我们用于推荐YouTube视频的深度神经网络架构,划分为两个不同的问题:候选生成与排名。

我们的深度协同过滤模型能够吸收很多信号并使用深度的层对它们的交互进行建模,其性能优于YouTube原来使用的矩阵分解方法。比起科学,选择推荐的代理问题(surrogate problem)更像是一门艺术;而且我们发现通过获取不对称的联合观看行为(co-watch behavior)和预防未来信息的泄露,对未来观看的分类可以在实时评估中表现良好。抑制来自分类器的判别信号也是获得好的结果的关键,否则模型将会对代理问题过拟合,不能很好地转换到主页。

我们发现使用训练样本的年龄作为输入特征,移除了相对于过去的固有偏差(bias),并允许模型表达受欢迎视频的时间依赖行为。这种改进的离线保持了精确率,同时在A/B测试中显著地增加了最近上传视频的观看时间。

排名是更经典的机器学习问题,但是我们深度学习方法在性能上超过了之前对观看时间预测的线性与基于树的方法。推荐系统尤其受益于用户过去和事物之间的行为这样专门的特征。深度神经网络需要对类别和连续特征的特殊表征,我们对其分别使用嵌入与分位数标准化(quantile normalization)进行变换。我们发现深度的层可以有效地对数百个特征的非线性交互建模。

逻辑回归(Logistic regression)根据给训练样本赋予权重进行修改,其中给观看时间正样本,没有观看的是负样本,从而让我们可以学习接近模型预期观看时间的几率。这种方式相比于直接预测点击率,可以在观看时间权重排名评估指标上表现得远远更好。


作者:佚名

来源:51CTO

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_835337.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一个Silverlight超炫网站反编译后(附源代码)

昨天在网上找到了一个关于采用Silverlight技术的商品展示网站,他的效果感觉相当炫,所以我就反编译了一下,最后写出了源代码,和大家 分享一下。有翻页效果、调用OutLook Express、全屏、放大图片、漂亮的提示信息界面、界面切换、视…

分享50个优秀的电子商务网站设计案例

对于电子商务网站来说,也许销售更多产品比漂亮的外观设计更重要,不过漂亮的东西总是能给用户留下深刻的印象。今天,这篇文章与大家分享50个优秀的电子商务网站设计作品案例,希望能带给你灵感。 Free People Me & Mommy-to-be …

HTML5网站大观:15个精美的 HTML5 单页网站作品欣赏

HTML5 是现在Web开发领域的热点,更多的开发人员开始使用HTML5来开发交互性强、效果出众的Web应用和游戏。今天,本文收集了15个精美的 HTML5 单页网站作品,让大家感受一下 HTML5 的魅力,一起欣赏。 Digitalhands Hellocarbon Moreh…

构架高性能WEB网站的几点知识

前言: 对于构架高性能的web网站大家都很感兴趣,本文从几点粗谈高性能web网站需要考虑的问题。 HTML静态化 什么是html静态化? 说得简单点,就是把所有不是.htm或者.html的页面改为.htm或者.html 1.纯静态页面 当用户访问是&#xf…

网站建设Linux下安装PHP Memcache扩展

2019独角兽企业重金招聘Python工程师标准>>> 这里用的是第一个 网站建设(memcache),安装过程如下: 环境: CenOS5.2已经安装好了php5.2.13(在/usr/local/php). 1. 下载解压缩 从http://pecl.php.net/get/…

大型分布式网站架构实战项目分析

一、分布式系统是什么? 1、定义 distributed system is one in which components located at networked computers communicate and coordinate their actions only by passing messages(分布式系统是指位于网络计算机的组件仅通过传递消息来通信和协调其…

编程学习网站

2019独角兽企业重金招聘Python工程师标准>>> http://phpmaster.com/ php学习网站 http://www.sitepoint.com/ 综合编程学习网站 http://www.jcwcn.com/article-16881-1.html php设计模式学习 转载于:https://my.oschina.net/lilugirl2005/blog/100367

企业选择WordPress建站的理由

2019独角兽企业重金招聘Python工程师标准>>> 作为一个企业,在建站的时候为什么会选择WordPress呢?我们来简单说下。 1、开源力量 WordPress是开源软件,有着众多的技术员、使用者来反馈,这样保持着WordPress拥有着最新鲜…

LAMP架构的网站

LAMP架构的网站2003年4月7日,马云在杭州成立了一个神秘的组织。他叫来十位员工,要他们签了一份协议,这份协议要求他们立刻离开阿里巴巴集团,去做一个神秘的项目。这个项目要求绝对保密,老马戏称“连说梦话被老婆听到都…

为什么百度显示“网站标题”是错误的?

对于SEO而言,在日常工作中,我们经常会在百度中检索“网页标题”的排名情况,但偶尔也会遇到一些特殊情况,比如:在百度搜索结果中显示的网页标题是错误的,甚至是不相关的,这让SEO新人感到很困惑。…

WIN8 安装IIS及本地网站

2019独角兽企业重金招聘Python工程师标准>>> 首先,安装IIS: 安装结束之后,进入管理工具打开IIS管理器 如果能看到下面的页面,说明IIS已经安装完成。 到此开始发布本地网站,打开IIS管理器,具体操…

网站导航颜色停留_如何才能够让网站风格保持一致?

建设一个网站时,网站的内页有必要和首页的风格一致,这样才显出网站是一个整体。布局井然有序,主页面、子页面有章可循,配色方案自成体系,交互方式统一协调,与内容深度联系—这就是一致性。建网站建设方法主…

Java精品项目--第2期基于SpringBoot的健身系统+健身网站

技术栈 Spring BootMavenMySQLMyBtis-PlusShiroJavaScriptJQueryAjaxBootStrap支付宝沙箱支付 功能设计 网站部分 首页健身商城新闻活动联系我们关于我们个人中心后台管理系统 仪表盘器材管理课程管理订单管理余额充值留言管理教练管理活动管理系统日历 效果展示 部分代码 R…

Windows Azure 免费初体验 - 创建部署网站

前几天在看到有个学Windows Azure课程,送Windows Azure的活动,课程地址:http://www.microsoftvirtualacademy.com/ 在活得体验资格后,就迫不及待的捣鼓了下。在这里就介绍一下如何将自己的网站部署到Windows Azure上。 首先介绍下…

干货!手把手教你打造自己的seo生态资源,让排名不在是梦想...

又到了分享经验的时刻,每到这时候,高粱seo心里总是美滋滋的,因为分享是一种快乐,更是一种收获,能够与人分享,本身就是一种成功。在上一篇文章当中,高粱seo用两个实战案例,证明了目前…

用CheOps,助力1分钟建站

近日,八戒技术团队正式发布了其自研的轻量级开发测试云平台CheOps(一款面向云原生的DevOps平台),并开启限时免费预约活动。 项目负责人表示,CheOps经过八戒技术团队多年技术实践验证,产品稳定可靠&#xff…

10 个学习iOS开发的最佳网站(转)

10 个学习iOS开发的最佳网站 作者 jopen 2012-09-26 08:59:56 1) Apple Learning Objective C Objective-C,通常写作ObjC和较少用的Objective C或Obj-C,是扩充C的面向对象编程语言。它主要使用于Mac OS X和GNUstep这两个使用OpenStep标准的系统&#xff…

在IIS中使用SSL配置HTTPS网站

在IIS中使用SSL配置HTTPS网站由于Windows系统的普及,很多中小企业在自己的网站和内部办公管理系统都是用默认的IIS来做WEB服务器使用。 默认情况下我们所使用的HTTP协议是没有任何加密措施的,所有的消息全部都是以明文形式在网络上传送的,…

在ionic应用中打开外部网站(使用InAppBrowser插件)

2019独角兽企业重金招聘Python工程师标准>>> 在安卓上试了一下,如果直接window.open(url), 在app中点击外部链接没有任何反应。 安装https://github.com/apache/cordova-plugin-inappbrowser 执行命令: ionic plugin add cordova…

用CSS开启硬件加速来提高网站性能

国外一篇文章,有点意思,转载过来,准备尝试下~ 中文地址:http://www.cnblogs.com/rubylouvre/p/3471490.html 原文地址:http://blog.teamtreehouse.com/increase-your-sites-performance-with-hardware-accelerated-css…