网站封装单个exe_京东偷传用户私密照片惹众怒,网站如何用机器学习掌握用户喜好?...

news/2024/5/10 11:02:48/文章来源:https://blog.csdn.net/weixin_39622521/article/details/110857612
db08bee84b79129889bacca1eba600e1.png

【新智元导读】电商网站、影音网站是如何在不上传用户本地隐私数据的前提下,获知用户喜好,从而推荐合口味的内容?不需要心理学家,更不需要占星术士,而是通过矢量矩阵,使用协同过滤算法预测出用户的喜欢。

最近京东金融App被发现私自上传用户的银行app截图,被迫公开致歉。

京东app获取用户的资产信息的目的之一,是想针对特定用户进行定制化的推荐。只不过这样的做法涉嫌侵犯用户隐私,存在极大的安全隐患。

通常来讲,像京东、淘宝、亚马逊、Netflix这样的电商公司,都需要掌握一定的用户隐私信息,从而能够让推荐系统做到投用户之所好

早期简单的推荐系统,比如亚马逊、京东等,会根据用户购买的历史,推荐拥有类似标签的商品。

然而对于消费者来说,除非是需要重复购买的耗材类产品,否则很少会再去购买功能相似的商品,这样的推荐系统显然是远远不能满足购物需求的。

协同过滤是迄今为止最成功的推荐算法之一,广泛应用于电子商务、社交网络、影音阅读等涉及到信息检索的领域。

c509ec47d1f9c37c4385e925eafed4c5.png

使用协同过滤将用户喜好抽象成数学问题

将个性化推荐抽象成一个逻辑清晰的数学问题,而不需要涉及到变幻莫测的心理学,极大的降低了推荐系统的设计成本,提高了鲁棒性。

协同过滤的原理,首先是找出和你喜好、订单等有交集的其他用户。比如你们的订单中,有80%以上的商品重合率,阅读过的书籍中有10本都标记了喜欢等等。

通过多个维度把用户进行分类,就可以使用同类的群体用户的数据,针对单个用户进行推荐。

协同过滤算法分为两类,基于用户(User-based)的协同过滤,和基于邻居的协同过滤(Neighbor-based Collaborative Filtering)。前者是人以类聚,后者是物以群分。

由此可见,协同过滤算法严重依赖两个因素:大量的有关用户喜好的历史数据,以及大量的单一产品的评价数据。

总之,数据越丰富,推荐越精准。但这对小样本数是非常不友好的,在冷启动的时候(比如新用户完全没有产生任何历史数据),该如何构建推荐系统呢?

常见的解决方案涉及分析元数据,或给新用户通过几个问题来了解他们的初始偏好。

05e4b612ddab99fde8f35cd37ab85a4e.png

协同过滤算法的实现方式

我们使用电影评分作为示例。根据用户对电影的分数构建一个用户表来对其进行可视化:

60fb146e2b2e963939c4157c62bdb0d8.png

上表中,每行代表一个用户,每列代表一部电影。交叉引用揭示用户和电影评分之间的对应关系(满分为5分,0分表示“未观看”)。

我们的目标是预测出是否应该向没看过该电影、对应评分为0的用户,推荐这部电影。对应到表中,这个问题就转化为“预测用户会给电影打几分”。

在具体实现中,就是给分数为0的表格填上分数,这个分数就是预测的用户评分。如果分数高,就向用户推荐;不高就不推荐。

接下来我们设2个嵌入矩阵:用户矩阵W_u,和电影矩阵W_m。每个矩阵将用e维向量填充,e是数组的大小。

d7ff05bd8479ca46072aca4cde7a6899.png

我们在两个矩阵中,使用完全随机数,得到两个随机的矩阵。两者相乘得到第三个完全随机的矩阵。

将这个矩阵和原始表进行对比,从而找到一个损失函数。这基本上是衡量预测评级与实际评级相差多远的指标。接着使用反向传播和梯度下降来优化两个矩阵以获得正确的值。

为什么可以通过冰冷的数学预测出我们的喜好?

上述构建的矩阵基本上是矢量堆栈。每个用户一个向量,每个电影一个向量。

每个向量表示对应的用户是什么类型的人。它将用户的喜好、想法和感受,联通希望和恐惧,封装成一个毫无情感的numpy.array[]数组。

为了更好地理解这一点,让我们放大一个特定的用户向量,假设e = 3:

ca81db916f3b7cb52d1ee62f1c34f345.png

这里,矢量的三个分量是[100, 0, 50] 。 每个组件代表用户的一些特征,机器通过查看ta之前的评级来学习。

假设这三个组件具有以下含义:

820519c50a5af38f64ea16dfbcf97705.png

我们可以解读出,这个用户显然喜欢动作片,对浪漫电影不是很喜欢,也喜欢喜剧电影,但不像动作电影那么多。

这就是机器学习模型理解人类的复杂性的方式:将其嵌入到e维向量空间中,然后相乘。

e越大,捕获的用户数据就越多,计算所花费时间也就越长。

接着我们就可以再来使用基于邻居的算法,找出电影的属性,再去和用户喜好对比。

假设我们有一部电影m,它的矩阵是这样

35f188f57b1b3d232ac0581cd01da456.png

解释成人话就是

ee05ad6fd9b86e6871672fb40c03d71e.png

所以m应该是一部浪漫喜剧电影,用户u可能就不会喜欢。

算法之美,人性之美

协同过滤将我们人类的情感感念,喜欢、讨厌、恐惧、激动等等,全部转化成一个个的毫无波澜的矢量矩阵。

两个矩阵只是简单的相乘,就能预测一个人的喜好,简直不可思议!在不知道的地方,我们都是同一线性向量空间的元素。

那个地方,有美。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_758427.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站拒绝访问_Linux Nginx网站服务——3

nginx虚拟主机配置(利用server模块)基于域名的虚拟主机配置(企业级使用)基于端口的虚拟主机配置说明:结合OSI7层模型,熟悉虚拟主机访问原理基于ip地址的虚拟主机配置说明:只要nginx配置文件中涉及ip地址信息修改,都要重新启动 而不…

网站获取ip代码怎么写_一分钟内获取女朋友的精确定位位置(附电脑版的IP定位工具+9大素材网站解析下载方法)...

想要知道对方的位置,首先你要知道她的IP地址,百度一下“获取对方的IP地址”会出现一堆的教程,在这里我就不说那些乱七八糟和那些复杂的方法了,我就讲一下简单实用的方法!首先,我们可以借助一个网站获取她的…

如何设置自定义日志_微信公众号如何设置点击图文消息打开跳转自定义第三方网站...

什么是自定义网站?用户关注公众号之后,点击推送的图文消息,打开微信的网站。使用大鬼图文助手,点击图文消息,可以打开其他的网站。比如,点击图文,打开产品官网或者视频网站。如何设置点击图文消…

火车采集器采集ajax,火车头采集器JavaScript之ajax网站采集实例教程

大部分网站的有些内容需要通过ajax调用,或者隐藏在js里面,需要大家把真实的内容js地址找出来,这就需要一定的火车头采集器的使用经验了,今天给大家分析一个javascript类型的ajax采集实例,具体看下面的介绍今天我们以这…

网站服务器的宽带是1mb是什么意思,宽带网速小知识:1Mbps,1Mb/s,1MB/s是什么意思?...

Mbps是什么意思Mbps是Million bits per second的缩写,MbpsMbit/s即兆比特每秒,它的意思是时间内传输数据的平均比特数,其单位是比特每秒(bps),或千比特每秒(Kbps),或兆比特每秒(Mbps)。换算单位关系为:1Kbps1024bps,1Mbps1024*102…

mysql 数字转大写_php中阿拉伯数字转大写的方法|宏博网络建站小课堂

<?php function intTostr($num) {// 判断是否为数组if(!is_numeric($num)){return "要转换的金额只能为数字!";}// 预定义要转换的字符,自己可以切换一下要转换的方式// $arr array(零, 壹, 贰, 叁, 肆, 伍, 陆, 柒, 捌, 玖);$arr array(零, 一, 二, 三, 四, 五…

饶平 php,饶平SEO

站点功能可以对站点的功能模块门户、群组和家园关闭和开启&#xff1b;管理统计、评价、点评和帖子内容以及活动主题进行一些基本的管理操作&#xff0c;功能包括功能模块、管理相关、主题热度、主题评价、帖子点评、活动主题和其他的一些基本操作。操作路径&#xff1a;【后台…

网站输入正确账号密码页面刷新一下_公共英语明天(28号)正式开始报名!报名流程了解一下!...

2020下半年的考试将在7月28号开始报名&#xff0c;明天9:00准时开始报名&#xff01;登录网站http://pets.neea.edu.cn/点击在线报名&#xff0c;登录不上的按提示找回密码或者重新注册。登陆后按以下步骤填写信息即可(电脑报名&#xff01;不要用手机使用。使用报名网站推荐浏…

将gitee page个人网站收录进百度、google和bing(以百度为例)——备忘录

小虎最近想将个人小站添加到各大搜索引擎的索引上&#xff0c;探索了一下成功了&#xff0c;这里分享一下经验。 背景 网站搭建是在环境win10 hexo fluid完成的。 索引添加 在百度搜索平台的站长资源管理添加网站。 选择你的站点属性。 然后进行网站验证&#xff0c;这…

大型网站架构(一)

说道大型网站&#xff0c;就的先说大型网站的特点&#xff1a;高并发&#xff0c;大流量&#xff0c;高可用&#xff0c;海量数据等。下面就说说大型网站的架构演化过程吧。 1、初始阶段的网站架构 初始阶段都比较简单&#xff0c;通常一台服务器就可以搞定一个网站了&#x…

大型网站架构(二)

6、使用反向代理和CDN加上网站相应 提高网站的访问速度&#xff0c;主要手段有使用CDN和反向代理。 CDN和反向代理的基本原理都是缓存&#xff0c;区别在于CDN部署在网络提供商的机房&#xff0c;而反向代理是部署在网站的中心机房&#xff0c;当用户请求到达中心机房后&…

Cisco官方网站悄然换标

10月2日&#xff0c;就在所有中国人欢度国庆佳节之际&#xff0c;可能是思科(cisco)历史上最大的市场活动悄然启动。就在今天&#xff0c;51cto.com记者发现&#xff0c;思科网站全面改版&#xff01;其实&#xff0c;改版的内容不大&#xff0c;主要就是logo的改变。记者发现&…

[导入]日志 20071208(SvcUtil.exe,高并发网站架构)

摘要: &#xff08;1&#xff09;结合SvcUtil加深了一点对WCF的认识。 &#xff08;2&#xff09;听了钱宏武关于网站架构讲座的前半部分。 阅读全文[新闻]Vista Fiji媒体中心已完成文章来源:http://www.cnblogs.com/xingyukun/archive/2007/12/08/987733.html转载于:https://…

在线制作收藏夹ico图标的工具网站

介绍的是一个在线制作ico图标的工具网站&#xff0c;它就是dynamicdrive。你要做的工作就是做一个你想要用做书签的图片&#xff0c;可以是.jpg/.gif/.png/.bmp格式&#xff0c;尽量作成正方行的&#xff0c;已防止转换后图标变形&#xff0c;OK&#xff0c;接下来就去dynamicd…

对于xss和sql注入的防范(美团网站xss例子)

对于xss和sql注入这样的漏洞有很多工具是可以检测的。 也是最常见的web安全问题。 其实这样的问题是很好避免的 只要在应用架构上 统一数据的吞吐,在吞吐的过程中做好数据的校验就ok了 最简单的php的 htmlspecialchars 就可以把一些危险字符进行转译 就可以大大减低xss和…

[Ajax]十个优秀的 Ajax/Javascript实例网站

原始地址&#xff1a;http://supercode.appspot.com/post/13 1.Ajax Rain AjaxRain有很多完美整合AJAX, CSS, DHTML 或 Javascript的实例&#xff0c;有一些Demo的确值得你去看一看&#xff0c;即使你不是网页设计(开发)师。 2.Ajax Daddy Ajax Daddy收集了大量漂亮的Web2.0工…

网博士自助建站系统_国内自助建站平台有哪些?

前言忘记是哪个国外公司老总说过的了&#xff0c;说了这样一句话“no software”并且这句话挂着公司墙上&#xff0c;这句话主要来自于“no smoking”的变形&#xff0c;不过传达的意思是未来没有软件之说&#xff0c;软件无处不在&#xff0c;这就是SAAS的来源。现在这个公司非…

网站禁止IP访问,禁止未备案域名访问服务器

今天吴总在百度快照里头发现www.cut.cn也能访问商城网站。 一、我问了域名商&#xff0c;回复说不清楚情况&#xff0c;他们不会去做这种域名指向动作&#xff0c;让我们问服务器托管商。 二、询问服务器托管商&#xff0c;回复说他们没有动过&#xff0c;按访问此域名的表象看…

国外php 技术网站,国外十大最流行的PHP框架

本文来自国外的一个PHP技术人员网站&#xff0c;总结了国外的十个目前最流行的PHP MVC框架。本文可作为PHP框架使用参考。以下为十个目前最流行的基于MVC设计模式的PHP框架&#xff1a;1. Yii软件大小&#xff1a;6.48MB软件类别&#xff1a;国外软件 | 其它类别软件语言&#…

seo代码优化工具_seo入门教程——做seo需要掌握的技术以及seo优化的具体工作

seo优化是一门基础的优化技术&#xff0c;它本身所需要的专业技术并没有一些特殊行业的技术高&#xff0c;学习seo也没有那么难&#xff0c;只需要掌握一些技术的技术剩下的就是优化的思维&#xff0c;所以seo工作人员也是千人千面&#xff0c;最后就是坚持&#xff0c;seo优化…