一个母婴电子商务网站贝贝网的大数据平台及机器学习实践【转】

news/2024/5/10 6:49:01/文章来源:https://blog.csdn.net/weixin_34203426/article/details/93869517

关键字:大数据平台、机器学习

贝贝网的主要产品是垂直的母婴类,母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需求变化最快的领域,比如是用户处在怀孕当中,关心的是孕妈的一些问题,几个月以后,随着宝宝的落地,就会准备一些纸尿裤和奶粉,而且随着宝宝的长大,纸尿裤和奶粉的类型也会变化。第三个是移动化,一般有90%的成交是来自移动端的。

手机端的屏幕非常的小,可以给客户的信息非常的有限,所以需要我们帮助用户找他有兴趣的东西,大数据平台既要为网站的活动提供大数据的支撑,还需要实现个性化的推荐,搜集用户的行为,全面的了解用户的购物意图,推荐用户感兴趣的商品。

下图是整个大数据平台的架构图,最下面的是我们的数据收集,后面会有介绍。计算层包括了离线计算和实时计算,以后搜索引擎,在算法层有协同过滤,分类产生一些用品的商品特征,以后排序的模型。在业务层的话,业务的类型是丰富多彩的,我们会融入一些运营的规则进行调整,包括一些个性化的调整和推荐,以及营销。


 

华丽的分割线:您可以关注 lxw的大数据田地 ,或者 加入邮件列表 ,随时接收博客更新的通知邮件。

 

 

 

BI层的应用有面向运营的,面向商家的,会涉及用户的浏览日志,在PC上的一些行为,比如是用户浏览了一些什么商品,点击了一些什么商品,对数据的消费也有二种方式,一种是实时消费,一种是离线消费,这种方式会在每天的凌晨进行一次统计,会有一天的延时,比如是 今天上线的活动,可能明天才知道这个活动的效果,因为我们研发了一套实时的数据研发系统,因此任何需要实时消费的数据报告,只要订阅就可以了。

分布式的调度是整个大数据平台的核心,在大数据平台处于一个指挥的作用,比如是任务管理,任务监控和任务日志,我们研发了一套分布式的系统,里面有二种角色。Master主要是负责任务的管理,任务的分配,任务的执行,任何的Master挂掉,都不会影响我们系统的运营。

在整个大数据平台上,很大一部分是推荐的产品,第一类是个性化的排序,个性化排序的特点是在侯选级的情况下,根据用户的不同的购物的用途,为用户做个性化的排序,用户到达我们网站的时候,我们会推荐所有在线的品牌特卖,比如是一天500个,根据用户的购物的意图,做个性化的数据。

第二个是关联推荐,比如是推荐和这个商品相似的商品,购买的商品可以推荐搭配的商品。第三个是个性化推荐,给指定的用户推荐他感兴趣的商品,比如是在用户的资料的页面,我们会直接给用户推荐他感兴趣的商品。


 
华丽的分割线:您可以关注 lxw的大数据田地 ,或者 加入邮件列表 ,随时接收博客更新的通知邮件。

 

除了这三种推荐的形式,还包括通过个性化的短信,个性化的推送,引导用户到我们的平台,我们会给用户推荐感兴趣品牌,我们会对商品进行个性化的排序,还会有相似商品的推荐,用户交易的环节,还会推荐和这个商品搭配的商品,包括周期购买预测等。

为什么会有这种推荐,可以从二个方面来看,一个是我们网站本身是一个轻搜索重推荐的模式,在我们的网站上搜索的功能是非常的弱化的,我们最近的上线的搜索 框也很不明显,这是一个推荐商品非常重要的渠道,从推荐的本身来说,也可以看到它的三个方面价值,提升用户的购物的体验。帮助商家找到感兴趣的用户,也可 以提高他的销售额,对整个平台来说,只有服务好用户和商家,才能得到一个比较好的持续的发展。

推荐这么的重要,最重要的是用户画像,这是我们的吉祥物,我们会对它进行二个部分,一个是静态的画像,比如是性别,年龄,宝宝的年龄性别,以及一些动 态的画像,比如品牌,购买时间,购买渠道等等,我们的这个行业里面,最重要的一个特征就是用户的性别年龄,不同的宝宝的性别年龄会影响到购物的偏好,很大 的一部分的妈妈是填写了一些用户的信息的,比如说宝宝的年龄是0-1岁,可以利用这个用户的行为特征,比如是它的浏览次数,收藏次数,有了这样子的模型, 就可以来填写宝宝年龄的预测。


 
华丽的分割线:您可以关注 lxw的大数据田地 ,或者 加入邮件列表 ,随时接收博客更新的通知邮件。

 

第二套很重要的标签是购物偏好,主要是提到的一些动态标签,比如是品牌内部等等,我们会统计用户在我们的平台上的一些行为,根据这些行为的成本给予不同的 选中,包括浏览电极,启发式的做法非常的简单,也是非常的容易理解,这些参数不好确定,这个时间的衰减应该做如何的衰减的程度。

我们现在正在用机器学习的方式做用户的偏好预测,把用户当前的购物的偏好做特征来进行一些购物的偏好。有一个很重要的推荐的类型是个性化的排序,当用户到 了我们的PC首页的时候,会展现每天500个在线的专场,用户很难通过翻页的方式来浏览所有的品牌,我们有一套规则的算法,模型有非常多的特征,可以考虑 非常多的因子,规则往往是只有几个关键的因子,比如是会把GMA往前排,规则是靠经验和参数的。已经形成了一个优化的问题。还有模型很方便加入用户的特征 做个性化的特征。

第一档就提升了6%,至于怎么样做,这个就是一个学习的流程,主要是离线和在线二个部分,在线系统搜集到了排序以后,也会根据用户的ID和品牌的ID,构建同样的特征和模型进行组合,就可以得到用户对每一个平台的分数。

那特征是这里面最重要的一部分,有属性特征,主要是各种维度的特性,还有是统计特征,还有偏好特征,偏好特征是我们做个性化推荐的最基本的推荐,这个是和 用户有关系的,比如是用户的画像。在这里面,我们做了很多的尝试,刚开始的时候,有点击率,点击率很好做,我们发现点击率的提升和我们的GMA的提升不是 完全一致的。我们用过分类和排序的算法,排序的算法会好一点,非线型的模型也会更有优势一点。


 
华丽的分割线:您可以关注 lxw的大数据田地 ,或者 加入邮件列表 ,随时接收博客更新的通知邮件。

 

我们到了电商网站的时候,肯定遇到过这样子的产品,你看过的商品可能是感兴趣的商品,在这个行业里面有很规律的算法,但是在母婴特卖里面,有它自己的特 点,它的商品每一行是代表了一个用户,每一列是代表的一个商品,第一周上线的商品第三周上线的时候,另外二个已经是下线了,第二个特点是在线的商品比较 少,就会把举证压缩,这样子的话,对这个举证会变的不这么的稀疏。第三个是这个行业的特点,比如是宝宝的性别,宝宝的年龄是否是一致的,如果是一致的话, 那是否有一个持续性。1-3岁的话,还可以,但是如果是对一个1-3岁的商品,可能就不大合适的。

我们根据这些特点做了一些改进,比如是我们有做时间,热门打压。相同的协同过滤的算法可能会不在线,一种是机遇标题和描述的相似度,还会加上运营的规则,是否匹配,有一些地方可以推荐同品牌,有一些可能推荐其他的品牌。

虽然我们刚才说的对算法进行了改进,单一的算法总是有一些局限性,因此我们现在正在做的是把多个算法结合在一起,比如是浏览的CF,购买的CF加上用户的特征,进行一个个性化的重新排序,我们正在研究这么一套新的流程。

我们第一档上线以后,可以看到在各个资源上都取得了很大的提高了,部分的资源上甚至是提高了500%的提升,我相信我们新的个性化的排列上线以后,会有更大的提升。

如果你购买了一个商品,再推荐一个相似的商品,这是不合理的推荐,用户购买了一个商品以后,比如是够末了C1以后,购买C2是一个简单的记数,比如是买奶嘴的用户里面,39%的用户会买奶瓶,买了纹胸的用户里面,有20%的会买内裤,买了纸尿裤的用户会有30%买湿巾。

还有个性化的推荐的工作,但是还不完全一样,主要是有一个很严重的痛点,经常会收到一些短信的推送,可能是一些打扰的工作,但是在我们的平台上,我们的运 营也遇到了同样的痛点,他们想搞活动的时候,他们也很难确定目标用户是什么,所以他们确定了精准营销的框架,能够帮助运营,选出他的目标用户,在适合的时 间发送感兴趣的商品。


 
华丽的分割线:您可以关注 lxw的大数据田地 ,或者 加入邮件列表 ,随时接收博客更新的通知邮件。

 

我们首先是会对用户打上标签,通过投放的请求,动态生成Hive,我们会返回目标用户以及时间。我们在用户的拉新方面也做了一部分的工作,我们平台的业务 的发展非常的迅速,我们吸引了一部分的用户以后,我们希望把用户转化成购买用户,一个是根据用户注册时候的静态画像,对用户做个性化的配置,整体的转化率 是10%以上。虽然我们在这一方面已经做了一些尝试,但是未来还有更多的可以探索的地方,一个是在数据的方面,刚才提到的个性的推荐是,首先是会更加的全 面和精准的把画像做的更准确。第二个是时效性的方面,需要快速的捕捉客户的需求。在模型方面,我们也会投入更多的精力,通过在线的方式更新我们的模型,应 用的话,双十一也快到了,我们希望我们的个性化的算法也可以发挥一些作用,以及在商家端做一些尝试,帮商家做一些预测等等。

本文根据网上的资料整理而来。

 

http://lxw1234.com/archives/2016/02/609.htm

转载于:https://www.cnblogs.com/qqflying/p/9192636.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_792252.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SEO人员:如何快速诊断竞争对手网站!

古语有云:知己知彼百战不殆,更好的洞悉竞争对手,对于SEO而言,往往事半功倍,特别是对于初入行业的网站,审查竞争对手的网站,有利于快速寻找突破口,建立差异化。那么,SEO人…

Accept-Language与多语言网站应用

Accept-Language 我们能从请求头中获取到浏览器愿意接收的语言类型 let http require(http); http.createServer(function(req,res){res.end(req.headers[accept-language]); }).listen(8080);<<< 输出 zh-CN,zh;q0.9其中多种语言之间用,隔开&#xff0c;而每种语言…

前端页面有那个html还是jsp(扩展ajax对seo的影响)

2019独角兽企业重金招聘Python工程师标准>>> html&#xff1a;前端页面给普通用户看的&#xff0c;访问速度要快&#xff0c;能做到前后端分离 使用html&#xff0c;比如是登录注册功能&#xff0c;我们提交的表单数据从servlet回来的数据不能直接放到html中显示。我…

《时代》评出50个最酷网站 25个网站非上不可

从2003年开始&#xff0c;《时代》周刊每年都会评选出一系列最受欢迎的网站&#xff0c;在这些网站身上我们不难看出互联网的变革与发展&#xff0c;同时清楚的认识到什么样的网站能够引领潮流。北京时间7月10日&#xff0c;美国《时代》周刊近日公布了2007年50个最受欢迎的网站…

19款网站常见多图片自动轮播banner源码

收集到的,希望能对大家有用 19款网站常见多图片自动轮播banner源码http://bbs.blueidea.com/thread-2729702-1-1.html点击图片进入下载页 点击文字查看效果演示韩国滚动图片banner17(仿三维空间前后替换)韩国滚动图片banner16(左右滚动)韩国滚动图片banner15(定时滚动)韩国滚动…

asp.net printbodyhtml.innerhtml 该内容不是文本_杭州诠网科技解析优化要如何避免网站内容的雷同?...

原标题&#xff1a;杭州诠网科技解析优化要如何避免网站内容的雷同&#xff1f;现在很多企业网站都是同一套网站代码做出来的&#xff0c;如果一套代码用的人多了&#xff0c;那么势必会导致网上很多雷同的网站&#xff0c;那么企业要如何避免网站内容重复呢&#xff0c;如何做…

网站能正常登陆但是点进去出现404错误_虚拟主机迁移网站教程如何操作?虚拟主机迁移网站难吗?...

虚拟主机迁移网站教程如何操作&#xff1f;虚拟主机迁移网站难吗&#xff1f;虚拟主机是现在很多企业网站建设的优先选择&#xff0c;因为虚机主机建站的成本是比较小的&#xff0c;也能满足企业网站的日常需要。但是总有一些站长租用的虚拟主机会出现各种问题&#xff0c;导致…

健康世界官方网站绿色健康知识门户网站源码-www.jiankangshijie.com

健康世界官方网站绿色健康知识门户网站源码 数据量&#xff1a;37000条左右 在线演示&#xff1a;健康世界官方网站 http://www.jiankangshijie.com 程序大小&#xff1a;495M 模板&#xff1a;DIVCSS 地址&#xff1a;http://www.bbscms.net/html/cmsmb/dedecms/20111231/4506…

php8网站,PHP8新特性解读(开发代码实例演示)

“本文主要内容为解读PHP8.0的主要新特性”PHP8新特性前言PHP8在2020年11月26日正式发布&#xff0c;又一个里程碑到来。根据官网的信息目前已经发布到了8.0.2版本&#xff0c;但目前许多的项目还是保持在5.6版本&#xff0c;旧的不去新的不来&#xff0c;如有实际需要该升级升…

网盘网站需要多大的服务器,一个网站服务器需要多大内存

一个网站服务器需要多大内存 内容精选换一换使用华为云备案系统时&#xff0c;全国互联网安全管理服务平台会有一些限制条件&#xff0c;具体限制条件请参见表1。一个网站可以绑定多个域名。注册多个不同的域名&#xff0c;并且将这些域名绑定到同一个网站上&#xff0c;可以让…

10个帮程序员减压放松的网站

同学们工作之余&#xff0c;不妨放下微博跟朋友圈&#xff0c;来这10个网站感受一下看着就醉了的情境&#xff1a;「念完往上一推音乐键&#xff0c;我往后一靠&#xff0c;潮乎乎的软皮耳机里头&#xff0c;音乐排山倒海。」今天推荐的网站&#xff0c;利用代入感强的图片与音…

抓取网站中的视频

最近想从别人家的网站宣传片上提取一些素材&#xff0c;借鉴一下。之前也没有弄过&#xff0c;但是我的思路就是从网页的缓存中查找播放完后缓存的视频。然后失败了。然后又想到了网页打开源代码&#xff0c;然后查找到网页源代码饮用的视频的路径&#xff0c;然后找到视频。然…

个人网站上线

网址&#xff1a; http://cross.withiter.com/ 花了2周业余时间&#xff0c;终于可以上线了。网站用的最简单的JSP Servlet MongoDB开发的。很简洁。贴几张截图吧&#xff1a; 转载于:https://www.cnblogs.com/snake-hand/p/3188397.html

win7安装IIS及将网站发布到IIS上

1. WIN7安装IIS: 控制面板----程序和功能-----打开或关闭windows功能&#xff0c;如图 展开Internet信息服务&#xff0c;按照下图方式进行选择&#xff0c;然后单击“确定”&#xff0c;等待几分钟就安装好了 2. 注册IIS 因为我们是先安装的VS&#xff0c;后安装的IIS&#x…

WordPress 3.8 中文正式版下载 - 建站与学习首选!全球最流行的开源PHP博客网站程序...

转载自&#xff1a;http://www.iplaysoft.com/wordpress.html 话说虽然我一直都在网站底部写着本站基于 WordPress 构建&#xff0c;但时常还是有人问我网站是用什么程序建的&#xff0c;还真有点无语。看到 WP 又有新版本发布&#xff0c;那就顺势发篇文推荐下它吧。 WordPres…

在IIS6,7中部署ASP.NET网站

查看web.config文件 ASP.NET网站与一般的桌面程序不同&#xff0c;不是拷贝过来就能运行的&#xff08;数据库连接除外&#xff09;。 要想运行它&#xff0c;通常需要一些配置过程。但是&#xff0c;我们到底需要配置什么呢&#xff1f;答案是&#xff1a;查看web.config web.…

【网站太慢怎么破?】从原理到分析到解决

#客户原创#【网站太慢怎么破&#xff1f;】从原理到分析到解决&#xff0c;前端和服务器角度优化网站全攻略~~http://weibo.com/1644971875/BkcBNm4sj &#xff08;这个绝对重磅推荐啊&#xff01;&#xff09; 转载于:https://www.cnblogs.com/aliyunblogs/p/3939170.html

各大招聘网站信息实时查询浏览

最近听得较多的跳槽、面试之类的&#xff0c;相信很多园友也开始蠢蠢欲动了&#xff0c;有的甚至早已经开始了。最近我也在琢磨着换工作的事。说得俗套点&#xff0c;人在外面不就为了那么点工资么。现在找工作大部分都是通过在网上投简历&#xff0c;然后等电话 通知面试的。然…

纯CSS一分钟让网站拥有暗黑模式切换功能

本文字数&#xff1a;6784字 预计阅读时间&#xff1a;17分钟 前言 暗黑模式这个概念最早起源于MacOS系统的Mojave&#xff0c;提供浅色主题和深色主题两种皮肤供用户选择&#xff0c;深色主题就是我们常说的暗黑模式。为了眼睛健康&#xff0c;笔者在手机、平板和电脑上都选择…

30个让人兴奋的视差滚动(Parallax Scrolling)效果网站--转

视差滚动&#xff08;Parallax Scrolling&#xff09;是指让多层背景以不同的速度移动&#xff0c;形成立体的运动效果&#xff0c;带来非常出色的视觉体验。作为今年网页设计的热点趋势&#xff0c;越来越多的网站应用了这项技术。今天这篇文章就与大家分享30个视差滚动效果的…