《Python数据分析与挖掘实战》第12章——电子商务网站用户行为分析及服务推荐(协同推荐)数据预处理篇②

news/2024/5/9 11:08:34/文章来源:https://blog.csdn.net/weixin_43746433/article/details/100522207

文章目录

  • 1 数据清洗
    • 1.1 查看各个需要删除的规则包含的信息

1 数据清洗

1.1 查看各个需要删除的规则包含的信息

  • 类型网页
import pandas as pd
from sqlalchemy import create_engine# 读取数据库数据
engine = create_engine('mysql+pymysql://root:@localhost/wangye?charset=utf8')
sql = pd.read_sql('all_gzdata', engine, chunksize = 10000)def countmidques(i): j = i[['fullURL','fullURLId','realIP']].copy()j['type'] = u'非中间类型网页'j['type'][j['fullURL'].str.contains('midques_')]= u'中间类型网页'return j['type'].value_counts()
counts1 = [countmidques(i) for i in sql]
counts1 = pd.concat(counts1).groupby(level=0).sum()
counts1

在这里插入图片描述

  • 网页中".html"
# 读取数据库数据
engine = create_engine('mysql+pymysql://root:@localhost/wangye?charset=utf8')
sql = pd.read_sql('all_gzdata', engine, chunksize = 10000)def countnohtml(i):j = i[['fullURL','pageTitle','fullURLId']].copy()j['type'] = u'有html页面'j['type'][j['fullURL'].str.contains('\.html')==False] = u'无.html点击行为的用户记录'return j['type'].value_counts()
counts2 = [countnohtml(i) for i in sql]
counts2 = pd.concat(counts2).groupby(level=0).sum()
counts2

在这里插入图片描述

  • pageTitle 类型
# *备注:此规则中要删除的记录的网址均不含有.html,所以,规则三需要过滤的信息包含了规则2中需要过滤的
engine = create_engine('mysql+pymysql://root:@localhost/wangye?charset=utf8')
sql = pd.read_sql('all_gzdata', engine, chunksize = 10000)def countothers(i):j = i[['fullURL','pageTitle','fullURLId']].copy()j['type'] = u'其他'j['pageTitle'].fillna(u'空',inplace=True)j['type'][j['pageTitle'].str.contains(u'快车-律师助手')]= u'快车-律师助手'j['type'][j['pageTitle'].str.contains(u'咨询发布成功')]= u'咨询发布成功'j['type'][(j['pageTitle'].str.contains(u'免费发布法律咨询')) | (j['pageTitle'].str.contains(u'法律快搜'))] = u'快搜免费发布法律咨询'return j['type'].value_counts()
counts3 = [countothers(i) for i in sql]
counts3 = pd.concat(counts3).groupby(level=0).sum()
counts3

在这里插入图片描述

  • 主网址关键字
engine = create_engine('mysql+pymysql://root:@localhost/wangye?charset=utf8')
sql = pd.read_sql('all_gzdata', engine, chunksize = 10000)def deletquesafter(i):j = i[['fullURL']].copy()#print(j)j['fullURL'] = j['fullURL'].str.replace('\?.*','')j['type'] = u'主网址不包含关键字'j['type'][j['fullURL'].str.contains('lawtime')] = u'主网址包含关键字'return jcounts4 = [deletquesafter(i) for i in sql]
counts4 = pd.concat(counts4)
len(counts4)
counts4['type'].value_counts()

在这里插入图片描述

# 读取数据库数据
engine = create_engine('mysql+pymysql://root:@localhost/wangye?charset=utf8')
sql = pd.read_sql('all_gzdata', engine, chunksize = 10000)def countduplicate(i): j = i[['fullURL','timestamp_format','realIP']].copy()return jcounts5 = [countduplicate(i) for i in sql]
counts5 = pd.concat(counts5)
print(counts5.head())print(len(counts5[counts5.duplicated()==True])) 
print(len(counts5.drop_duplicates())) 
a = counts5.drop_duplicates()

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_770942.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

提升 10 倍网站访问速度,全局负载均衡与CDN内容分发

CDN简介 CDN的全称是Content Delivery Network,即内容分发网络。CDN是构建在现有网络基础之上的智能虚拟网络,依靠部署在各地的边缘服务器,通过中心平台的负载均衡、内容分发、调度等功能模块,使用户就近获取所需内容,…

一款开源免费的网站监控系统

做过前端的开发的小伙伴想必经常被线上的各种问题弄的焦头烂额,不是出现适配问题,就是出现功能异常。 虽然,公司一般也有各种监控系统来帮助我们分析和发现问题,但是,我们每次解决问题都需要辗转于各种监控系统之间&a…

基于Python电影网站系统的日志

文章目录使用技术:模块10.1810.1910.2610.2711.1611.1712.2512.269-1上映预告-标签筛选-电影分页9-2 电影搜索-电影详情5-4 会员-收藏-评论管理页面搭建6-8 修改密码6-9 日志管理1.1遇到的问题1. 当验证在Flask中失败时,如何覆盖html默认的“请填写此字段…

Flask搭建新闻网站①

跟之前flask做的ihome租房网站类似,配置信息几乎完全一样,这里只记录下重点内容 git忽略log日志可在logs文件夹下加 .gitkeep文件 文章目录项目预览文章列表页文章详情页个人中心Day108_表结构分析数据库迁移显示网站logo文件Day2使用请求钩子自定义过滤…

Flask搭建新闻网站②

文章目录Day5404创建管理员管理员登录用户统计防止用户进入admin页面gunicorn运行项目nginxDocker部署服务器建立docker镜像Day5 404 # 统一返回404页面 index_bp.route(/404) user_login_data def page_not_found():data {"user_info": g.user.to_dict() if g.use…

Django+xadmin实现教育网站系统

文章目录环境配置与项目介绍Django升级2.0 注意的点app管理数据库设计注册model注册app目录5 xadmin搭建后台管理系统5-3 users app 的model注册5-5 xadmin全局配置app.py 定义app后台名称第6章 用户注册功能实现6.1 登录表单验证6-6 session和cookie自动登录机制用户注册发送邮…

Django+xadmin实现教育网站系统②

文章目录第10章 个人中心和全局搜索功能实现全局搜索修改头像第11章 首页、全局功能细节和404以及500页面配置第12章 常见web攻击及防范sql注入12-2 xss攻击原理及防范12-3 csrf攻击与防范第13章 xadmin的进阶开发13-1 userprofile注册以及django的权限管理13-3 model_icon, 只…

视频网站解决带宽问题(总结)

自己搜来的一些方案,汇总下供自己学习吧 1.大带宽是重中之重 所有了解视频类应用的人都知道,视频网站的带宽才是重中之重。在线视频播放网站每天都会产生巨额的流量,每个客户都会占据非常大的带宽。如果带宽不够就会出现用户播放卡顿&#…

php投票网站教程,PHP之投票联系

1.建立数据库表1:DiaoYanTiMu表2:DiaoYanXuanXiang2.页面页面1:投票首页无标题文档#fanhui{ display:none}$db new MySQLi("localhost","root","123","mydb");$sql "select * from diaoyanti…

网站页面左右_建设一个普通的网站需要多少钱?就是一个展示型的公司网站。...

这个问题在行业内是没有准确定义的,每一个建站公司在面对不同的客户需求,都会有不同的报价模式,而影响价格的因素有很多,但无疑建站成员所拥有的“宝贵经验”往往是最贵的,这也是建站公司相互报价差距巨大的原因。要想…

java页面加速_为你的网站加速

我的博客刚成立也是不久,所以现在我关注了很多中小博客站点,发现很多站点打开速度很慢,甚至有一些网站出现打不开的情况。网站运行不稳定,可能和使用的服务器有关系,因为很多人都图方便,为了不备案直接使用…

linux 重启命令nginxed,Nginx转发,部署网站相关linux命令

进入目录cd /etc/nginx/sites-available进入文件defaultsudo vim default;编辑a鼠标右键粘贴退出编辑Esc保存:wq重启Nginx服务sudo service nginx restart清空default里面的内容sudo sh -c encho "" >default创建manage-front文件,并复制cib-front到ma…

电子病历模板编辑器_这几个邮件模板网站,帮助提升工作效率

AUTOKLOSE: 一些免费的邮件正文模板。Autopilot Templates:ree customer journey templates for marketing automationBEE TEMPLATES for GMAIL: 可编辑Gmail邮件模板。COLD EMAIL TEMPLATE: 一系列营销邮件模板。Contactually: 不知道邮件内容怎么写?参考下这些邮件…

关于ssm框架的外文文献及译文_使用彩云小译,翻译外文网站实现双语对照

彩云小译扩展,实现外语网页的翻译功能,一段原文一段译文,让查阅外文资料可以随心所欲。整理&排版 | idea君 ,预计阅读时间 | 3分钟 文章意在学习交流分享,如有侵权请联系删除 封面:http://www.pexels.c…

网站index.php怎么关联其余,thinkphp隐藏index.php/home并允许访问其他模块的实现方法...

想要达成的效果很简单,我有两个模块,Home、Wechat。http://localhost/index.php/home/index/index 缩短为: http://localhost/index/indexhttp://localhost/index.php/wechat/index/index 缩短为: http://localhost/wechat/index/…

php5.2.8升级,UWA2.X通用建站升级程序

UWA2.X通用建站升级程序是一款基于PHP和MySQL开发的通用建站系统,程序简洁、灵活而具备强大的扩展性,将是您轻松建站的首选利器。采用XML名字空间风格核心模板:模板全 部使用文件形式保存,对用户设计模板、网站升级转移均提供很大…

google android开发者网站,谷歌上线 Fuchsia OS 开发者网站

原标题:谷歌上线 Fuchsia OS 开发者网站谷歌自研的操作系统 Fuchsia OS 又有新动作了。据了解,谷歌近日悄悄地上线了 Fuchsia OS 的开发者网站 https://fuchsia.dev/。谷歌表示,上线 fuchsia.dev 是为了让开发者更好地参与 Fuchsia OS 的开发…

如何自制网页服务器,如何自己制作网站?如何制作自己的网页?

如何自己制作网站?如何制作自己的网页?首先,你是非开发者,你需要知道做一个网页要采取哪些步骤。下面一起来看看吧!简单来说,网页制作需要的内容如下:页面设计、前端开发、后端开发(如果只是简单的介绍页面或者是不经常更改的页面)&#xf…

我的世界服务器换披风的网站,我的世界正版披风怎么换|或

【我的世界评测】我的世界正版披风怎么换。那下面给大家分享的则是我的世界正版中更换披风的教程哦~那到底怎么更换披风呢?那下面就给大家详细的介绍一下吧!如果你有心仪的作品或者心得分享的话,欢迎来游戏园投稿,大家可以点击>…

计算机安全可信站点,怎样看网站是否安全?教你从地址栏上分辨网站是否真安全...

当网民有SSL证书保护的加密页面时,地址栏网址也会由“http”自动变成“https”。如同金色安全锁标记一样,我们此时提交的信息得到了安全加密保护。不知道平时大家在日常上网时有没有发现观察过有的网站开头是http,而有的则是https。为何会有这…