爬虫练习——某网站上海房价分析

news/2024/5/12 2:51:49/文章来源:https://blog.csdn.net/liuyunfeng_c/article/details/103217626

前言

实验数据来源自某看房网站,通过爬虫一共爬取了一千六百多条数据。能力有限,实验结果仅供参考。
该网站几乎没有什么反爬虫措施,原理很简单,所以关键就是定位自己想要的信息。

工具

1、爬虫工具:request(爬虫包)、xpath(定位指定信息)
2、分析工具、pandas(数据分析工具)、tableau(可视化)

数据爬取

在这里插入图片描述
本次实验一共获取了以上三种数据:地址、单价和标签。先尝试了正则表达式过滤数据,发现正则表达式用起来比较麻烦,最后换成xpath的方法,简单粗暴。

def getHTMLText(url):try:header = {'User-Agent':'User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/**********}r = requests.get(url,timeout=20,headers=header) #设置超时# 正则表达式匹配#measures = re.findall('<span>建筑面积:(.*?)㎡</span>',r.text)# areas = re.findall('<span class="list-map" target="_blank">\[&nbsp;(.*?)&nbsp;(.*?)&nbsp;]&nbsp;', r.text)#unit_price1 = re.findall('<span>(\d+)</span>', r.text)# print(len(areas))#通过Xpath定位(#<span>27000</span>,单价信息无法通过正则表达式定位)html = etree.HTML(r.text)infos = html.xpath('//*[@id="container"]/div[2]/div[1]/div[3]/*')  # 通过xpath定位到指定位置#print(len(infos))for info in infos:try:tag = info.xpath('./div/a[4]/div/span/text()')[0].strip()tags.append(tag)except:tags.append(np.nan)try:area = info.xpath('./div/a[2]/span/text()')[0].strip()#print(area)areas.append(area)except:areas.append(np.nan)try:unit = info.xpath('./a[2]/p/text()')[1].strip()if ('元' in unit):units.append(unit)else:unit = info.xpath('./a[2]/p[2]/text()')[1].strip()units.append(unit)except:units.append(np.nan)# unit = info.xpath('./a[2]/p/text()')[2].strip()# units.append(unit)try:unit_price = info.xpath('./a[2]/p/span/text()')[0].strip()unit_prices.append(unit_price)except:unit_prices.append(np.nan)continueexcept Exception as e: #异常处理print(e)return "产生异常"

获得的数据如下:
在这里插入图片描述

数据预处理及可视化

首先,从地址属性中提取房源所在区域的信息。首先来看一下最贵的房子,以为自己眼瞎了!!!!
在这里插入图片描述
赶紧到网站上求证一下:
在这里插入图片描述
原来如此。

fun = lambda x:x.split()[1]
dt['所在区'] = dt['地址'].map(fun)

在这里插入图片描述从数量上来看,可以看出浦东的新房源最多。我们再来看看各个地方的均价,做个排序,结果如下:

在这里插入图片描述
在这里插入图片描述
暂时就简单的看看这些内容,以后有时间再继续深入分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_890871.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源中国网站挂掉了...

现在是2013-08-24 18:48:19 有图为证&#xff1a;

基于C#和SQL SERVER的校园知识问答论坛网站的设计与实现

摘 要 本文使用Asp.Net Core 和MsSqlServer技术&#xff0c;详细说明开发校园知识论坛系统的开发。校园知识论坛系统是基本B/S模式的一种交互性极强的电子信息服务系统。它为使用者提供一个交流的平台&#xff0c;每一个用户都可以在上面问答知识&#xff0c;获取信息&#xff…

基于JavaScript和MySQL的文化平台网站的设计与实现

摘要 中国文化源远流长&#xff0c;自古就有文人雅士作诗赋词&#xff0c;舞文弄墨&#xff0c;尽显风雅。现今则有歌手作家思想成文&#xff0c;心绪为曲&#xff0c;亦现儒雅。文化是传承的&#xff0c;是流传不息的&#xff0c;也是众多人所追求的。从各种各样的文化中&…

基于Node.js中间层的微信图书借阅平台网站的设计与实现

1 引言 步入信息时代以来&#xff0c;互联网给人们的生活带来了翻天覆地的变化&#xff0c;互联网也不再简单地仅仅通过提供便利快捷的资讯服务来丰富我们的生活。互联网的出现打破了许多传统行业垄断的格局&#xff0c;互联网以其接入面广、信息即使、人人可参与等等性质&…

基于Keras和tensorflow深度学习Python实现的支持人脸识别和情绪分类的社区APP网站和微信小程序...

1 项目介绍 1.1 背景 视觉使人类得以感知和理解周边的世界&#xff0c;人的大脑皮层大约有 70%的活动在处理 视觉相关信息。计算机视觉即通过电子化的方式来感知和理解影像&#xff0c;以达到甚至超 越人类视觉智能的效果。 从 1966 年学科建立&#xff08;MIT&#xff1a;TheS…

基于php与sqlite数据库的运动社交网站

一、总体设计 1.1 开发环境 本系统采用php作为主要开发语言&#xff0c;服务端主要使用php&#xff0b;sqliteApache&#xff0c;客户端使用htmlcssjs。用Apache作为服务器&#xff0c;采用sqlite作为后台数据管理系统。 开发环境&#xff1a;Windows 10 开发工具&#xff1a;p…

[源码和文档分享]基于C#实现的电影网站数据爬虫和电影网站

1 简介 1.1 背景 随着网络的发展&#xff0c;网购也越来越流行&#xff0c;人们可以在去各大电影院的网站方便的购票并选择自己喜欢的时间去影院观看。但电影院网站众多&#xff0c;人们可能为了寻找一个电影而奔波与各大网站&#xff0c;导致浪费大量时间在寻找电影资源上。本…

[源码和文档分享]基于JAVA FX实现的酒店预订系统网站

1 产品概述 参考酒店预订系统用例文档和酒店预订系统软件需求规格说明文档中队产品的概括描述。酒店预订系统主要是应用于网上预定远程酒店订单的在线系统&#xff0c;主要功能见用例图如下。 源码下载地址&#xff1a;https://www.write-bug.com/article/1441.html

[源码和文档分享]基于PHP和MYSQL数据库实现的公共考试报名管理系统网站

前 言 随着社会的快速发展&#xff0c;体力不再是我们唯一的生存方式了&#xff0c;人们也越来越注重自身的文化素养&#xff0c;随之而来的也有许多成人考试&#xff0c;为已经步入社会的人提供一个再学习的机会。 众所周知&#xff0c;作为学生&#xff0c;考试是我们必经的过…

[源码和文档分享]基于Python的Django框架实现的中式快餐厅管理信息系统网站

1 初步调研 随着餐饮业的连锁和国外餐饮巨头的进入&#xff0c;餐饮业的竞争将越来越激烈&#xff1a;要想在竞争中处于不败之地&#xff0c;必须在管理、服务等方面提高服务管理意识。面对当前餐饮业普遍的产业化程度低&#xff0c;管理手段、管理技术落后等问题&#xff0c;使…

[源码和文档分享]基于PHP和MYSQL数据库实现的libilibi电影论坛网站

一、需求分析 1.1 需求描述 1.1.1 用户相关功能 登录&#xff1a;前端输入用户名和密码&#xff0c;在数据库中完成查询&#xff0c;如果存在该用户&#xff0c; 则登陆成功&#xff0c;继续其他操作&#xff1b;如果不存在&#xff0c;则登录失败&#xff0c;提示用户名/密码错…

基于ASP.NET和SQL SERVER数据库的招聘网站设计与实现

摘 要 本课题是基于互联网与数据库技术的网上招聘网站&#xff0c;是先进的计算机科学技术和现代招聘理念相结合的产物&#xff0c;通过使用以ASP.NET技术为基础&#xff0c;基本实现网上招聘网站的基本功能&#xff0c;满足了求职者和招聘企业的需求&#xff0c;实现了招聘单位…

央视看上绿色P2P网站

4月18日&#xff0c; 2008国际III联竞走挑战赛在北京"鸟 巢"正式启动。借此契机&#xff0c;悠视网(UUSee. com)与 IBTV合作走进"鸟巢"&#xff0c;进行长达7个小时网络直 播&#xff0c;吸引了诸多网友的H光。 悠视网采用新一代P2P传输技术和卫星宽带…

PHP网站的网页产生中文乱码的解决办法(以zend studio为例)

PHP网站的网页产生中文乱码的解决办法&#xff08;以zend studio为例&#xff09; 乱码原因很多&#xff0c;主要是因为多系统之间不协调&#xff0c;现阶段让源文件同浏览器编码一致&#xff0c;基本上能解决问题。 网页上显示乱码 很多人的解决方法是在PHP文件头添加下面的…

静静网站流量分析项目_0

最近打算把大数据从日志收集&#xff0c;数据存储&#xff0c;数据清洗处理&#xff0c;数据导出&#xff0c;可视化展示进行一个整合,汇总到静静网站流量分析项目&#xff0c;本篇先对该项目做一个简单的介绍。 1.业务背景 网站流量统计是改进网站服务的重要手段之一&#xf…

PHP使用Apache中的ab测试网站的压力性能

打开Apache服务器的安装路径(我用的是 WampServer)&#xff0c;在bin目录中有一个ab.exe的可执行程序&#xff0c;它就是要介绍的压力测试工具。 在Windows系统的命令行下&#xff0c;进入ab.exe程序所在目录&#xff0c;执行ab.exe程序。注意直接双击无法正确运行。 d:(回车/进…

Flash脚本语言as学习扎记-摘自某小学网站

小学里头出现Flash的AS学习笔记..真让长天汗颜! AS基础-----------------------------------做过Flash动画的Flash爱好者们都知道&#xff0c;要做好一个Flash动画&#xff0c;AS是必不可少的&#xff0c;即使只是很简单的几句代码也能起到整个Flash画龙点睛的作用。这里我只简…

网站使用国外空间或服务器[转载]

网站使用国外空间或服务器不会影响收录及排名 由于备案制度变更、价格等多方面的因素&#xff0c;从去年开始多数站长选择使用国外空间。 一个大家关注较多的问题就是&#xff0c;使用国外主机对SEO有影响吗?在许多站长平台以及论坛都是一个比较热门话题。目前网上对于这个问题…

python requests爬取一个网站所有前端的css+js+图片资源

直接放代码 # -*- coding:utf-8 -*- # Author: cmzz # Time :19-3-2 import re import requests import osdef get_html(url):headers { content-type: application/json,User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3…

nginx配置网站不加www可以访问,支持https

设置DNS解析 设置A记录分别设置www和&#xff0c;在阿里云里&#xff0c;主机记录不填或者填是一个效果。 nginx配置 主要的设置是&#xff1a; server_name xxx.com www.xxx.com; 以下代码案例是同时支持https和http的情况&#xff1a; server {listen 80;server_name x…