爬虫练习——某网站上海房价分析

news/2024/5/12 2:51:49/文章来源:https://blog.csdn.net/liuyunfeng_c/article/details/103217626

前言

实验数据来源自某看房网站，通过爬虫一共爬取了一千六百多条数据。能力有限，实验结果仅供参考。
该网站几乎没有什么反爬虫措施，原理很简单，所以关键就是定位自己想要的信息。

工具

1、爬虫工具：request（爬虫包）、xpath（定位指定信息）
2、分析工具、pandas（数据分析工具）、tableau（可视化）

数据爬取

在这里插入图片描述
本次实验一共获取了以上三种数据：地址、单价和标签。先尝试了正则表达式过滤数据，发现正则表达式用起来比较麻烦，最后换成xpath的方法，简单粗暴。

def getHTMLText(url):try:header = {'User-Agent':'User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/**********}r = requests.get(url,timeout=20,headers=header) #设置超时# 正则表达式匹配#measures = re.findall('<span>建筑面积：(.*?)㎡</span>',r.text)# areas = re.findall('<span class="list-map" target="_blank">\[&nbsp;(.*?)&nbsp;(.*?)&nbsp;]&nbsp;', r.text)#unit_price1 = re.findall('<span>(\d+)</span>', r.text)# print(len(areas))#通过Xpath定位(#<span>27000</span>，单价信息无法通过正则表达式定位)html = etree.HTML(r.text)infos = html.xpath('//*[@id="container"]/div[2]/div[1]/div[3]/*')  # 通过xpath定位到指定位置#print(len(infos))for info in infos:try:tag = info.xpath('./div/a[4]/div/span/text()')[0].strip()tags.append(tag)except:tags.append(np.nan)try:area = info.xpath('./div/a[2]/span/text()')[0].strip()#print(area)areas.append(area)except:areas.append(np.nan)try:unit = info.xpath('./a[2]/p/text()')[1].strip()if ('元' in unit):units.append(unit)else:unit = info.xpath('./a[2]/p[2]/text()')[1].strip()units.append(unit)except:units.append(np.nan)# unit = info.xpath('./a[2]/p/text()')[2].strip()# units.append(unit)try:unit_price = info.xpath('./a[2]/p/span/text()')[0].strip()unit_prices.append(unit_price)except:unit_prices.append(np.nan)continueexcept Exception as e: #异常处理print(e)return "产生异常"

获得的数据如下：
在这里插入图片描述

数据预处理及可视化

首先，从地址属性中提取房源所在区域的信息。首先来看一下最贵的房子，以为自己眼瞎了！！！！
在这里插入图片描述
赶紧到网站上求证一下：

原来如此。

fun = lambda x:x.split()[1]
dt['所在区'] = dt['地址'].map(fun)

在这里插入图片描述从数量上来看，可以看出浦东的新房源最多。我们再来看看各个地方的均价，做个排序，结果如下：

在这里插入图片描述

暂时就简单的看看这些内容，以后有时间再继续深入分析。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_890871.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

爬虫练习——某网站上海房价分析

前言

工具

数据爬取

数据预处理及可视化

相关文章

开源中国网站挂掉了...

基于C#和SQL SERVER的校园知识问答论坛网站的设计与实现

基于JavaScript和MySQL的文化平台网站的设计与实现

基于Node.js中间层的微信图书借阅平台网站的设计与实现

基于Keras和tensorflow深度学习Python实现的支持人脸识别和情绪分类的社区APP网站和微信小程序...

基于php与sqlite数据库的运动社交网站

[源码和文档分享]基于C#实现的电影网站数据爬虫和电影网站

[源码和文档分享]基于JAVA FX实现的酒店预订系统网站

[源码和文档分享]基于PHP和MYSQL数据库实现的公共考试报名管理系统网站

[源码和文档分享]基于Python的Django框架实现的中式快餐厅管理信息系统网站

[源码和文档分享]基于PHP和MYSQL数据库实现的libilibi电影论坛网站

基于ASP.NET和SQL SERVER数据库的招聘网站设计与实现

央视看上绿色P2P网站

PHP网站的网页产生中文乱码的解决办法（以zend studio为例）

静静网站流量分析项目_0

PHP使用Apache中的ab测试网站的压力性能

Flash脚本语言as学习扎记-摘自某小学网站

网站使用国外空间或服务器[转载]

python requests爬取一个网站所有前端的css+js+图片资源

nginx配置网站不加www可以访问，支持https