爬取自如网站杭州市的租房信息

news/2024/5/10 0:52:59/文章来源:https://blog.csdn.net/weixin_30677073/article/details/96071802

爬取自如网站杭州市的租房信息

最近看到自如网的整体网页结构比较简洁,因此尝试获取一下杭州市的租房情况,简单做一个分析。

  • 需要获取的内容如图所示

1389345-20180429105357196-700117606.jpg

1.获取网页内容

web_url='http://hz.ziroom.com/z/nl/z2.html?p=1'
#对一些需要登录的网站,如果不是从浏览器发出的请求,得不到响应,所以需要将爬虫程序发出的请求伪装成浏览器。
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) ''AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132                                   Safari/537.36'}
req=urlrequest.Request(url=web_url,headers=headers)
web_page=urlrequest.urlopen(req).read()
content=web_page.decode('utf8') #中文解码
#print(content)

2.找到有效信息所在标签

soup=BeautifulSoup(content,'html.parser')
soup_valid=soup.find(id="houseList")
all_divs=soup_valid.find_all('li')
print(all_divs[0].prettify())
  • 获取内容的部分截图

标签截图

#符合要求的标签数量
len(all_divs)

输出:

18

3.整理标签内容

print('apartment|area|size|dis_to_subway|price')
for div in all_divs:apartment=div.find(class_="t1").get_text().split()[2]area=div.find('h4').get_text()size=div.find(class_="detail").find('span').get_text()dis_to_subway=div.find(class_="detail").find_all('span')[3].get_text()price=div.find(class_="price").get_text().split()[1]print('{},{},{},{},{}'.format(apartment,area,size,dis_to_subway,price))
  • 单页爬取结果打印

单页爬取结果

爬取杭州市所有租房信息,并存入文件的完整代码如下:

import urllib.request as urlrequest
from bs4 import BeautifulSoup
import timestart=time.clock()
web_url='http://hz.ziroom.com/z/nl/z2.html?p={}'
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) ''AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
#把租房信息存入文件中
with open('rent_data.csv','w')as outfile:outfile.write('apartment,area,size,dis_to_subway,price\n')#一共50页for i in range(1,51,1):req=urlrequest.Request(url=web_url.format(i),headers=headers)web_page=urlrequest.urlopen(req).read()content=web_page.decode('utf8')#找到有效信息所在标签soup=BeautifulSoup(content,'html.parser')soup_valid=soup.find(id="houseList")all_divs=soup_valid.find_all('li')for div in all_divs:apartment=div.find(class_="t1").get_text().split()[2]area=div.find('h4').get_text()size=div.find(class_="detail").find('span').get_text()dis_to_subway=div.find(class_="detail").find_all('span')[3].get_text()price=div.find(class_="price").get_text().split()[1]outfile.write('{},{},{},{},{}\n'.format(apartment,area,size,dis_to_subway,price))
end=time.clock()
print('time cost:%.3f s' % (end-start)) #时间消耗

输出:

time cost:37.350 s

转载于:https://www.cnblogs.com/toastavocado/p/8970584.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_756848.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一个纯采集站长的SEO、采集、运维总结

我是一个纯采集站长,下面的这些总结,有些是关于关于SEO,有些是关于采集和运维,都是很基础的个人见解,仅作分享,请自辨好坏是非,实践出真知。原创好还是采集好?当然是原创好,因为百度…

周六周日闲着做一个视频小webapp免费视频网站

2019独角兽企业重金招聘Python工程师标准>>> 一次无意中浏览网站 ,发现了一些免费的去广告免会员的视频网站, 抓包发现了他们网站的一些接口, 我就拿过来借用了 哈哈,主要是因为那些网站的广告太多了,只是想…

[置顶] 高性能建站之前端优化篇

高性能建站之前端优化篇 2011-10-25 17:50 by PHP淮北, 560 visits, 收藏, 编辑 前言: 这算是对前端优化的总结吧,之前零零星星总结和学习,这次做一个完整的总结。 测试网页性能工具 ⑴Page Speed: 谷歌开发的工具,网站…

40款非常漂亮的免费 HTML5 CSS3 网站模板【上篇】

HTML5 作为下一代网页语言,加入中众多更具语义的标签,例如video、audio、section、article、header 和 nav 等。而 CSS3 作为 CSS 的下一代版本,同样引入了很多很酷的属性,以前很多需要 JavaScript 才能实现的复杂效果&#xff0c…

IIS或Apache启用GZIP压缩优化网站

先来了解一下GZIP,gzip 是GNU zip的缩写,它是一个GNU自由软件的文件压缩程序,也经常用来表示gzip这种文件格式。软件的作者是Jean-loup Gailly和Mark Adler。1992年10月31日第一次公开发布,版本号是0.1,目前的稳定版本…

使用Apache服务部署静态网站

Apache程序是目前拥有最高市场占有率的web服务程序之一,其跨平台和安全广泛被认可且拥有快速、可靠、简单的API发展。下面是使用Apache服务部署静态网站 一.1.我们首先创建目录/media/cdrom,把光盘设配系统中镜像挂载到目录/media.cdrom命令为&#xff1…

看我如何发现Uber合作方网站XXE 0day漏洞并获得9000美元赏金

近期,俄罗斯渗透测试人员Vladimir Ivanov发现了反勒索数据备份服务商Code42的一个XXE 0day漏洞,利用该漏洞可以从使用Code42服务的公司窃取相关备份数据,这些公司包括Uber、Adobe、Lockheed Martin(洛克希德马丁)等。作…

C# 实现导出网站功能

C# 实现导出网站功能 这个导出网站功能指通过前台javascript触发进入ashx函数中,实现将服务器中某个文件夹(包含其子文件夹和文件)通通复制到服务器中另一处位置,当然该文件夹本身就是一个网站。 所以导出网站最重要的两个功能&am…

如何更有效使用Rational AppScan 扫描大型网站

Rational AppScan 工作原理 Rational AppScan(简称 AppScan)其实是一个产品家族,包括众多的应用安全扫描产品,从开发阶段的源代码扫描的 AppScan source edition,到针对 Web 应用进行快速扫描的 AppScan standard edit…

WordPress快速增加百度收录,加快网站内容抓取

本文已同步到专业技术网站 www.sufaith.com, 该网站专注于前后端开发技术与经验分享, 包含Web开发、Nodejs、Python、Linux、IT资讯等板块. 利用百度站长平台提供的链接自动提交代码, 快速增加百度收录, 加快网站内容抓取。 1.创建名为 “baidu_js_push.php”的文件, 内容如下(…

蚂蚁变大象:浅谈常规网站是如何从小变大的

2005年,我开始和朋友们开始拉活儿做网站,当时第一个网站是在linux上用jsp搭建的,到后来逐步的引入了多种框架,如webwork、hibernate等。在到后来,进入公司,开始用c/c,做分布式计算和存储。&…

如何快速把PC网站模板改为自适应模板

网站自适应,很多人都认为是很高级需要很多时间去实现的东西,不愿意去把一个现成的网站改成自适应,宁愿单独另外做一个移动站。我之前觉得实现网站自适应,要设计很多套CSS,并且要结合jQuery,来实现自适应不同…

Mysql在大型网站的应用架构演变

本文主要描述在网站的不同的并发访问量级下,Mysql架构的演变。架构的可扩展性往往和并发是息息相关,没有并发的增长,也就没有必要做高可扩展性的架构,这里对可扩展性进行简单介绍一下。写在最前:本文主要描述在网站的不同的并发访…

《从零开始学Swift》学习笔记(Day 2)——使用Web网站编写Swift代码

Swift程序不能在Windows其他平台编译和运行,有人提供了一个网站swiftstub.com,左栏是代码编辑窗口,右栏是运行结果窗口。可以在任何平台下编译和运行Swift程序。 本文转自 tony关东升 51CTO博客,原文链接:http://blog.…

一个非常不错的背景纹理图的网站

今天闲逛的时候发现的:http://subtlepatterns.com/。里面的纹理图质量都非常高,并且预览也非常方便,无需注册即可下载,这里强烈推荐下。 转载于:https://www.cnblogs.com/TianFang/p/4008345.html

旅游网站的主页代码_网站建设应该怎么样考虑主页的设计?

网站建设在进行深圳网站建设的那时,主页的设计方案是十分重要的。因为用户在访问网站的那时,先看到的就是网站的主页。因而主页是网站给用户的第一印象。大家在企业深圳网站建设的那时一定要十分重视主页的设计方案,下面大家就来讨论一下如何…

修改图片背景_25个超好用的网站,包括图片,图标,背景等,重点是全部都免费!...

之前,整理了一波免费图片网站,那些好用的免费图片网站分享,不过近几个月发现我浏览的网站有好多新更新。于是,重新整理了一波。本篇文章总共整理了25个网站,包括背景网站,免费图标网站,样机网&a…

asp.net 转 php,转换功能的PHP网站为asp.net

我已经有了一个php站点,现在已经有10年的时间了,并且在过去几年中对它进行了调整和调整,最终将它打造成了一个共同功能的页面,以及大约10个内容页面。不过,我想学习.NET。我在过去曾经谈到.NET在工作,但从来…

使用Python-Flask框架开发Web网站系列课程(二)注册功能

版权声明:如需转载,请注明转载地址。 https://blog.csdn.net/oJohnny123/article/details/81938381 前言 使用IDE:PyCharm 操作系统: Mac Python版本:3.6 我的邮箱:51263921qq.com 交流群: 372430835 说明: 本次课程gi…