scrapy爬取途牛网站旅游数据

news/2024/5/19 10:26:37/文章来源:https://blog.csdn.net/u014257192/article/details/77418366

描述:采取了scrapy框架对途牛网旅游数据进行了爬取,刚开始练手,所以只爬了四个字段用作测试,分别是景点名称、景点位置、景点开放时间、景点描述,爬取结果存的是json格式。
部分数据:
这里写图片描述
部分代码:
这里写图片描述
遇到的问题:start_urls是不能动态添加URL的,这个还需要研究,这里只是简单把所有待爬取的网址全扔进了start_urls里面,这是可行的,但是对网址的预处理就很耗时间了。然后是对汉字编码的处理,在scrapy中一开始传到json中的数据总是/uxxx类型的,这需要在pipeline.py、setting.py中都进行修改,具体修改如下:
在pipelines.py中,修改代码如下:

def __init__(self):self.file = codecs.open('items.json', 'wb', encoding='utf-8')#def process_item(self, item, spider):line = json.dumps(dict(item), ensure_ascii=False) + "\n"self.file.write(line)return item#def spider_closed(self, spider):self.file.close()

在settings.py中,添加如下代码:

ITEM_PIPELINES = {'bdlv_spider.pipelines.BdlvSpiderPipeline': 800,
}

其中,BdlvSpiderPipeline是pipelines.py中的类名。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_868648.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站数据统计分析之一:日志收集原理及其实现

网站数据统计分析工具是网站站长和运营人员经常使用的一种工具,比较常用的有谷歌分析、百度统计 和 腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于javascript的。本文将简要分析这种数据收集的原理&#…

WordPress建站后必做的几项优化

欢迎大家访问我的个人博客网站:风挽青个人博客 1、修改上传文件大小限制 wordpress上传文件一般都有限制,通常为2M,在一些情况下会不够用,所以自然是提升它的上传文件限制大小。 找到php.ini文件,然后修改其中的几个…

实现基于LNMP的电子商务网站

一、环境准备 yum安装mariadb、 mariadb-mysql、php-fpm、Nginx 并开启服务 二、 1、下载开源的购物商城软件包,解压到/data/test文件夹下,可自定义 unzip 2、修改用户和属组为nobody chown nobody . chgrp -R nobody . 三、 1、修改Nginx配…

SEOmoz开放Open Site Explorer工具API

SEOmoz是SEO行业知名站点,上周SEOmoz推出了外链分析工具Open Site Explorer。今天很高兴告诉大家,Open Site Explorer开始免费开放API了。 英文过得去的可以看原文的介绍:Launching the SEOmoz Free API and Enough Power to Build Open Site…

商机无限!在政府门户网站升级改造中掘金

作者: 王凤霞 2007-10-31 内容导航: 政府网站升级改造高潮已经全... 第1页: 政府网站升级改造高潮已经全面到来 第2页: 政府门户网站升级改造中商机无限 第3页: 政府门户网站升级改造的新特点 第4页: …

超级鹰模拟登录古诗文网站

源码分享: 下面是超级鹰的源码,可以从他们的网站下载,我作了一点修改

网站出现403 Forbidden错误的原因以及怎么解决的方法

这几天刚接手一批新做的网站,在访问网站的时候,会时不时的出现403 Forbidden错误,浏览器会给出403 Forbidden错误提示,在打开Access Error中列出的URL之后, 出现以下错误: 403 Forbidden Access to this resource on t…

说说大型高并发高负载网站的系统架构(更新)

此文系转载,如需转载请保留出处:俊麟 Michael’s blog (http://www.toplee.com/blog/?p71) Trackback Url : http://www.toplee.com/blog/wp-trackback.php?p71 鄙人先后在CERNET做过拨号接入,在Yahoo&3721搞过搜索前端,在…

高并发高流量网站架构

Web2.0 的兴起,掀起了互联网新一轮的网络 创业大潮。以用户为导向的新网站建设概念,细分了网站功能和用户群,不仅成功的造就了一大批新生的网站,也极大的方便了上网的人们。但 Web2.0 以用户为导向的理念,使得新生的网…

一个厂商网站的SQL安全检测 (啊D、明小子)

鄙人今年20,七年前也就是我初一的时候钻研过一段时间的攻防技术,但是由于年纪尚小不懂代码而且以学业为重放弃了继续钻研。 前几天学校一学弟开群拉有兴趣的同学进入,我又想到了过去学到的那些东西,突然又有了感觉,不能…

记录 免费高清视频下载网站

7,000 最精彩的 Videos 图片 100% 免费下载 Pexels 素材图片https://www.pexels.com/zh-cn/search/videos

dw建站404问题,dw 404

dreamweaver浏览页面404错误 原因:物理路径错误 解决方法: 1、右键打开“计算机”-》“管理”-》“IIS管理器” 2.进入后点开“网站”,右键“添加网站” 3.物理路径填写你当前站点根目录的上一级目录,比如我的站点根目录在&…

【SEO优化】SEO应该是我们现在理解的这样吗?

2018年10月9日 最近发现包括一些SEO大咖、各种SEO培训机构和职业Seoer所讲所说和所指,都是把SEO归纳为如何做好网站优化、网站排名的,SEO为什么要被定义为——网站排名优化的技术和工作呢? 先看看,大家告诉大家的SEO,…

抓取网站内容常见方法

<?php /*------------------------ 根据给出地址&#xff0c;获取网页及页面内的js&#xff0c;css文件按原文件名保存到本地 -------------------------*/$url http://www.zzzzz.com/html_13.html;//页面路径$dir APP_PATH.save-xiaohaopin/;//保存数据的文件夹路径&am…

交友网站Circl.es帮你找到另一半

交友网站就像一枚难以破裂的坚果。首先&#xff0c;这是私人信息传递给公共媒体的过程&#xff0c;其中有蠕变因素。其次&#xff0c;这是一个巨大的商务平台&#xff0c;但是却由一小部分知名人士来主导市场占有率。并且&#xff0c;随着网站规模扩大带来的盈利税收&#xff0…

Web攻防系列教程之企业网站攻防实战

本文通过搭建一个真实的企业网站环境&#xff0c;先以攻击者的角度对目标网站进行入侵&#xff0c;最终得到目标网站数据库中的数据。然后对整个入侵过程进行详细分析&#xff0c;并修复目标网站存在的安全漏洞和弱点。这样通过对一个实例的完整分析&#xff0c;让读者对攻击者…

追查网站的思路

第一步从检查主办单位ICP备案查询开始。嗯&#xff0c;备案主体是个人&#xff0c;而非医院。 继续追查医院域名注册信息&#xff0c;北京武警二院注册人单位为&#xff1a;KangXin Hospital Investment and Management CO.LTD。 再反查KangXin Hospital Investment And Manage…

2010年2月中国SNS网站市场份额统计报告相关图片数据表

2010 年 2 月中国 SNS网站 市场份额统计报告&#xff08;简版&#xff09; 中国 互联网指数&#xff08; CIIS &#xff09;核心报告 目 录 一、SNS网站 Top20 市场份额统计 二、SNS网站市场集中度分析 三、互联网实验室市场份额报告目录 四、关于互联网实验室 五、关于中国…

一小时搭建属于自己的博客系统网站

Wikijs 很牛逼&#xff0c;特别牛逼的一个开源软件&#xff0c;GitHub已经有15.5k的星星 The most powerful and extensible open source Wiki software 最强大和可扩展的开源Wiki 软件这是我自己一个小时搭建的网站 下面是wiki.js的官方网站 Github地址&#xff1a;https:…

JSP+Servlet+C3P0+Mysql实现的YCU movies电影网站

本文存在视频版本,请知悉 项目简介 项目来源于&#xff1a;https://gitee.com/zhp0514/java_web_movie_website_project 这次分享一个电影网站&#xff0c;页面炫酷&#xff0c;需要有一定的前端功底。该网站存在一些bug&#xff0c;感兴趣的可以自行改改&#xff0c;也可以私信…