scrapy简单学习3—简单爬取中文网站(仿写向)

news/2024/4/27 21:12:42/文章来源:https://blog.csdn.net/weixin_33738555/article/details/89478666

仿写原创——单页面爬取
爬取网站:联合早报网左侧的标题,连接,内容
1.item.py定义爬取内容

import scrapyclass MaiziItem(scrapy.Item):title = scrapy.Field()link=scrapy.Field()desc =scrapy.Field()

2.spider文件编写

# -*- coding: utf-8 -*-
#encoding=utf-8
import scrapy
from LianHeZaoBao.items import LianhezaobaoItem
reload(__import__('sys')).setdefaultencoding('utf-8') class MaimaiSpider(scrapy.Spider):name = "lianhe"allowed_domains = ["http://www.zaobao.com/news/china//"]start_urls = ('http://www.zaobao.com/news/china//',)def parse(self, response):for li in response.xpath('//*[@id="l_title"]/ul/li'):item = LianhezaobaoItem()item['title'] = li.xpath('a[1]/p/text()').extract()item['link']=li.xpath('a[1]/@href').extract()item['desc'] = li.xpath('a[2]/p/text()').extract()yield item

3.保存文件:命令scrapy crawl lianhe -o lianhe.csv
备注:excel打开出现乱码,用记事本转换成ANSI编码,excel打开中文可正常。
4.完成样式:
图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_718875.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

响应式网站的产品需求和设计流程详解

2019独角兽企业重金招聘Python工程师标准>>> 根据DailyTech的统计,到2015年,移动互联网的用户数量将会超过桌面用户。除了智能手机之外,使用平板电脑甚至是电视机进行上网的用户也在持续增加。在这种形势下,怎样让我们…

【数据结构-资源】动态展示数据结构的网站

https://www.cs.usfca.edu/~galles/visualization/Algorithms.html 如图,这是在展示 红黑树。你每插入一个新数字,网站会用 JS 在 Canvas 上动态的展示插入 新数字时的每一步调整过程,像是个 GIF动图,很形象,很好用。

用户访问网站的基本流程

user访问网站的基本流程:1.比如用户访问www.etiantian.org,首先请求本地DNS访问域名的对应IP是多少?2.本地DNS没有缓存就再去请求www.etiantian.org的授权DNS,对应的etiantian.org网站的对应IP ?3.www.etiantian.org授权DNS返回对应域名的IP1…

开发者必看的免费资源分享网站,让开发更简单!

很多开发者查找资源时,像设计教程、高清图库、界面设计资源等,不知道去哪里查找。还有下载资源时,像需要下载免费图标、PS笔刷、网站模板等时,很多地方都要付费。有些时候,即使付费也找不到好资源。没关系,…

不管是建站或APP,都一定要有个好LOGO

不管是建站或APP,都一定要有个好LOGO一个出色并且符合品牌形象的LOGO不但能帮助一个APP、网站或博客塑造完整的市场形象,还能让该品牌从其他竞争对手中脱颖而出。一个网站的LOGO并非只是表面功夫,而应该视为该网站的门面与品牌成功的基石。人们往往会注意…

移动互联网来势汹汹,我们还需要PC网站吗?

2019独角兽企业重金招聘Python工程师标准>>> 现如今,使用智能手机的人越来越多,移动互联网正在以前所未有的速度向前发展,根据易观智库最新发布的《中国移动互联网数据盘点与2015预测专题报告》数据显示,中国移动互联网…

java网站建行pos机接入收款_需要办理一台大POS机刷信用卡吗?大POS机比小POS机好吗?...

很多有信用卡的朋友们在安装POS机的时候比较纠结,不知道到底需不需要办理POS机,哪怕是平时是有需要刷信用卡或者收款,也并不知道办理什么样的POS机比较合适,毕竟现在市场上的各种POS机太多了,各种功能各种型号的&#…

如何把握SEO的核心?

对于seoer来说,你可能认为seo是免费获得流量的最好方法。这句话放在几年前或与有些道理,但我也要说在目前来看,seo并不是也不再是,你不要不承认。你会发现前几年做seo超级简单,稍微懂的人就知道只需要在网站中重复出现…

如何把Https网站中的安全证书导入到java中的cacerts证书库?

为什么80%的码农都做不了架构师?>>> Caused by: sun.security.validator.ValidatorException: PKIX path 在项目开发中,有时会遇到与SSL安全证书导入打交道的,如何把证书导入java中的cacerts证书库呢? 方法如下: 第…

最好用的100个黑科技网站

一、视频、论坛学习资源 哔哩哔哩弹幕网:www.bilibili.com 相信大家应该都知道这个网站。如果不知道,那你应该就是外太空的。看动漫、看学习视频、看一些up主的奇思妙想,这个小破站里基本都能找到你想要的东西,好好利用哦(✪ω✪…

分享四个无版权,高清的图片素材网站

其实,关于图片的网站还有很多,小编只是为大家分享了其中的几个而已,这几个网站都是无版权的高清图片,大家可放心使用哦! Hippopx 网址:https://www.hippopx.com/ 这款网站里面的图片是非常的好看&#x…

6个珍藏已久的黑科技网站,都是你梦寐以求的

说到网站,大家记住的有几个了?又有几个用的是称心如意的了?若是没有,那就放心手中的事,看看这几个小编珍藏已久的黑科技网站,说不说会有你喜欢的哦! 今天将6个珍藏已久的黑科技网站&#xff0c…

SEO快排实操流程经验分享

很多的SEOer每天绝大部分的时间都耗在撰写原创文章/伪原创文章以及发布软文外链,更换行业不相关的友链,年复一年,日复一日,关键词的排名依旧排在100名开外-20名以内,心里很是着急。看看同行竞争对手的网站,…

一些免费自学的网站

几个月前随手分享了电脑里的几个学习标签,没想到大家这么捧啊,由于之前的分享带很强的个人观点多多少少会影响大家的选择,所以今天就重新整理。 学堂在线 链接:http://www.xuetangx.com 学堂在线是免费公开的MOOC(大规…

SEO进阶必修课:如何创建和管理高质量关键词词库

某种意义上,SEO 就是一场围绕关键词的竞技游戏。 用户通过关键词寻找答案,搜索引擎根据关键词聚合内容,网站围绕关键词去争机会展现相关内容从而获取流量。 关键词一端是用户的真实需求,另一端是网站内容。搜索引擎则一手聚合流…

2款手机黑科技APP,一个黑科技网站,请你低调使用

1、Cuto Cuto是一个没有任何版权的图片软件,里面的所有图片内容都是经过人工细心挑选出来的,并且保证每张图片的质量。它支持免费下载可以将它设置成电脑或者是手机上的壁纸,非常精美。 2、开端影视 开端影视是一个功能非常强大的黑科技APP&…

5个鲜为人知的自学网站,每个都能改变你的一生,错过了很可惜!

有的人说:为什么每天干得同样的活,我跟他的差别怎么越来越大。 我说:你是不懂得学习。 下面5个自学网站都是小编精心所整理的。每个都非常的高质量,能改变人的一生,下面我们一起看看吧。 1、 doyoudo doyoudo是一个…

搭建 Github Pages 个人博客网站(1)5分钟快速搭建静态网页(2019版,亲测可用)

前言 写博客对于程序猿来说,应该是个优秀的习惯,个人也觉得蛮高大上的 _。网上的博客论坛网站也多种多样,个人觉得在长久以来的不断竞争淘汰中,各大网站的功能等可能都相差无几了,选择自己稍微偏好的就可以了。 我的…

超实用的办公在线网站,值得收藏!

因为工作的要求,我们会需要使用各种各样的办公软件,比如Word、Excel、PPT、CAD、PS等等。但是也有一些是平时不常用到的,但我们需要它时又需要去寻找并安装它,无异这是十分浪费时间的。而随着时代的发展,一些在线网站已…

这4个网站,月薪1万的人都在用,每天10分钟,高薪工作任你选

职场人,面对每天职场扑面而来的工作,难免会有压力,焦虑,那么面对现在失业率贼高的当下,想要稳保或者拿下高薪工作,我们能做到的,只有不断的,提升自己。 那么几年小编就来给大家分享…