scrapy简单学习3—简单爬取中文网站（仿写向）

scrapy简单学习3—简单爬取中文网站（仿写向）

news/2024/4/27 21:12:42/文章来源:https://blog.csdn.net/weixin_33738555/article/details/89478666

仿写原创——单页面爬取
爬取网站：联合早报网左侧的标题，连接，内容
1.item.py定义爬取内容

import scrapyclass MaiziItem(scrapy.Item):title = scrapy.Field()link=scrapy.Field()desc =scrapy.Field()

2.spider文件编写

# -*- coding: utf-8 -*-
#encoding=utf-8
import scrapy
from LianHeZaoBao.items import LianhezaobaoItem
reload(__import__('sys')).setdefaultencoding('utf-8') class MaimaiSpider(scrapy.Spider):name = "lianhe"allowed_domains = ["http://www.zaobao.com/news/china//"]start_urls = ('http://www.zaobao.com/news/china//',)def parse(self, response):for li in response.xpath('//*[@id="l_title"]/ul/li'):item = LianhezaobaoItem()item['title'] = li.xpath('a[1]/p/text()').extract()item['link']=li.xpath('a[1]/@href').extract()item['desc'] = li.xpath('a[2]/p/text()').extract()yield item

3.保存文件:命令scrapy crawl lianhe -o lianhe.csv
备注：excel打开出现乱码，用记事本转换成ANSI编码，excel打开中文可正常。
4.完成样式：
图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_718875.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

响应式网站的产品需求和设计流程详解

响应式网站的产品需求和设计流程详解

2019独角兽企业重金招聘Python工程师标准>>> 根据DailyTech的统计，到2015年，移动互联网的用户数量将会超过桌面用户。除了智能手机之外，使用平板电脑甚至是电视机进行上网的用户也在持续增加。在这种形势下，怎样让我们…

阅读更多...

【数据结构-资源】动态展示数据结构的网站

【数据结构-资源】动态展示数据结构的网站

https://www.cs.usfca.edu/~galles/visualization/Algorithms.html 如图，这是在展示红黑树。你每插入一个新数字，网站会用 JS 在 Canvas 上动态的展示插入新数字时的每一步调整过程，像是个 GIF动图，很形象，很好用。

阅读更多...

用户访问网站的基本流程

用户访问网站的基本流程

user访问网站的基本流程：1.比如用户访问www.etiantian.org,首先请求本地DNS访问域名的对应IP是多少？2.本地DNS没有缓存就再去请求www.etiantian.org的授权DNS,对应的etiantian.org网站的对应IP ？3.www.etiantian.org授权DNS返回对应域名的IP1…

阅读更多...

开发者必看的免费资源分享网站，让开发更简单!

开发者必看的免费资源分享网站，让开发更简单!

很多开发者查找资源时，像设计教程、高清图库、界面设计资源等，不知道去哪里查找。还有下载资源时，像需要下载免费图标、PS笔刷、网站模板等时，很多地方都要付费。有些时候，即使付费也找不到好资源。没关系，…

阅读更多...

不管是建站或APP,都一定要有个好LOGO

不管是建站或APP,都一定要有个好LOGO

不管是建站或APP,都一定要有个好LOGO一个出色并且符合品牌形象的LOGO不但能帮助一个APP、网站或博客塑造完整的市场形象，还能让该品牌从其他竞争对手中脱颖而出。一个网站的LOGO并非只是表面功夫，而应该视为该网站的门面与品牌成功的基石。人们往往会注意…

阅读更多...

移动互联网来势汹汹，我们还需要PC网站吗？

移动互联网来势汹汹，我们还需要PC网站吗？

2019独角兽企业重金招聘Python工程师标准>>> 现如今，使用智能手机的人越来越多，移动互联网正在以前所未有的速度向前发展，根据易观智库最新发布的《中国移动互联网数据盘点与2015预测专题报告》数据显示，中国移动互联网…

阅读更多...

java网站建行pos机接入收款_需要办理一台大POS机刷信用卡吗？大POS机比小POS机好吗？...

java网站建行pos机接入收款_需要办理一台大POS机刷信用卡吗？大POS机比小POS机好吗？...

很多有信用卡的朋友们在安装POS机的时候比较纠结，不知道到底需不需要办理POS机，哪怕是平时是有需要刷信用卡或者收款，也并不知道办理什么样的POS机比较合适，毕竟现在市场上的各种POS机太多了，各种功能各种型号的&#…

阅读更多...

如何把握SEO的核心?

如何把握SEO的核心?

对于seoer来说，你可能认为seo是免费获得流量的最好方法。这句话放在几年前或与有些道理，但我也要说在目前来看，seo并不是也不再是，你不要不承认。你会发现前几年做seo超级简单，稍微懂的人就知道只需要在网站中重复出现…

阅读更多...

如何把Https网站中的安全证书导入到java中的cacerts证书库？

如何把Https网站中的安全证书导入到java中的cacerts证书库？

为什么80%的码农都做不了架构师？>>> Caused by: sun.security.validator.ValidatorException: PKIX path 在项目开发中,有时会遇到与SSL安全证书导入打交道的，如何把证书导入java中的cacerts证书库呢？ 方法如下： 第…

阅读更多...

最好用的100个黑科技网站

最好用的100个黑科技网站

一、视频、论坛学习资源哔哩哔哩弹幕网：www.bilibili.com 相信大家应该都知道这个网站。如果不知道，那你应该就是外太空的。看动漫、看学习视频、看一些up主的奇思妙想，这个小破站里基本都能找到你想要的东西，好好利用哦(✪ω✪…

阅读更多...

分享四个无版权，高清的图片素材网站

分享四个无版权，高清的图片素材网站

其实，关于图片的网站还有很多，小编只是为大家分享了其中的几个而已，这几个网站都是无版权的高清图片，大家可放心使用哦！ Hippopx 网址：https://www.hippopx.com/ 这款网站里面的图片是非常的好看&#x…

阅读更多...

6个珍藏已久的黑科技网站，都是你梦寐以求的

6个珍藏已久的黑科技网站，都是你梦寐以求的

说到网站，大家记住的有几个了？又有几个用的是称心如意的了？若是没有，那就放心手中的事，看看这几个小编珍藏已久的黑科技网站，说不说会有你喜欢的哦！ 今天将6个珍藏已久的黑科技网站&#xff0c…

阅读更多...

SEO快排实操流程经验分享

SEO快排实操流程经验分享

很多的SEOer每天绝大部分的时间都耗在撰写原创文章/伪原创文章以及发布软文外链，更换行业不相关的友链，年复一年，日复一日，关键词的排名依旧排在100名开外-20名以内，心里很是着急。看看同行竞争对手的网站，…

阅读更多...

一些免费自学的网站

一些免费自学的网站

几个月前随手分享了电脑里的几个学习标签，没想到大家这么捧啊，由于之前的分享带很强的个人观点多多少少会影响大家的选择，所以今天就重新整理。学堂在线链接：http://www.xuetangx.com 学堂在线是免费公开的MOOC（大规…

阅读更多...

SEO进阶必修课：如何创建和管理高质量关键词词库

SEO进阶必修课：如何创建和管理高质量关键词词库

某种意义上，SEO 就是一场围绕关键词的竞技游戏。用户通过关键词寻找答案，搜索引擎根据关键词聚合内容，网站围绕关键词去争机会展现相关内容从而获取流量。关键词一端是用户的真实需求，另一端是网站内容。搜索引擎则一手聚合流…

阅读更多...

2款手机黑科技APP，一个黑科技网站，请你低调使用

2款手机黑科技APP，一个黑科技网站，请你低调使用

1、Cuto Cuto是一个没有任何版权的图片软件，里面的所有图片内容都是经过人工细心挑选出来的，并且保证每张图片的质量。它支持免费下载可以将它设置成电脑或者是手机上的壁纸，非常精美。 2、开端影视开端影视是一个功能非常强大的黑科技APP&…

阅读更多...

5个鲜为人知的自学网站，每个都能改变你的一生，错过了很可惜！

5个鲜为人知的自学网站，每个都能改变你的一生，错过了很可惜！

有的人说：为什么每天干得同样的活，我跟他的差别怎么越来越大。我说：你是不懂得学习。下面5个自学网站都是小编精心所整理的。每个都非常的高质量，能改变人的一生，下面我们一起看看吧。 1、 doyoudo doyoudo是一个…

阅读更多...

搭建 Github Pages 个人博客网站（1）5分钟快速搭建静态网页（2019版，亲测可用）

搭建 Github Pages 个人博客网站（1）5分钟快速搭建静态网页（2019版，亲测可用）

前言写博客对于程序猿来说，应该是个优秀的习惯，个人也觉得蛮高大上的 _。网上的博客论坛网站也多种多样，个人觉得在长久以来的不断竞争淘汰中，各大网站的功能等可能都相差无几了，选择自己稍微偏好的就可以了。我的…

阅读更多...

超实用的办公在线网站，值得收藏！

超实用的办公在线网站，值得收藏！

因为工作的要求，我们会需要使用各种各样的办公软件，比如Word、Excel、PPT、CAD、PS等等。但是也有一些是平时不常用到的，但我们需要它时又需要去寻找并安装它，无异这是十分浪费时间的。而随着时代的发展，一些在线网站已…

阅读更多...

这4个网站，月薪1万的人都在用，每天10分钟，高薪工作任你选

这4个网站，月薪1万的人都在用，每天10分钟，高薪工作任你选

职场人，面对每天职场扑面而来的工作，难免会有压力，焦虑，那么面对现在失业率贼高的当下，想要稳保或者拿下高薪工作，我们能做到的，只有不断的，提升自己。那么几年小编就来给大家分享…

阅读更多...

推荐文章

最新文章