Scrapy框架 之某网站产品采集案例

news/2024/5/13 3:56:48/文章来源:https://blog.csdn.net/weixin_30699831/article/details/96505464

一、创建项目

第一步:scrapy startproject boyuan

第二步:cd boyuan

    scrapy genspider product -t crawl  boyuan.com

如图:

二、代码编写

1、item.py

# -*- coding: utf-8 -*-# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass BoyuanItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()name = scrapy.Field()address = scrapy.Field()company = scrapy.Field()img = scrapy.Field()time = scrapy.Field()

2、product.py爬虫文件

# -*- coding: utf-8 -*-
import scrapy
from scrapy.spiders import Rule, CrawlSpider
from scrapy.linkextractors import LinkExtractor
from ..items import BoyuanItemclass ProductSpider(CrawlSpider):name = 'product'allowed_domains = ['boyuan.com']offset = 1url = "http://www.boyuan.com/sell/?page={0}"start_urls = [url.format(str(offset))]page_link = LinkExtractor(allow=("\?page=\d+"))rules = [Rule(page_link, callback="parse_content", follow=True)]def parse_content(self, response):for each in response.xpath("//div[@class='list']//tr"):item = BoyuanItem()item['name'] = each.xpath("./td[4]//strong/text()").extract()[0]item['company'] = each.xpath("./td[4]//li[4]/a/text()").extract()[0]address = each.xpath("./td[4]//li[3]/text()").extract()[0]item['address'] = str(address).strip("[").strip("]")time = each.xpath("./td[4]//li[3]/span/text()").extract()[0]item['time'] = str(time).strip()item['img'] = each.xpath("./td[2]//img/@original").extract()[0]yield item

3、pipelines.py 管道文件

# -*- coding: utf-8 -*-# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import json
import pymongo
from scrapy.conf import settingsclass BoyuanPipeline(object):def __init__(self):host = settings.get("MONGO_HOST")port = settings.get("MONGO_PORT")db_name = settings.get("MONGO_DB")collection = settings.get("MONGO_COLLECTION")self.client = pymongo.MongoClient(host=host, port=int(port))db = self.client.get_database(db_name)if collection not in db.list_collection_names():db.create_collection(collection)self.col = db[collection]def process_item(self, item, spider):# 保存到mongodb中
        self.col.insert(dict(item))return itemdef close_spider(self, spider):self.client.close()

3、settings.py 配置文件

# mongodb数据库参数
MONGO_HOST = "localhost"
MONGO_PORT = "27017"
MONGO_DB = "boyuan"
MONGO_COLLECTION = "product"

4、start.py 启动文件

from scrapy import cmdlineif __name__ == '__main__':cmdline.execute("scrapy crawl product".split())

采集结果如图:

 

转载于:https://www.cnblogs.com/yang-2018/p/10984814.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_773641.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

介绍一个检索Oracle各版本新特性的网站

推荐一个Oracle官方介绍各个版本新特性的网站,地址如下:https://apex.oracle.com/database-features/从链接来看,是个apex的应用,界面清爽,一看就懂,左侧可选类型,包括Features和Licensing这两种…

怎么看一个网站被点击了多少次_影响外贸网站在谷歌排名的一些重要因素

点击上方蓝字关注我们外贸行业越来越火,现在很多传统的外贸企业纷纷从以往的线下转到了线上来了。打造一个营销型外贸网站,成为线上外贸的第一步,所以外贸网站优化就尤为重要。网站优化主要是针对谷歌去做,我们要清楚有哪些因素会…

大型网站技术架构(四)网站的高性能架构

2019独角兽企业重金招聘Python工程师标准>>> 网站性能是客观的指标,可以具体体现到响应时间、吞吐量、并发数、性能计数器等技术指标。 1、性能测试指标 1.1 响应时间 指应用执行一个操作需要的时间,指从发出请求到最后收到响应数据所需要的时…

python部署到iis_在IIS上部署基于django WEB框架的python网站应用

django是一款基于python语言的WEB开源框架,本文给出了如何将基于django写的python网站部署到window的IIS上。笔者的运行环境:Window xp sp3IIS 5.1pywin32-217.win32-py2.7 (python的win32扩展)isapi_wsgi-0.4.2-py2.5 (http://code.google.com/p/isapi-wsgi/ …

网站性能工具Yslow的使用方法

Yslow是雅虎开发的基于网页性能分析浏览器插件,从年初我使用了YSlow后,改变了博客模板大量冗余代码,不仅提升了网页的打开速度,这款插件还帮助我分析了不少其他网站的代码,之前我还特意写了提高网站速度的秘籍&#xf…

github ssh 配置_教大家怎么用GitHub免费搭建自己的博客网站

先给你们看看个效果网站:https://www.a2data.cn/环境准备:Node.jsHexoGitGitHub SSH keyTypora (Md格式书写工具)idea(就是编辑工具,推荐webstorm)安装Node.js中文网:https://nodejs.org/zh-cn/download/官方网站:https://nodejs.org/en/直接…

网硕主机php升级,如何将phpwind8.7程序网站升级9.0方法

无忧主机小编真的很开心,在经过了这么多日子的测试,phpwind9.0终于正式发布了。无忧主机小编终于可以把自己的网站升级到最新的版本了。但是phpwind9.0整个架构都改版了,小编我也不敢乱升级,于是无忧主机小编参考了phpwind官方的升…

原始数据哪里找?这些网站要用好!200个国内外经济/金融/行研/咨询数据网站大全(附链接)...

本文约8000字,建议阅读10分钟本文为你提供200个国内外经济、金融、行研、咨询数据网。资料搜集是个相当繁琐与累的工作,也是投资入门的基本,良好的信息资料搜集能力有利于我们快速了解投资主体的基本情况,为后续的调研及一手资料的…

Linux运维基础(五):网站流量度量

IP IP(Internet Protocol),这里指独立IP数。 独立IP数:一般一天内相同IP地址的客户端访问网页只会被记录一次,被计入的总次数为独立IP数。 记录独立IP数的时间可为一天,一个月,目前通用的标准为一天。 独立IP数与实际…

sdr 软件_软件定义无线电网站 sdr.hu 宣布关闭

软件定义无线电网站 sdr.hu 宣布关闭,站长给出的理由是这是一个个人业余爱好项目,他的关注点现在转移到了其他项目,既没有精力继续维护网站,也无法防止其被滥用。“防止被滥用”更像是一个来自当局施压的结果,许多人怀…

php签入html出来的影响seo吗_seo步骤优化师那个好

seo步骤优化师那个好很多人现在都在手机上运用语音搜索。物质的真实物质情形上,20%的移动查问是语音搜索。语音搜索的重要性正在提升。由于这个,您需求着手思索问题很多人在执行语音搜索特殊情况运用的天然语言。并将您的发觉添加到关键字列表…

阿里云服务器搭建个人网站(●‘◡‘●)

云服务器搭建个人网站(针对新手) 转载地址:https://developer.aliyun.com/article/758856? ​ 简介: 首先,我们需要购买阿里云服务器和域名。域名建议用.com后缀的(一般五十左右)&#xff0c…

python sqlite3 带密码_Python爬虫+Flask,带你创建车标学习网站!超级吊有木有!

文化不分边界人,为什么要读书?举个例子: 当看到天边飞鸟,你会说:“落霞与孤鹜齐飞,秋水共长天一色。”而不是:“卧靠,好多鸟。”; 当你失恋时你低吟浅唱道:“人生若只如初见&#xf…

php刷网站关键词排名,网站关键词排名如何刷点击流量?

关于网站关键词排名刷点击流量从收录到排名再到引流一、收录问题在站长交流群里面我看了分享的原创文章,说实话从语言描述和逻辑上分析,的确是亲自敲打的文章,称之为原创也不为过,但是细细斟酌,会发现根本就是流水线&a…

webpack打包jquery多页_用webpack打包老网站(jquery切图)或重构浅谈!

随着前端技术的快速发展,前端技术栈也越来越复杂多样了。什么是webpack?他能干些啥?WebPack可以看做是模块打包机:它做的事情是,分析你的项目结构,找到JavaScript模块以及其它的一些浏览器不能直接运行的拓…

各类数据集网站收集

来源于:https://www.jianshu.com/p/42697d0d2fc1 1.Mall Dataset: http://personal.ie.cuhk.edu.hk/~ccloy/downloads_mall_dataset.html 2.ShanghaiTech https://pan.baidu.com/s/1nuAYslz WorldExpo 10 This paper is in cooperation with Shangha…

【服务器架构】十张图带你了解大型网站架构

目录 1、初始阶段的网站架构 2、应用服务和数据服务分离 3.使用缓存改善网站性能 4、使用应用服务器集群改善网站的并发处理能力 5、数据库读写分离 6、使用反向代理和CDN加上网站相应 7、使用分布式文件系统和分布式数据库系统 8、使用NoSQL和搜索引擎 9、业务拆分 …

Ping计算机名和Ping网站域名都是由DNS解析吗?

背景 最近公司换了一台打印机,在终端上添加扫描的时候主机名输入计算机名报错“连接超时”,但是将主机名改为IP后就可以“正常连接”了。在处理这个问题的时候首先想到的就是DNS、wins等服务器IP没配置导致不能解析计算机名所致。 引言 通过给打印机配…

IE退役,建议使用IE的网站如何打开,Edge接力。

微软宣布将于美国当地时间6月15日(北京时间6月16日),停止对IE( Internet Explorer)浏览器的所有支持和更新,为这款服务用户超过27年的浏览器画上句号。未来,将由微软推出的Edge浏览器接棒。 尽管…