Scrapy框架之某网站产品采集案例

news/2024/5/13 3:56:48/文章来源:https://blog.csdn.net/weixin_30699831/article/details/96505464

一、创建项目

第一步：scrapy startproject boyuan

第二步：cd boyuan

　　　　scrapy genspider product -t crawl boyuan.com

如图：

二、代码编写

1、item.py

# -*- coding: utf-8 -*-# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass BoyuanItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()name = scrapy.Field()address = scrapy.Field()company = scrapy.Field()img = scrapy.Field()time = scrapy.Field()

2、product.py爬虫文件

# -*- coding: utf-8 -*-
import scrapy
from scrapy.spiders import Rule, CrawlSpider
from scrapy.linkextractors import LinkExtractor
from ..items import BoyuanItemclass ProductSpider(CrawlSpider):name = 'product'allowed_domains = ['boyuan.com']offset = 1url = "http://www.boyuan.com/sell/?page={0}"start_urls = [url.format(str(offset))]page_link = LinkExtractor(allow=("\?page=\d+"))rules = [Rule(page_link, callback="parse_content", follow=True)]def parse_content(self, response):for each in response.xpath("//div[@class='list']//tr"):item = BoyuanItem()item['name'] = each.xpath("./td[4]//strong/text()").extract()[0]item['company'] = each.xpath("./td[4]//li[4]/a/text()").extract()[0]address = each.xpath("./td[4]//li[3]/text()").extract()[0]item['address'] = str(address).strip("[").strip("]")time = each.xpath("./td[4]//li[3]/span/text()").extract()[0]item['time'] = str(time).strip()item['img'] = each.xpath("./td[2]//img/@original").extract()[0]yield item

3、pipelines.py 管道文件

# -*- coding: utf-8 -*-# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import json
import pymongo
from scrapy.conf import settingsclass BoyuanPipeline(object):def __init__(self):host = settings.get("MONGO_HOST")port = settings.get("MONGO_PORT")db_name = settings.get("MONGO_DB")collection = settings.get("MONGO_COLLECTION")self.client = pymongo.MongoClient(host=host, port=int(port))db = self.client.get_database(db_name)if collection not in db.list_collection_names():db.create_collection(collection)self.col = db[collection]def process_item(self, item, spider):# 保存到mongodb中
        self.col.insert(dict(item))return itemdef close_spider(self, spider):self.client.close()

3、settings.py 配置文件

# mongodb数据库参数
MONGO_HOST = "localhost"
MONGO_PORT = "27017"
MONGO_DB = "boyuan"
MONGO_COLLECTION = "product"

4、start.py 启动文件

from scrapy import cmdlineif __name__ == '__main__':cmdline.execute("scrapy crawl product".split())

采集结果如图：

转载于:https://www.cnblogs.com/yang-2018/p/10984814.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_773641.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Scrapy框架之某网站产品采集案例

相关文章

介绍一个检索Oracle各版本新特性的网站

怎么看一个网站被点击了多少次_影响外贸网站在谷歌排名的一些重要因素

大型网站技术架构（四）网站的高性能架构

python部署到iis_在IIS上部署基于django WEB框架的python网站应用

网站性能工具Yslow的使用方法

github ssh 配置_教大家怎么用GitHub免费搭建自己的博客网站

网硕主机php升级,如何将phpwind8.7程序网站升级9.0方法

原始数据哪里找？这些网站要用好！200个国内外经济/金融/行研/咨询数据网站大全（附链接）...

Linux运维基础(五)：网站流量度量

sdr 软件_软件定义无线电网站 sdr.hu 宣布关闭

php签入html出来的影响seo吗_seo步骤优化师那个好

阿里云服务器搭建个人网站(●‘◡‘●)

python sqlite3 带密码_Python爬虫+Flask，带你创建车标学习网站！超级吊有木有！

php刷网站关键词排名,网站关键词排名如何刷点击流量？

webpack打包jquery多页_用webpack打包老网站（jquery切图）或重构浅谈！

各类数据集网站收集

【服务器架构】十张图带你了解大型网站架构

Ping计算机名和Ping网站域名都是由DNS解析吗？

IE退役，建议使用IE的网站如何打开，Edge接力。

面试题：输入网站到渲染页面发生了什么？

Scrapy框架 之某网站产品采集案例

相关文章

Scrapy框架之某网站产品采集案例