Python爬虫采集CloudBlog网站的文章

news/2024/5/12 11:35:01/文章来源:https://zhupei.blog.csdn.net/article/details/76208980

---------------------------------------------------------------------------------------------
[版权申明:本文系作者原创,转载请注明出处] 
文章出处:http://blog.csdn.net/sdksdk0/article/details/76208980
作者:朱培      ID:sdksdk0     
--------------------------------------------------------------------------------------------



    本文通过使用python爬虫,来将一个网站中的文章获取下来,包括标题、发表时间、作者、文章内容等基本信息,并且将这些数据存储到数据库中,是一个非常完整的流程。获取首页所有的文章连接,并存放到URL集合中,然后再一个个的访问这些采集到的链接,来访问,并再次解析出文章详细的内容。 
     最近有个需求,需要采集金融财经类的新闻文章,获取首页所有的文章连接,并存放到URL集合中, 在本文中,以采集CloudBlog的博客文章为例,如下图所示,首先采集这个页面的信息,主要是先采集列表,从列表中获取URL。为防止重复访问,设置一个历史访问,用于对新添加的URL进行过滤。 解析DOM树,获取文章相关信息,并将信息存储到Article对象中。



采集号url之后,然后我们用爬虫去访问这个网址,循环读取,拿到这个详情页的标题、作者、发表时间和文章内容。以下图为例。 将Article对象中的数据保存到Mysql数据库中。 每完成一次数据的存储,计数器增加并打印文章标题,否则打印错误信息。 如果集合中的URL全部读取完或数据数量达到设定值,程序结束。



具体实现如下:
1、数据库结构


SET FOREIGN_KEY_CHECKS=0;

-- ----------------------------
-- Table structure for news
-- ----------------------------
DROP TABLE IF EXISTS `news`;
CREATE TABLE `news` (
`id` int(6) unsigned NOT NULL AUTO_INCREMENT,
`url` varchar(255) NOT NULL,
`title` varchar(45) NOT NULL,
`author` varchar(12) DEFAULT NULL,
`date` varchar(25) DEFAULT NULL,
`content` longtext,
`zq_date` varchar(25) DEFAULT NULL,
PRIMARY KEY (`id`),
UNIQUE KEY `url_UNIQUE` (`url`)
) ENGINE=InnoDB AUTO_INCREMENT=122 DEFAULT CHARSET=utf8;


2、python代码

import re  # 网络连接模块
import bs4   # DOM解析模块
import pymysql  # 数据库连接模块
import urllib.request  # 网络访问模块
import time   #时间模块

# 配置参数
maxcount = 100  # 数据数量
home = 'https://www.tianfang1314.cn/index.html'  # 起始位置
# 数据库连接参数
db_config = {
    'host''localhost',
    'port''3306',
    'username''root',
    'password''123456',
    'database''news',
    'charset''utf8'
}

url_set = set()  # url集合
url_old = set()  # 过期url

# 获取首页链接
request = urllib.request.Request(home)
#爬取结果
response = urllib.request.urlopen(request)
html = response.read()
#设置解码方式
html = html.decode('utf-8')

soup = bs4.BeautifulSoup(html, 'html.parser')
pattern = '/blog/articles/\w+/\w+.html'
links = soup.find_all('a'href=re.compile(pattern))
for link in links:
    url_set.add(link['href'])

# 文章类定义
class Article(object):
    def __init__(self):
        self.url = None    #地址
        self.title = None   #标题
        self.author = None   #作者
        self.date = None     #时间
        self.content = None    #文章内容
        self.zq_date=None;     #文章采集时间

# 连接数据库
connect = pymysql.Connect(
    host=db_config['host'],
    port=int(db_config['port']),
    user=db_config['username'],
    passwd=db_config['password'],
    db=db_config['database'],
    charset=db_config['charset']
)
cursor = connect.cursor()

# 处理URL信息
count = 0
while len(url_set) != 0:
    try:
        # 获取链接
        url = url_set.pop()
        url='https://www.tianfang1314.cn'+url
        url_old.add(url)

        # 获取代码
        response = urllib.request.urlopen(request)
        html = response.read()
        # 设置解码方式
        html = html.decode('utf-8')

        # DOM解析
        soup = bs4.BeautifulSoup(html, 'html.parser')
        pattern = 'https://www.tianfang1314.cn/blog/articles/\w+/\w+.html'  # 链接匹配规则
        links = soup.find_all('a'href=re.compile(pattern))

        # 获取URL
        for link in links:
            if link['href'not in url_old:
                url_set.add(link['href'])

        # 数据防重
        sql = "SELECT id FROM news WHERE url = '%s' "
        data = (url,)
        cursor.execute(sql % data)
        if cursor.rowcount != 0:
            raise Exception('重复数据: ' + url)

        # 获取详情页的链接
        drequest = urllib.request.Request(url)
        # 爬取结果
        dresponse = urllib.request.urlopen(drequest)
        dhtml = dresponse.read()
        # 设置解码方式
        dhtml = dhtml.decode('utf-8')
        dsoup = bs4.BeautifulSoup(dhtml, 'html.parser')
        # 获取信息
        article = Article()
        article.url = url  # URL信息
        page = dsoup.find('div', {'class''data_list'})
        article.title=page.find('div', {'class''blog_title'}).get_text()
        infoStr = page.find('div', {'class''blog_info'}).get_text()  # 文章信息,例如  发布时间:『 2016-12-14 11:26 』  用户名:sdksdk0  阅读(938) 评论(3)

        infoStr=infoStr.rsplit('『'1)
        infoStr=infoStr[1].rsplit('』'1)
        article.date = infoStr[0]     # 时间
        article.author = infoStr[1].rsplit('\xa0\xa0'1)[0].rsplit('用户名:'1)[1]   #用户名
        article.content = page.find('div', {'class''blog_content'}).get_text()   # 获取文章
        article.zq_date = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())  #采集时间

        # 存储数据
        sql = "INSERT INTO news( url, title, author, date, content,zq_date ) "
        sql = sql + " VALUES ('%s', '%s', '%s', '%s', '%s','%s') "
        data = (article.url, article.title, article.author, article.date, article.content,article.zq_date)
        cursor.execute(sql % data)
        connect.commit()

    except Exception as e:
        print(e)
        continue
    else:
        print(article.title)
        count += 1
    finally:
        # 判断数据是否收集完成
        if count == maxcount:
           break

# 关闭数据库连接
cursor.close()
connect.close()

3、运行效果
我们可以在数据库中可以查看到我们采集到的数据。 select  * from  news;


总结:在这个爬虫爬取的过程中,遇到了一些坑,主要就是CloudBlog的页面不够规范,所以在使用BeautifulSoup读取这个网页的时候,有的节点会有很多重复数据的现象,其次,这个网站的链接地址是/blog/articles/\w+/\w+.html这样的规则的,而不是直接带的https://的这种,所以我上面还拼接了一个网址前缀。在采集时间和用户的时候,采用了rsplit进行切分处理,可以看到我上面做回来很多的切分操作的,当然,你也可以选择用正则来匹配获取数据。




本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_776748.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

我竟然只花三天就搞定了网站微信授权系统!//Java、Java学系、快速学习、集中训练、Java零基础

添加微信即可报名训练班!(备注暗号999) 或者加QQ群我们一起交流:731892759免费领取三套价值3000元的Java资料1、Java自学超详细电子书2、自录优质网络直播课3、大厂Java面试题,优质项目练习题

让你三天学会网站微信授权登录系统开发//Java、系统开发、训练营、高效学习

用户体验优化是互联网产品非常重要一个环节,用户体验的好坏直接决定了产品在市场推广普及度。面对众多的选择,互联网的用户的耐心越来越低。一个网站如何能够通过快速登录绕过繁琐的注册环节直接让用户使用,这是决定用户是否会轻易流失的因素…

【壹加壹SEO技术博客】SEO优化过程中排名下降的原因...

【壹加壹SEO技术博客】SEO优化过程中排名下降的原因 1、网站上HTML标签的过度使用H1标签可以减少网站关键词排名的难度。但是很多网站管理员和朋友知道这种方法后,在自己的首页上无限制地添加H1标签,这不仅有不利于优化,还会导致网站过度优化…

在CentOS上使用Nginx和Tomcat搭建高可用高并发网站

原文博客:Doi技术团队 链接地址:https://blog.doiduoyi.com/authors/1584446358138 初心:记录优秀的Doi技术团队学习经历 前言 本篇文章将介绍如何搭建使用Nginx和Tomcat的高可用高并发的网站,我们将会在CentOS系统上搭建这样一个…

使用JMeter对网站和数据库进行压力测试

前言 表面看来,JMeter与本系列课程似乎关系不大,但实际上在后面的很多场景中起着重要作用:如何获知修改了某些代码或者设置之后系统性能是提升了还是下降了呢?商业的压力测试工具LoadRunner确实很高大上,但是据说费用也…

同样的文章2个网站2种待遇,2个眼光,博客园是逼我走、程序员网站是请我过去,这就是人才在不同公司的待遇一样的道理...

为什么80%的码农都做不了架构师?>>> 昨天晚上很热血的写了两篇文章,结果一个被博客园强制撤下首页。 今天被CSDN网站发布到首页,为我免费做广告,http://www.csdn.net/, 同时给我上了2个首页。 C# ASP.NET …

大型网站技术架构(一)大型网站架构演化

2019独角兽企业重金招聘Python工程师标准>>> 看完了有一本书,就应该有所收获,有所总结,最近把《大型网站技术架构》一书给看完了,给人的印象实在深刻,再加上之前也搞过书本上讲的反向代理和负载均衡以及ses…

反爬虫攻略:Apache/Nginx/PHP禁止某些User Agent抓取网站

我们都知道网络上的爬虫非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots规则对服务器造成压力,还不能为网站带来流量的无用爬虫,比如宜搜蜘蛛(YisouSpid…

linux网站根目录权限,Liunx中的账号与文件/目录权限管理——理论篇

本篇博客主要介绍Liunx操作系统中有关用户与组相关的属性与权限,并且详解如何对文件/目录进行权限、归属的设置。接下来我将主要从以下几个部分进行详细的讲解目录简述:用户账户和组账户概述用户账户和组账户管理查询相关账户信息查看目录或文件的属性设…

linux实用工具有3类,基于网络的实用扫描工具 - Linux下查找系统漏洞的两类常用工具_Linux安全_Linux公社-Linux系统门户网站...

2、基于网络的实用扫描工具(1)NmapNmap即Network Mapper,它是在免费软件基金会的GNU General Public License (GPL)下发布的。其基本功能有:探测一组主机是否在线;扫描主机端口,嗅探提供的网络服务;判断主机的操作系统…

angular高级编程第3版下载_不会编程?也能一键爬虫、优化网站的软件!

THE START今天分享一个爬虫工具,操作很简单,完全不需要编程基础也可以轻松使用。简单的使用瞬间就可以入门,但是更多功能的话还是需要深入学习的,小编简单说明一下这个软件的功能。Screaming Frog SEO Spider 12最新版&#xff01…

delphi 不允许在线程里操作ui怎么办_收下这些网站,让你再也不加班

​一个小视频教你工作效率提升10倍https://www.zhihu.com/video/11383787306228776961、老板让我做一百张海报我怎么办啊?在线设计快速套模板的网站送给你海报专用https://www.fotor.com.cn/LOGO专用https://www.logomaker.com.cn/design2、想要字体怎么办&#xff…

python做的网站_用Python做个女神网站

学 Python,从爬女神开始,做网站开始 先来看看最后做成的网站(https://nvshen.luobodazahui.top/#)支持给心仪的女神点赞加星哦! 啥也不说,今天是来送福利的 女神大会 不是知道有多少人知道“懂球帝”这个 A…

seay代码审计工具_渗透测试 网站代码审计等基础方法篇

这几天整理了下网站渗透测试中基础部分的第三节,我们渗透工程师对代码安全审计,手工渗透测试检查代码的危险漏洞方法,找出安全问题重点,配合工具扫描来达到测试漏洞的目的,本测试重点仅限于客户授权才能操作,切记忽非法尝试入侵!以下方法只是提供网站安全检测的具体…

html连接flask路径失效变了_使用flask架构搭建一个简单的web网站!像极了学校官网...

使用 Python 的 flask 架构搭建一个简单web网站1.flask最简单框架,返回hello world:from flask import *app Flask(__name__)app.route(/)def hello_world(): return Hello World!if __name__"__main__": app.run(host0.0.0.0,port8080…

php简单后台,ThinkPHP简单网站后台

初学ThinkPHP,部署步骤:ckeditor需要自行下载,对应目录thinkphp-ozgweb/Public/simple/js/ckeditorthinkphp(完整版)需要自行下载,然后把ThinkPHP复制到本网站的根目录,对应目录thinkphp-ozgweb/ThinkPHP后台入口&…

3d制作中需要注意的问题_优化人员在网站建设中需要注意的细节问题

老话说的好:千里之堤毁于蚁穴,细节决定成败,这都充分说明了细节的重要性。在网站制作的过程中也是如此,如果一个完整的网站因为细节的问题而影响了用户的体验,从而影响流量和排名,那么就是得不偿失的事情了…

elementui 响应式导航栏网站_技术:RWD响应式网站网页设计基本原则

RWD响应式网站网页设计RWD响应式网站网页设计对于解决多尺寸屏幕问题是个很好的解决方案,从平面的角度切入需克服很多困难,没有固定的页面尺寸、没有毫米或英寸,没有任何限制会让人感到无从下手。随着建立网站的小工具越来越多, 网…

美丽乡村建设网站php源码_改善人居环境 建设美丽乡村

今年以来,我市认真贯彻落实省市关于美丽乡村建设工作的各项部署和安排,着力抓好相关工作,坚持遵循乡村发展规律,扎实推进建设生态宜居的美丽乡村。我市科学合理编制规划,合理中心村选址,科学规划布局&#…

eclipse jre配置_Eclipse搭建本地动态网站环境

准备Eclipse和Tomcat完成Web容器的配置在Eclipse中配置Tomcat (web容器)1、选择window->show view->other->servers 下面出现了servers点击 no servers are available click this link to create a new server -> 选择Tomcat7(下载的是7)->点击下一步->browe…