教你用Python访问一零二四网站,拒绝伸手党

news/2024/5/10 3:54:57/文章来源:https://blog.csdn.net/weixin_44099558/article/details/85250475

教你用Python访问一零二四网站,拒绝伸手党

 

教你用Python访问一零二四网站,拒绝伸手党

学习Python中有不明白推荐加入交流裙
                号:735934841
                群里有志同道合的小伙伴,互帮互助,
                群里有免费的视频学习教程和PDF!

教你用Python访问一零二四网站,拒绝伸手党

 

教你用Python访问一零二四网站,拒绝伸手党

 

我感觉这个虫子全网***最方便***,最牛逼,最便捷,***最能解决实际问题***的虫子!活学活用,真正的让代码方便我的生活,这才是我编写程序索要达到的目的。

教你用Python访问一零二四网站,拒绝伸手党

 

教你用Python访问一零二四网站,拒绝伸手党

 

我们希望变成的样子

论坛的帖子按照时间发布顺序排列,这样看每天的新内容就很省事儿。

如果我们要写一个爬虫来解决的话,大致结构应该如下:

教你用Python访问一零二四网站,拒绝伸手党

 

教你用Python访问一零二四网站,拒绝伸手党

 

上面的结构很简单,那么简单的流程就是:我们先配置好本地的config.json文件,然后启动程序,爬虫会自动根据配置好的信息,然后抓取各个板块前几页的内容,根据帖子发帖时间,筛选爬出出来信息,随后,将获取到的信息按照时间排序,最后输出成html格式的文件,使用本地的网页浏览器打开。浏览器里面可以看到帖子的id,帖子的标题以及帖子的发布时间。通过点击帖子的标题,可以跳转到社区的帖子。这里还是要推荐下小编的Python学习裙:【七 三 五,九 三 四,八 四 一】不管你是小白还是大牛,小编我都欢迎,不定期分享干货,包括小编自己整理的一份2018最新的Python资料和0基础入门教程,欢迎初学和进阶中的小伙伴。在不忙的时间我会给大家解惑。

这样,内容丰富的小草网站,就直接变成了我们本地写的最简单的***html***文件。

我们整理后的网站首页:

教你用Python访问一零二四网站,拒绝伸手党

 

教你用Python访问一零二四网站,拒绝伸手党

 

教你用Python访问一零二四网站,拒绝伸手党

 

教你用Python访问一零二四网站,拒绝伸手党

 

Url_manager

通过一个dict来存储板块名称和对应的板块URL,提供一些简答的方法来操作URL。

Html_download

通过使用requests模块来进行网页的访问。从而拿到网页数据,为后面步骤的解析提供基础。

这里进行网络请求的时候,由于1024网站做了反爬处理,我添加了不同的HTTP header。目前还算比较好用。表头信息在user_agents文件中。Html_parser通过BeautifulSoup来对html做解析处理。每一个帖子都是有一个唯一id的。帖子都封装到CaoliuItem中,然后将结果输出到html_outputer中。这里是通过html的tag来做的寻找,并不是通过正则表达式。可能有点僵。

Html_outputer

这个是将之前收集到的爬虫解析结果,整理成html文件的类。最终结果有一个index页面,每个版块还有自己的页面。他们之间相互链接在一起,点击起来爽爽的,炒鸡方便。需要改进的地方 TODO整体结构虽然清晰,但是整体结构还需要优化。要做到像Scrapy那样强大的虫子,得一步一步来。目前爬虫能力比较弱,没有用到多线程爬虫。下一个版本可以加入多线程,这样既能提升速度,又能提升质量。

parser的解析还是太依赖网站的布局。若是网站布局发生改变,parser就得修改。这个问题是所有爬虫的通病,我还在想办法把这里做的更活一些,不要这么死板。

output的html文件美观度不够。下一版本,想将解析出来的东西,能够和MongoDB联动,算是本地保存一份吧。因为这样就能够看到之前的帖子信息。

教你用Python访问一零二四网站,拒绝伸手党

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_841254.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux 内核 中断,工作队列 - Linux内核学习之中断_Linux教程_Linux公社-Linux系统门户网站...

[概述]工作队列是一种将工作推后执行的的形式,工作队列可以把工作推后,交由一个内核线程去执行,占有进程上下文的所有优势,允许重新调度和睡眠。[工作队列的实现]工作队列子系统是一个用于创建内核线程的接口,通过它创…

学习Python你不去8个网站?逗我呢!

作为一个现时代的程序员初学者,除了看书之外,互联网的学习手段也是断不能少的! 以下这些网站,虽说不上全方位的满足你的需求,但是大部分也都能! 0.国外的大神GitHub : https://github.com/pyp…

c++安装 ttf字体_良心网站!45款免费可商用字体大合集下载,再也不怕版权侵扰了!...

100font 是一个免费可商用字体收集网站,上面列出了 目前45 款可以商用的免费字体,看名字,相信未来要收集到 100 款免费字体为止。网站传送门https://www.100font.com/字体打包下载地址【 完 整 版 】百度网盘:https://pan.baidu.c…

如何创建一个模块_如何用手机创建一个网站

如何用手机创建网站?其实正确的说法是如何创建一个手机网站才对,因为很难用手机去制作网站,很不方便。一般是用电脑模拟手机去建网站。我们知道现在很多人上网都是通过手机上网,所以我们自己建网站时,也要学会创建手机…

Python快速刷题网站——牛客网 数据分析篇(一)

👦👦一个帅气的boy,你可以叫我Love And Program 🖱 ⌨个人主页:Love And Program的个人主页 💖💖如果对你有帮助的话希望三连💨💨支持一下博主 python是目前非常火爆的…

Python快速刷题网站——牛客网 数据分析篇(二)

👦👦一个帅气的boy,你可以叫我Love And Program 🖱 ⌨个人主页:Love And Program的个人主页 💖💖如果对你有帮助的话希望三连💨💨支持一下博主 python是目前非常火爆的…

Python快速刷题网站——牛客网 数据分析篇(三)

👦👦一个帅气的boy,你可以叫我Love And Program 🖱 ⌨个人主页:Love And Program的个人主页 💖💖如果对你有帮助的话希望三连💨💨支持一下博主 python是目前非常火爆的…

Python快速刷题网站——牛客网 数据分析篇(四)

👦👦一个帅气的boy,你可以叫我Love And Program 🖱 ⌨个人主页:Love And Program的个人主页 💖💖如果对你有帮助的话希望三连💨💨支持一下博主 python是目前非常火爆的…

Python快速刷题网站——牛客网 数据分析篇(五)

👦👦一个帅气的boy,你可以叫我Love And Program 🖱 ⌨个人主页:Love And Program的个人主页 💖💖如果对你有帮助的话希望三连💨💨支持一下博主 python是目前非常火爆的…

Python快速刷题网站——牛客网 数据分析篇(六)

👦👦一个帅气的boy,你可以叫我Love And Program 🖱 ⌨个人主页:Love And Program的个人主页 💖💖如果对你有帮助的话希望三连💨💨支持一下博主 python是目前非常火爆的…

Python快速刷题网站——牛客网 数据分析篇(七)

👦👦一个帅气的boy,你可以叫我Love And Program 🖱 ⌨个人主页:Love And Program的个人主页 💖💖如果对你有帮助的话希望三连💨💨支持一下博主 python是目前非常火爆的…

Python快速刷题网站——牛客网 数据分析篇(八)

👦👦一个帅气的boy,你可以叫我Love And Program 🖱 ⌨个人主页:Love And Program的个人主页 💖💖如果对你有帮助的话希望三连💨💨支持一下博主 python是目前非常火爆的…

Python快速刷题网站——牛客网 数据分析篇(九)

👦👦一个帅气的boy,你可以叫我Love And Program 🖱 ⌨个人主页:Love And Program的个人主页 💖💖如果对你有帮助的话希望三连💨💨支持一下博主 python是目前非常火爆的…

Python快速刷题网站——牛客网 数据分析篇(十)

👦👦一个帅气的boy,你可以叫我Love And Program 🖱 ⌨个人主页:Love And Program的个人主页 💖💖如果对你有帮助的话希望三连💨💨支持一下博主 python是目前非常火爆的…

Python快速刷题网站——牛客网 数据分析篇(十一)

👦👦一个帅气的boy,你可以叫我Love And Program 🖱 ⌨个人主页:Love And Program的个人主页 💖💖如果对你有帮助的话希望三连💨💨支持一下博主 python是目前非常火爆的…

猿创征文|Python快速刷题网站——牛客网 数据分析篇(十二)

👦👦一个帅气的boy,你可以叫我Love And Program 🖱 ⌨个人主页:Love And Program的个人主页 💖💖如果对你有帮助的话希望三连💨💨支持一下博主 python是目前非常火爆的…

怎么让网站在浏览器网址前面显示小图标?

大家在浏览很多网站的时候都会发现在浏览器的地址栏前面会有一个小图标,在浏览器的标签位置也有一个小图标,例如 Baidu 、腾讯等网站都有这样的图标。你的网站上想不想也增加一个这样的小图标呢?有了这个小图标你的网站就会比别人的网站更加醒…

网站首页滚动图片的后台管理

在网上找了好久的资源都没有找到,怎么实现在后台可以更换网站图片的,因为是在做项目,最后项目要交给,不 太懂计算机的管理员来管理, 这样就涉及到了,怎么让网站的管理员可以定期更换滚动的图片&#xff0c…

Java实现视频网站的视频上传、视频转码、视频关键帧抽图, 及视频播放功能

视频网站中提供的在线视频播放功能,播放的都是FLV格式的文件,它是Flash动画文件,可通过Flash制作的播放器来播放该文件.项目中用制作的player.swf播放器. 多媒体视频处理工具FFmpeg有非常强大的功能包括视频采集功能、视频格式转换、视频抓图、给视频加水印等。 ffmpeg视频…

LAMP架构(LAMP网站应用模式)搭建,包含Apache,Mysql,PHP的安装

文章目录LAMP架构概述各组件的主要作用如下:注意事项Apache安装关闭防火墙,传输apache所需软件包安装环境依赖包配置软件模块编译安装优化配置文件路径添加httpd系统服务修改httpd 服务配置文件查看状态浏览器访问验证Mysql安装将安装mysql 所需软件包传到/opt目录下…