python爬虫学习之路(1) 利用urllib爬取网站

news/2024/5/20 15:30:41/文章来源:https://blog.csdn.net/QEcode/article/details/81023545

网络爬虫的定义
网络爬虫,也叫网络蜘蛛(Web Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的,也就是URL。举一个简单的例子,我们在浏览器的地址栏中输入的字符串就是URL,例如:https://www.baidu.com/

URL就是同意资源定位符(Uniform Resource Locator),它的一般格式如下(带方括号[]的为可选项):protocol :// hostname[:port] / path / [;parameters][?query]#fragmentURL的格式由三部分组成:(1)protocol:第一部分就是协议,例如百度使用的就是https协议;(2)hostname[:port]:第二部分就是主机名(还有端口号为可选参数),一般网站默认的端口号为80,例如百度的主机名就是www.baidu.com,这个就是服务器的地址;(3)path:第三部分就是主机资源的具体地址,如目录和文件名等。网络爬虫就是根据这个URL来获取网页信息的。

python3 自带一个网页爬取主件:urllib


使用urllib获取网站的html代码
1.urllib.request模块是用来打开和读取URLs的;
2.urllib.error模块包含一些有urllib.request产生的错误,可以使用try进行捕捉处理;
3.urllib.parse模块包含了一些解析URLs的方法;
4.urllib.robotparser模块用来解析robots.txt文本文件.它提供了一个单独的RobotFileParser类,通过该类提供的can_fetch()方法测试爬虫是否可以下载一个页面。


下面来一个实例:

# 导入urllib
from urllib import request
if __name__ == '__main__':'''打开一个网站:百度翻译'''response = request.urlopen("https://fanyi.baidu.com/")# 获取网站的html代码# 得到的是二进制字符串html = response.read()print(html)

获取到的html代码如下
这里写图片描述:

我们可以看出这个html代码是以二进制形式输出,所以我们需要用decode()方法进行解码:

 # 用utf-8进行解码html = html.decode("utf-8")print(html)

解码后的html代码如下:
这里写图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_896002.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ssm/php/java/net/python中小学生视频在线网站

本系统带文档lw1万字答辩PPT查重 如果这个题目不合适,可以去我上传的资源里面找题目,找不到的话,评论留下题目,或者站内私信我, 有时间看到机会给你发 系统设计 .1 系统体系结构 中小学生视频在线网站的结构图-1所示&…

java/php/net/python/springboot英语四级网站设计

本系统带文档lw1万字答辩PPT查重 如果这个题目不合适,可以去我上传的资源里面找题目,找不到的话,评论留下题目,或者站内私信我, 有时间看到机会给你发 系统UML用例分析 1管理员用例 管理员登录后可进行个人中心、用户管…

java/php/net/python个人书籍互享的网站(类似二手书)设计

本系统带文档lw1万字答辩PPT查重 如果这个题目不合适,可以去我上传的资源里面找题目,找不到的话,评论留下题目,或者站内私信我, 有时间看到机会给你发 1、关于个人书籍互享管理系统的基本要求 (1&#xf…

java/php/net/python红木家居购物网站的设计

本系统带文档lw1万字答辩PPT查重 如果这个题目不合适,可以去我上传的资源里面找题目,找不到的话,评论留下题目,或者站内私信我, 有时间看到机会给你发 1管理员用例 管理员登录后可进行个人中心、用户管理、商品类别管…

java/php/net/python基于web的家具网站的设计

本系统带文档lw1万字答辩PPT查重 如果这个题目不合适,可以去我上传的资源里面找题目,找不到的话,评论留下题目,或者站内私信我, 有时间看到机会给你发 系统用例分析 1管理员用例图 系统中的核心用户是系统管理员&#…

java/php/net/python类百度文库网站的设计与实现

本系统带文档lw1万字答辩PPT查重 如果这个题目不合适,可以去我上传的资源里面找题目,找不到的话,评论留下题目,或者站内私信我, 有时间看到机会给你发 管理员用例图 系统中的核心用户是系统管理员,管理员…

java/php/net/python“反传销”宣传网站的设计与实现

本系统带文档lw1万字答辩PPT查重 如果这个题目不合适,可以去我上传的资源里面找题目,找不到的话,评论留下题目,或者站内私信我, 有时间看到机会给你发 1、关于“反传销”网站的设计与实现的基本要求 (1&…

java/php/net/python零食销售网站系统的设计

本系统带文档lw1万字答辩PPT查重 如果这个题目不合适,可以去我上传的资源里面找题目,找不到的话,评论留下题目,或者站内私信我, 有时间看到机会给你发 1、关于零食销售网站系统的基本要求 (1&#xff09…

java/php/net/python“最终幻想14”游戏时装图鉴网站设计与制作

本系统带文档lw1万字答辩PPT查重 如果这个题目不合适,可以去我上传的资源里面找题目,找不到的话,评论留下题目,或者站内私信我, 有时间看到机会给你发 1、关于“最终幻想14”游戏时装图鉴网站设计与制作的基本要求 &…

java/php/net/python游戏网站设计

本系统带文档lw万字以上答辩PPT查重 如果这个题目不合适,可以去我上传的资源里面找题目,找不到的话,评论留下题目,或者站内私信我, 有时间看到机会给您发 管理员用例图 系统中的核心用户是管理员,管理员登…

java/php/net/python购物网站设计

本系统带文档lw万字以上答辩PPT查重 如果这个题目不合适,可以去我上传的资源里面找题目,找不到的话,评论留下题目,或者站内私信我, 有时间看到机会给您发 系统设计 4.1 系统体系结构 购物网站管理系统的结构图4-1所示…

java/php/net/python化妆品购物网站设计

本系统带文档lw万字以上答辩PPT查重 如果这个题目不合适,可以去我上传的资源里面找题目,找不到的话,评论留下题目,或者站内私信我, 有时间看到机会给您发 系统体系结构 化妆品购物网站管理系统的结构图4-1所示&#…

java/php/net/python服装在线销售网站设计

本系统带文档lw万字以上答辩PPT查重 如果这个题目不合适,可以去我上传的资源里面找题目,找不到的话,评论留下题目,或者站内私信我, 有时间看到机会给您发 系统结构 本系统架构网站系统,本系统的具体功能如…

java/php/net/python玩具租赁网站设计

本系统带文档lw万字以上答辩PPT查重 如果这个题目不合适,可以去我上传的资源里面找题目,找不到的话,评论留下题目,或者站内私信我, 有时间看到机会给您发 系统结构设计 玩具租赁系统的设计主要是为了满足用户的实际需…

[Web新闻]美科技博客:web 2.0网站或已成为过去式 (图)

web 2.0标识拼贴画现在已是广为人知,自Web 2.0 Koolaid推出起,已经有些年头。当时,各大公司和个人工作台位上随处可见、众多博客上也是星罗棋布,社交网站或web 2.0技术相关活动的演示图上它也是永久的常客,另外&#x…