url获取网站信息不包含网页源文件内的标签_爬虫入门一:爬取一个网页

news/2024/5/20 18:57:28/文章来源:https://blog.csdn.net/weixin_39602976/article/details/111122163

3e9ff81d9090f1c4bef22025bd79e2e8.png

首先,我们提出一个问题:网页是什么?

在我看来,网页就是信息,是我们请求一个公司或者个人发给我们的信息。

我们举一个例子,我们在浏览器中输入http://www.baidu.com 然后回车,就会看到我们很熟悉的百度界面

e914712c6f3630611028a66fbd3403d8.png

对吧,你就会说了,这不就是网页么? 但是我再问你,这个网页究竟是什么?为什么不同的网页信息不同,显示不同,样子不同呢? 来,先让我们看看它的本质面目,我们在界面上点击鼠标右键,选择查看源或者直接F12,就可以看到下面的样子:

56afbaf115734e663ae0daa430d9efca.png

这就是百度主界面的源文件,我们所看到的所有信息均在这些代码之中,只不过我们没学过前段语言,看不懂他们的意思,但是我们可以明白了,原来我们通过http://www.baidu.com 这个字符串,我们又叫它URL(统一资源定位符),向服务器发出了请求,然后服务器发送了这个信息给我们,然后我们的浏览器就像一个翻译官,将这些信息翻译成我们现在看到的这个界面。

那么我们所看到的所有信息其实就隐藏在了这些信息之中,或者说这些代码之中对不对

那么爬虫的作用就是获取这些信息,然后提取我们想要的部分,然后归纳总结,最后返回给我们我们想要的东西对不对。

既然我们大概明白了网页的原理和爬虫的功能,那么我们就开始我们爬取之旅的第一步,获取这个页面的全部信息。

18ccc123c80d4780bbe2c106b2c96466.png

我们解释上述代码:

首先我们引入一个requests库,它里面包含了我们将要使用的函数

然后,我们获得requests的对象r,通过我们第一条语句

r中就包含了这个页面的全部信息和各种各样的设置操作

r.enconding = r.apparent_encoding 这条语句是改变我们获取的页面的编码方式,因为r.encoding是它在返回信息的头字段中推断的这个页面的可能的编码方式,但是有很大的概率是错误的,错误的编码方式就会引起我们在观察返回的页面信息充满了各种各样的乱码。比如我们程序员常常开玩笑说“烫烫烫”,就是一种乱码的表现形式。所以我们利用r.apparent_encoding这个从返回内容中推断的,可靠性很高的编码方式替换掉初始的编码方式。这样方便我们在输出的时候观察我们获取的页面信息。

然后我们输出了r.text。其实是输出了返回的全部信息,就是我们利用F12看到的那些信息。

05e7a1cb464d71cd3cd6c6bf33588f94.png

输出很长,我只截取了比较明显的一点点。

可以看到输出中包含了"百度一下"这个信息,其实就是页面上的显示信息

所以我们就已经获得了整个百度主页面的所有信息了

而我们可以看到我们在代码中有try except 和一个r.raise_for_status

这是因为我们在获取页面的时候有可能发生获取失败的情况,比如,网页走失-404 访问失败(没有联网)等等情况,所以我们要考虑这些情况下我们代码的可靠程度,我们利用try expect方法,在发生异常的时候给我们产生相应的错误提示,这里我输出了“fail”表示获取失败 而r.raise_for_status可以向try except提交一个异常信息,使得执行except下的语句,进而提高我们代码的可靠性。

好了,这些就是这篇文章我们要讲解的内容了,还不赶紧去试一试爬取你想要的界面呢?只要修改想用的url为你的网址就可以了,我们下篇文章再见

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_764706.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

照片欣赏网站php,php照片相册共享系统

照片相册共享系统使用的设是PHP技术和mysql数据库技术开发.该系统是高校计算机专业的毕业设计题目,主要是针对高校毕业设计进行题目的设计,系统功能简单,模块清晰,想要的朋友可以联系我.总体功能模块1 图片管理图片管理应该包括的…

nginx 使用gizp压缩提高网站的传输速度

网站的css,js ,xml,html 在传输的时候可以使用gzip压缩,提高访问速度, 网站上的图片,视频等其它多媒体文件,因为压缩效果不好,所以对于图片没有必要支压缩, 如果想要优化,可以图片的生命周期设…

增加索引会锁表吗_企业为什么要建设网站?你的网站这些问题存在吗?

原标题:企业为什么要建设网站?你的网站这些问题存在吗?如今是创业的人越来越多。很多人纷纷都注册了自己的公司,想自己创业,而多数人创业的时候,想到的第1点就是先建立一个自己的网站。那么你建立自己网站的…

flask session_用Flask写一个图书作者管理网站(附完整代码)

这次给大家带来的是一个非常小的Flask案例,首先看一下做出来的效果:我们主要分为两部分来做,这两部分分别是上图的上部分的表单和下面的列表展示。如果你还没用过 flask,可以先看一下其官方文档的快速入门:http://docs…

PHP 伪静态seo,伪静态、静态、动态网站对SEO的影响有多大?

我看过非常多的关于伪静态、静态、动态网站方面的一些知识,网上有非常多的说法,里边很多不懂装懂的人,胡说八道。甚至是有很多人转载别人的文章加工一下,就开始卖弄学问。最终的结果是,非常多的人不知道到底怎么做才对…

html 居中_SEO小龙人:HTML+CSS之display:inline-block实现三个标签并排居中显示

实现效果&#xff1a;<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns"http://www.w3.org/1999/xhtml"><head><meta http-equiv…

具体案例 快速原型模型_产品经理笔试知识点:白盒测试、开发模型、网站跳失率和RFM模型...

概述现今互联网产品经理的岗位的招聘原来越热门&#xff0c;笔者把网上搜集到的产品经理笔试易错题做了完整的解析和举例说明&#xff0c;每篇4道互联网产品经理笔试易错题&#xff0c;分析知识点&#xff0c;提升IT视野见识。本文主要介绍白盒测试&#xff0c;软件的几种常见开…

提升工作效率的那些网站——私藏工具推荐

提升工作效率的那些网站——私藏工具推荐 有哪些网站能提升你的工作效率&#xff1f; 分享一下那些能大幅提高工作效率的网站&#xff0c;都是我们一直在用并且认为在同类型中比较好用的。希望也能帮助到你。 梅花网—灵感素材 关于文案、新媒体的聚合网站&#xff0c;干货满…

推荐一个好玩网站,黑白照片上色、人脸识别都不是问题!

欢迎关注我的微信公号&#xff1a;小张Python! 大家好&#xff0c;我是 zeroing ~&#xff0c;今天给大家分享一个好玩的网站&#xff0c;只需把本地老照片上传&#xff0c;接下来网站就自动对黑白照片进行上色 老照片上色技术 其实已经出来很早了&#xff0c;去年 5 月份时 B…

词云绘制,推荐三种 Python包外加一个在线网站!

词云是文本可视化的重要方式&#xff0c;可将大段文本中的关键语句和词汇高亮展示&#xff0c; 本篇文章先介绍几种制作词云的 Python 库&#xff0c;分别是 WordCloud、StyleCloud、Pyecharts&#xff1b;再加一个在线词云制作网站&#xff1b;最后通过代码实操和可视化效果对…

Vue + Django + PaddleOCR 实现一个在线OCR 识别网站,一键上传快速识别

大家好&#xff0c;我是小张~ 之前写过一篇博文介绍了一款OCR 识别库&#xff0c;识别精度能达到商用级别&#xff0c;并且支持多语言识别&#xff0c;使用详情请参考文章&#xff1a;文本OCR&#xff0c;这个Python库识别效果不输于商用&#xff01;&#xff0c; 除了Paddle…

写一个简单的网站首页,初识 CSS 中 Flex 布局

之前一直用 VUE 写后台管理界面&#xff0c;对前端 CSS 这块一直是半知半解&#xff0c;为了巩固这方便知识&#xff0c;抽空写一些基础页面来巩固一下 今天带来的是一个简单的网站首页&#xff0c;源于《深入解析CSS》中的案例&#xff0c;首页做了简单的自适应&#xff0c;但…

印象笔记如何分享链接_杭州诠网科技分享seo优化如何做好网站的反向链接

几乎所有的网站管理员都希望自己的网站能够在百度、谷歌和其他搜索引擎中排名靠前。因为在搜索引擎排名靠前可以给网站带来很多新客户&#xff0c;这有利于网站产品或服务的营销和网站品牌的提升。虽然我们还没有找到一个神奇的公式来提高网站在搜索引擎中的排名。但是很多例子…

linux网站宝塔无法访问ipv6,centos7宝塔面板服务器开启纯IPV6访问

随着互联网世界日新月异的发展&#xff0c;ipv6好像已经成为一种必不可少的趋势&#xff0c;但是当前国内机房大部分还不能支持ipv6&#xff0c;腾讯云亦如此。同时&#xff0c;现在有部分程序在服务器上运行的时候&#xff0c;需要服务器能监听一个ipv6地址才行&#xff0c;因…

【伸手党福利】【第一弹】jeecg-boot前端主要更改位置(网站标题栏图标、logo、登录后的logo、显示的标题文字、用户头像)

【伸手党请光看标题】 网站标题栏图标 位置 ant-design-vue-jeecg\public\index.html 1、index.html标题在head第9行替换掉&#xff0c;然后复制ico到/public <link rel"shortcut icon" href"<% BASE_URL %>favicon.ico" type"image/x-ic…

关于百度机器人搜索你网站的页面权限设置

百度robots.txt上加 User-agent: * Disallow: / 这可能涉及到公司的网站是否存在信息泄露的风险

git 在线学习网站

Learn Git Branchinghttps://learngitbranching.js.org/?NODEMO&localezh_CN

在线测试键盘网站

在线键盘测试 | zFrontier 装备前线键盘测试工具&#xff0c;在线使用&#xff0c;无需下载&#xff0c;快速检测键盘好坏&#xff0c;兼容各种配列机械键盘、客制化键盘、薄膜键盘https://www.zfrontier.com/lab/keyboardTester

在线 YAML 转 Properties 网站

在线YAML转Properties工具- ToolTT在线工具箱https://tooltt.com/yaml2properties/

revel MySQL_使用Revel(go)开发网站

Revel很好的利用了Go语言的goroutine&#xff0c;把每一个request都分配到了goroutine里。不用再写一大堆的回调。如果你写过nodejs的话就会深刻的体会到callback hell是什么样子的。正是由于Revel有了goroutine&#xff0c;Revel的性能也有了很大的提升。官网号称请求的吞吐量…