关于动态网站的简单爬虫实现

news/2024/5/9 13:54:07/文章来源:https://blog.csdn.net/penyy111/article/details/120813754

1.XPath的使用用来解析XML，

也可以用来解析HTML。同Beautiful Soup一样，在XPath中提供了非常简洁的节点选择的方法，Beautiful Soup主要是通过.的方式来进行子节点或者子孙节点的选择，而在XPath中则主要通过/的方式来选择节点。

2.etree.HTML(response.text)，使用etree模块中的HTML类来对百度html(response.text)进行初始化以构造XPath解析对象，返回的类型为lxml.etree._Element etree.tostring(bd_html_elem).decode("utf-8")，将上述对象转化为字符串类型且编码为utf-8 html.unescape(bd_html)，使用HTML5标准定义的规则将bd_html转换成对应unicode字符

实现步骤如下：

from lxml import etree
import requests
import html
response=requests.get("http://www.baidu.com")
encoding=response.apparent_encoding
response.encoding=encoding
# print(response.text)
bd_bj=etree.HTML(response.text)
img_href_ls=bd_bj.xpath("//img/@src")
img_href=bd_bj.xpath("//div[@id='lg']/img[@hidefocus='true']/@src")
a_content_ls=bd_bj.xpath("//a//text()")
a_news_content=bd_bj.xpath("//a[@class='mnav' and @name='tj_trnews']/text()")
print(img_href_ls)
print(img_href)
print(a_content_ls)
print(a_news_content)

展示结果：

创作不易，觉得有用的小伙伴可以点个赞哦！！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_788202.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

jsp oracle 网站建设_网站建设5大基础知识，你知道吗？

jsp oracle 网站建设_网站建设5大基础知识，你知道吗？

原标题：网站建设5大基础知识，你知道吗？现在网站建设普及度越来越广，做网站建设的企业也越来越多，引起不少对网站建设知识学习的追求者，一时间各种建站系统遍布互联网。在做网站优化中，也许对网站…

阅读更多...

多布局怎么搭建_怎么建设文创饰品网站？需要多少钱？

多布局怎么搭建_怎么建设文创饰品网站？需要多少钱？

近几年文创周边产品很受欢迎，因此也诞生了不少文化艺术、文创饰品类企业。文创产品要想顺利销售出去，就需要广拓渠道，尤其要注重互联网窗口的建设，因此建设一个自己的官方网站自然是少不了的。「上线了」建站案例文创饰品公司要建…

阅读更多...

python3网站攻击_Python实现DDos攻击实例详解

python3网站攻击_Python实现DDos攻击实例详解

SYN 泛洪攻击 SYN泛洪攻击是一种比较常用的Dos方式之一。通过发送大量伪造的 TCP 连接请求，使被攻击主机资源耗尽（通常是 CPU 满负荷或内存不足）的攻击方式我们都知道建立 TCP 连接需要三次握手。正常情况下客户端首先向服务器端发送SYN报文…

阅读更多...

node获取图片路径_在Node.js上接入Paddle Lite，让你的网站具备AI推理能力

node获取图片路径_在Node.js上接入Paddle Lite，让你的网站具备AI推理能力

【飞桨开发者说】李睿，北京邮电大学学生，人工智能和移动开发爱好者。随着桌面端Electron技术逐步崛起，基于Electron开发的代码编辑器、聊天软件、游戏等层出不穷。对于习惯使用Node.js进行后端开发的朋友来说，开发一套漂亮的桌面U…

阅读更多...

bootstrap获取下拉框数据_网站SEO优化推广关键词可以通过哪些途径获取，分析百度搜索原理...

bootstrap获取下拉框数据_网站SEO优化推广关键词可以通过哪些途径获取，分析百度搜索原理...

一、百度下拉框，从百度下拉框里可以获取用户在搜索引擎搜索过的关键词，这类词符合用户的搜索习惯。二、百度相关搜索，在搜索引擎页面底部，有个百度相关搜索，这些词也可以选择，这是百度算法根据用户浏览过的…

阅读更多...

静态网站生成器

静态网站生成器

静态网站生成器静态网站相比动态网站具备无需依赖应用服务器，性能优越，部署简单等特点。特别适合生成静态文档，个人博客，饱受开发者的青睐。相比学会使用，掌握工作原理也尤为重要。一个静态网站生成器的工作流程通…

阅读更多...

SEO优化来了

SEO优化来了

搜索引擎工作原理当我们在输入框中输入关键词，点击搜索或查询时，然后得到结果。深究其背后的故事，搜索引擎做了很多事情。在搜索引擎网站，比如百度，在其后台有一个非常庞大的数据库，里面存储了海量的关…

阅读更多...

织梦网站地图更新自由列表html,织梦自由列表更新使用教程

织梦网站地图更新自由列表html,织梦自由列表更新使用教程

当我们用织梦网站建立了一个自由列表后就相当于建立了一个类似其它栏目的一个列表，跟其它栏目建立了一个最终列表页一样，当建立完自由列表后，也需要生成列表html，也就是自由列表的更新，如下图所示：(此图片来…

阅读更多...

大型网站架构演变和知识体系（转）

大型网站架构演变和知识体系（转）

之前也有一些介绍大型网站架构演变的文章，例如LiveJournal的、ebay的，都是非常值得参考的，不过感觉他们讲的更多的是每次演变的结果，而没有很详细的讲为什么需要做这样的演变，再加上近来感觉有不少同学都很难明白为什么…

阅读更多...

http 升级 https 影响原来的链接吗_http切换https的SEO完美解决办法

http 升级 https 影响原来的链接吗_http切换https的SEO完美解决办法

对于网站http协议切换为https协议，这不仅仅能够提升网站的安全度，还可以提升网站在搜索引擎的权重。因为像百度针对https协议的站点有明确的提权政策。百度认为更加安全的站点应该获得更优质的展现，进而给予优先展示。那么针对SEO的工作而言&…

阅读更多...

nofollow标签_网站被加上nofollow对SEO有什么危害？网站nofollow标签知多少？

nofollow标签_网站被加上nofollow对SEO有什么危害？网站nofollow标签知多少？

关于以上问题我总结了一下网上比较优秀的关于nofollow的文章，希望能对新手有所帮助nofollow标签的介绍nofollow是一个HTML标签的属性值，nofollow 是一个HTML标签的属性值。它的出现为网站管理员提供了一种方式，即告诉搜索引擎“不要追踪此网页…

阅读更多...

php源码仿三一重工,仿三一重工大气企业网站php源码

php源码仿三一重工,仿三一重工大气企业网站php源码

大小：21.55M编码：GBK简体类别：机械电子★模板介绍★源码名称：仿三一重工大气企业网站php源码仿三一重工大气企业网站php源码，测试完整无错，兼容主流浏览器。模板包含安装说明，并包含测试数据。本…

阅读更多...

如何查询一个网站的服务器大小写,网站页面的大小写

如何查询一个网站的服务器大小写,网站页面的大小写

网站页面的大小写内容精选换一换云速建站不支持自适应宽度，推荐使用网站宽度为1200px，设置方法请参考网站基础设置。将空白处下方的模块或页脚整体上移，遮盖住空白处，然后保存修改。云速建站没有固定长度，网页的长度取…

阅读更多...

在内网打造可以从外网访问的网站和服务

在内网打造可以从外网访问的网站和服务

最近在内网建了一个简单的网站，利用路由器，使网站可以从外网访问。首先利用appserv套件搭建一个phpmysqlapchephpmyadmin环境，安装十分简单，直接下一步就行了，中途可能要填写网络端口和Mysql数据库密码，网…

阅读更多...

iis运行html提示500错误,IIS发布网站出现Http—500错误

iis运行html提示500错误,IIS发布网站出现Http—500错误

IIS服务器可以作为一个Web服务器单独使用，也可以与相兼容的工具一起使用，它可以用来建立Internet商务、访问和操作来自不同数据源的数据以及创建Web应用程序，其中这些应用程序利用服务器脚本和组件代码来完成一些客户-服务器功能。客户端访问…

阅读更多...

一键seo提交收录_Api提交百度搜索进行文章收录-网站SEO

一键seo提交收录_Api提交百度搜索进行文章收录-网站SEO

网站内容如果想被搜索引擎(百度/google)收录，除了提供robots.txt等着爬虫来爬以外，如果想最快的被百度收录可以在熊掌号平台进行注册，可以通过在平台上进行页面改造、站点同步等方式提高百度收录，但是最有效的方式是使用api主动向…

阅读更多...

网站互点排名掉了网站互点排名掉了网站互点_影响网站关键词排名不稳定的6个因素及优化建议...

网站互点排名掉了网站互点排名掉了网站互点_影响网站关键词排名不稳定的6个因素及优化建议...

很多站长朋友消耗大量的时间成本，人力成本做网站关键词排名，并让排名达到理想状况，却发现网站关键词排名不稳定，时上时下，飘忽不定。针对这种情况，建议站长或seo优化人员针对排名不稳定的原因做具体分析&am…

阅读更多...

做服务器_美国站群服务器做网站优化效果怎么样

做服务器_美国站群服务器做网站优化效果怎么样

我们接触过不同的服务器，普通的网站服务器，高配的游戏服务器，金融行业的抗攻击服务器，多IP服务器等等。说到多IP服务器，可能第一时间就会想到站群服务器。众所周知，在早些时候，很多企业站长都会…

阅读更多...

python爬取新闻网站内容_python快速抓取新闻标题及内容

python爬取新闻网站内容_python快速抓取新闻标题及内容

原博文 2018-10-25 20:17 − from newspaper import Article url 你想要爬取的网站url news Article(url, languagezh) news .download() #先下载 news .parse() #再解析 print(news.text) #新闻正文 ... 相关推荐 2019-09-28 21:13 − Python python是一种跨平台的计算机程序…

阅读更多...

网站怎么判断aps还是php,如何判断一个网站是否为wordpress制作的多种方法

网站怎么判断aps还是php,如何判断一个网站是否为wordpress制作的多种方法

教大家如何识别一个网站是否为wordpress程序搭建的。其实大家要知道wordpress程序本身有很多地方都泄露了自己的身份，那么我们只要一个一个去对比即可知道程序是否为wordpress搭建的了。方法一：借助站长平台http状态查询工具来判断网站是否为wordpress搭…

阅读更多...

推荐文章

最新文章