基于selenium爬取带有iframe/frame标签的网站数据

news/2024/5/8 22:00:08/文章来源:https://blog.csdn.net/wangziyang777/article/details/105072709

URL: http://code.nhsa.gov.cn:8000/search.html?sysflag=80

如图所示, 将左边每一章的数据都爬取下来

网站结构特点:该网站有个特点, 点一下左边的章节,这一章的所有数据都会在右边展现出来,所以这个网站有两iframe标签嵌套组成,一个是最大的包含的所有章节以及包含存储每一张数据的小的iframe标签, 一个是右边根据点击的章节包含该章节的所有数据的被嵌套在iframe标签

如图:

网站结构大体总结为:

所以要想获取每一章数据所有, 就需要先进入最大的iframe标签中去依次点击每一章, 点击一章之后再进入包含每一章所有数据的iframe标签中去获取每一章所有数据, 接着重复此操纵座进行下一章(注意:因为该网站是iframe嵌套, 所以xpath helper工具会失效, 但是xpath依然有效, 所以xpath helper工具定位不到数据, 并不是真的定位不到)

 

 

# import requests
import re
from lxml import html
from lxml import etree
import time"""
//*[@id="treeDemo1"]/li/ul/li
"""
from selenium import webdriver
from selenium.webdriver.common.by import By
import re
import pandas as pdnum = 1
# 总共23章
while num < 23:url = "http://code.nhsa.gov.cn:8000/search.html?sysflag=80"# url = 'http://code.nhsa.gov.cn:8000/jbzd/public/dataOperationSearch.html?batchNumber='try:# 打开页面browser = webdriver.Chrome()browser.get(url)except:# 页面打开不了就刷新browser.refresh()page1 = 0page2 = 0# browser.find_element_by_xpath('//*[@id="dataContent"]/div/div/div[1]/div/label[2]').click()try:# 进入到最大的iframe标签browser.switch_to_frame('dataInfo')page1 = browser.page_source# print(page1)# print(re.findall(r'操作和介入不能分类于他处', page1))# 因为网页反应较慢, 所以停50秒, 让它反应一下time.sleep(50)# 点击每一章click1 = browser.find_element(By.ID, 'treeDemo1_{}_a'.format(num))  # //*[@id="treeDemo1_2_a"]click1.click()time.sleep(5)except Exception as e:print(e)print(f'手术第{num}章数据爬取失败, 重新爬取第{num}章')browser.close()continuetry:# 进入到包含每一章所有数据的iframe标签中browser.switch_to_frame('ICDMainframe')# 获取页面内容page2 = browser.page_sourceprint(page2)# print(page2)# print(re.findall(r'其他治疗性超声', page2))except Exception as e:print(e)print('手术第{}章数据爬取失败, 重新爬取第{}章数据'.format(num, num))browser.close()continue# print(page2)# print(re.findall(r'舌尖及侧缘的恶性肿瘤', page2), '2-1')# 用xpath对页面进行解析html = etree.HTML(page2)# mes = html.xpath('//*[@id="11764a92-7938-11e9-9611-8cec4bd010f3"]/div/a/text()')# 定位数据mes = html.xpath('//*[@id="classicont"]/div//a/text()')# names = html.xpath('//*[@id="11764a92-7938-11e9-9611-8cec4bd010f3"]/div/span/text()')names = html.xpath('//*[@id="classicont"]/div//span/text()')print(mes)print(names)message = {}message['诊断编码'] = mesmessage['诊断名称'] = namesmes1 = []for i in mes:mes1.append(i.strip())message = {}message['诊断编码'] = mesmessage['诊断名称'] = namesdf = pd.DataFrame(message, columns = ['诊断编码', '诊断名称'])df.to_excel('第{}章.xlsx'.format(num))browser.close()print('第{}章数据爬取成功'.format(num))breaknum += 1time.sleep(10)# url = 'http://code.nhsa.gov.cn:8000/jbzd/public/dataOperationSearch.html?batchNumber='
# browser = webdriver.Chrome()
# browser.get(url)
# page = browser.page_source
# # print(page)
# html = etree.HTML(page)
# print(html.xpath('//*[@id="treeDemo1"]/li[1]/ul/li//span[2]/text()'))

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_895366.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里云ECS训练营进阶路线Day1--搭建自己专属的静态网站与云笔记

开通云服务器 相信大家已经通过阿里云高校计划领取了一台属于自己的免费服务器&#xff0c;没有领取的同学也可以点击这里进行领取。 如果你不符合阿里云高校计划免费领取服务器的条件&#xff0c;可以点击这里享受新老用户专属的优惠福利 操作系统&#xff1a;CentOS 7 Vue…

给大家推荐几个程序员必备网站

1、程序员导航CXY521: 程序员导航-CXY521http://www.cxy521.com/ 2、程序员盒子 coderutil 程序员盒子,专注于程序员学习编程提效 官网https://www.coderutil.com/ 3、程序员快速导航 程序员快速导航 - 专门为程序员服务的导航网站 (yundashi168.com)http://nav.yundashi1…

基于Vue3+TS+StoryUI+elementPlus的个人网站——StoryWeb

基于Vue3TSStoryUIelementPlus的个人网站——StoryWeb 前言&#xff1a;各位读者&#xff0c;大家好&#xff0c;很开心你能够阅读这篇文章&#xff0c;这篇文章的目的是对我通过近2个月&#xff0c;利用工作之余&#xff0c;开发的个人网站做一个总结。同时&#xff0c;我认为…

[源码和文档分享]基于JavaScript和MySQL的文化平台网站的设计与实现

摘要 中国文化源远流长&#xff0c;自古就有文人雅士作诗赋词&#xff0c;舞文弄墨&#xff0c;尽显风雅。现今则有歌手作家思想成文&#xff0c;心绪为曲&#xff0c;亦现儒雅。文化是传承的&#xff0c;是流传不息的&#xff0c;也是众多人所追求的。从各种各样的文化中&…

[源码和文档分享]基于C#和SQL SERVER的校园知识问答论坛网站的设计与实现

摘 要 本文使用Asp.Net Core 和MsSqlServer技术&#xff0c;详细说明开发校园知识论坛系统的开发。校园知识论坛系统是基本B/S模式的一种交互性极强的电子信息服务系统。它为使用者提供一个交流的平台&#xff0c;每一个用户都可以在上面问答知识&#xff0c;获取信息&#xf…

[源码和文档分享]基于Node.js中间层的微信图书借阅平台网站的设计与实现

1 引言 步入信息时代以来&#xff0c;互联网给人们的生活带来了翻天覆地的变化&#xff0c;互联网也不再简单地仅仅通过提供便利快捷的资讯服务来丰富我们的生活。互联网的出现打破了许多传统行业垄断的格局&#xff0c;互联网以其接入面广、信息即使、人人可参与等等性质&…

[源码和文档分享]基于Keras和tensorflow深度学习Python实现的支持人脸识别和情绪分类的社区APP网站和微信小程序...

1 项目介绍 1.1 背景 视觉使人类得以感知和理解周边的世界&#xff0c;人的大脑皮层大约有 70%的活动在处理 视觉相关信息。计算机视觉即通过电子化的方式来感知和理解影像&#xff0c;以达到甚至超 越人类视觉智能的效果。 从 1966 年学科建立&#xff08;MIT&#xff1a;T…

[源码和文档分享]基于C#实现的电影网站数据爬虫和电影网站

1 简介 1.1 背景 随着网络的发展&#xff0c;网购也越来越流行&#xff0c;人们可以在去各大电影院的网站方便的购票并选择自己喜欢的时间去影院观看。但电影院网站众多&#xff0c;人们可能为了寻找一个电影而奔波与各大网站&#xff0c;导致浪费大量时间在寻找电影资源上。本…

[源码和文档分享]基于JAVA FX实现的酒店预订系统网站

1 产品概述 参考酒店预订系统用例文档和酒店预订系统软件需求规格说明文档中队产品的概括描述。酒店预订系统主要是应用于网上预定远程酒店订单的在线系统&#xff0c;主要功能见用例图如下。 源码下载地址&#xff1a;https://www.write-bug.com/article/1441.html

[源码和文档分享]基于PHP和MYSQL数据库实现的公共考试报名管理系统网站

前 言 随着社会的快速发展&#xff0c;体力不再是我们唯一的生存方式了&#xff0c;人们也越来越注重自身的文化素养&#xff0c;随之而来的也有许多成人考试&#xff0c;为已经步入社会的人提供一个再学习的机会。 众所周知&#xff0c;作为学生&#xff0c;考试是我们必经的过…

[源码和文档分享]基于PHP和MYSQL数据库实现的libilibi电影论坛网站

一、需求分析 1.1 需求描述 1.1.1 用户相关功能 登录&#xff1a;前端输入用户名和密码&#xff0c;在数据库中完成查询&#xff0c;如果存在该用户&#xff0c; 则登陆成功&#xff0c;继续其他操作&#xff1b;如果不存在&#xff0c;则登录失败&#xff0c;提示用户名/密码错…

JS事件之onmouseover 、onmouseout 与onmouseenter 、onmouseleave区别

我们都知道onmouseover和onmouseenter都属于鼠标进入的状态&#xff0c;onmouseout和onmouseleave都是鼠标移开的状态&#xff0c;那么我们来看看主要区别。 一般来说&#xff0c;onmouseover、onmouseout一起使用&#xff0c;鼠标经过时自身触发事件&#xff0c;经过其子元素…

[源码和文档分享]基于Python的Django框架实现的中式快餐厅管理信息系统网站

1 初步调研 随着餐饮业的连锁和国外餐饮巨头的进入&#xff0c;餐饮业的竞争将越来越激烈&#xff1a;要想在竞争中处于不败之地&#xff0c;必须在管理、服务等方面提高服务管理意识。面对当前餐饮业普遍的产业化程度低&#xff0c;管理手段、管理技术落后等问题&#xff0c;使…

基于ASP.NET和SQL SERVER数据库的招聘网站设计与实现

摘 要 本课题是基于互联网与数据库技术的网上招聘网站&#xff0c;是先进的计算机科学技术和现代招聘理念相结合的产物&#xff0c;通过使用以ASP.NET技术为基础&#xff0c;基本实现网上招聘网站的基本功能&#xff0c;满足了求职者和招聘企业的需求&#xff0c;实现了招聘单位…

IIS 无法显示网页 目前访问网站的用户过多

最近把一个服务部署到XP系统的IIS上&#xff0c;供其他程序调用&#xff0c;在访问了几个页面后&#xff0c;会出现“无法显示网页 目前访问网站的用户过多”的提示。 网上找了&#xff0c;果然有解决方法: 1.打开IIS&#xff0c;在网站上右键&#xff0c;选择“属性”&#xf…

WebSphere Portal 门户网站修改

WebSphere Portal 提供预定义的门户网站页面&#xff0c;其在安装和启动产品后立即可用。可以使用门户网站的基于 Web 的用户界面更改外观和感受&#xff0c;以切换到 WebSphere Portal 提供的其它预定义的可视元素和布局。下列主题描述如何修改门户网站页面&#xff0c;为门户…

更改门户网站布局(WebSphere Portal)

下列主题提供帮助您定制门户网站页面的布局信息。许多步骤和示例应用于 HTML 标记。 门户网站页面的布局 门户网站 JSP 使用的标记 注&#xff1a;如果对门户网站页面的更改没有出现在测试中&#xff0c;可能需要清除位于 was_root/temp/default_host/wps 的应用程序服务器…

个人网站(发布一些关于Unity的笔记)

个人网站&#xff1a; http://psq.youthup.cn 使用的插件是WordPress 。 主题是 https://2heng.xin/theme-sakura/#toc-head-27 建站过程中遇到的最大的问题就是 插件无法安装&#xff0c;改一下wordpress/wp-content/plugins的权限。

想建企业网站的用户有福啦!

想建企业网站的用户有福啦&#xff01;制作一个拥有 PC商城 手机站 微网站 手机 APP的企业网站仅需 756元&#xff0c;购买 756元企业建站套餐&#xff0c;免费赠送全能版建站宝盒 2G超大虚拟主机 主流顶级域名 1个 2G企业邮局。 苏州鼎慈贸易有限公司为庆中秋迎国庆…

NGINX下配置SSL证书,安全的访问自己网站

参考&#xff1a; https://www.jianshu.com/p/6db0c6dc97a9 http和https的区别。感谢大神的笔记参考。 简单的ssl证书配置实现https访问。 服务器环境&#xff1a; 阿里云服务器ECS linux版本 CentOS 7.4 64位&#xff0c;已安装nginx。 已购买认证以及备案的域名&#xff1a;…