爬虫之selenium爬取斗鱼网站

news/2024/5/9 21:47:27/文章来源:https://blog.csdn.net/weixin_44799217/article/details/113003724

爬虫之selenium爬取斗鱼网站

示例代码:

from selenium import webdriver
import timeclass Douyu(object):def __init__(self):self.url = 'https://www.douyu.com/directory/all'self.driver = webdriver.Chrome()def parse_data(self):time.sleep(3)room_list = self.driver.find_elements_by_xpath('//*[@id="listAll"]/section[2]/div[2]/ul/li/div/a')print(len(room_list))data_list = []for room in room_list:temp = {}temp['title'] = room.find_element_by_xpath('./div[2]/div[1]/h3').texttemp['type'] = room.find_element_by_xpath('./div[2]/div[1]/span').text data_list.append(temp)return data_listdef save_data(self, data_list):for data in data_list:print(data)def run(self):#  url#  driver#  getself.driver.get(self.url)#  用于判断首页是否有广告try:time.sleep(6)self.driver.find_element_by_xpath('/html/body/div[2]/span[1]').click()  【此处需要等待几秒把弹窗关闭】except Exception as e:print(e)while True:#  parsedata_list = self.parse_data()#  saveself.save_data(data_list)#  nexttry:# el_next = self.driver.find_element_by_xpath('//*[contains(text(),"下一页")]')el_next = self.driver.find_element_by_xpath('//*[@id="listAll"]/section[2]/div[2]/div/ul/li[9]/span')self.driver.execute_script('scrollTo(110,100000)')el_next.click()except:break
if __name__ == '__main__':douyu = Douyu()douyu.run()

运行效果:

思路用图:

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_700900.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

献上程序员大学四年珍藏的30个宝藏网站,全部拿出来

目录一、程序员视频学习网站1.哔哩哔哩2.慕课网3.学堂在线二、编程学习网站1.菜鸟教程2.W3cSchool3.实验楼三、刷题网站1.力扣2.牛客网——在线编程模块3.CodeTop4.赛码网四、实用工具1.Processon2.ioDraw3.在线JSON解析4.在线进制转换五、博客 、论坛1.CSDN2.掘金3.简书4.博客…

七个合法学习黑客技术的网站,让你从萌新成为大佬

合法的学习网站,以下这些网站,虽说不上全方位的满足你的需求,但是大部分也都能。能带你了解到黑客有关的技术,视频,电子书,实践,工具,数据库等等相关学习内容。以上这些网站我都是用…

java中的Executors简介与多线程在网站上逐步优化的运用案例

提供Executor的工厂类 忽略了自定义的ThreadFactory、callable和unconfigurable相关的方法newFixedxxx:在任意时刻,最多有nThreads个线程在处理task;如果所有线程都在运行时来了新的任务,它会被扔入队列;如果有线程在执行期间因某…

爬取网站图片并保存到本地

第一步:模拟浏览器发出请求,获取网页数据 import requests# 目标网站 url https://baijiahao.baidu.com/s?id1687278509395553439&wfrspider&forpc # 头部伪装 headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:84.0) Ge…

php网站安全狗绕过,最新安全狗绕过姿势 - Azeng呐的个人空间 - OSCHINA - 中文开源技术交流社区...

安全狗是让大家最头疼的安全防护软件,然后我给大家带来最新的安全狗绕过,也不知道能活多久。攻防永无止境吧。最新版本安全狗从官网下载的,我来说一下思路。要想绕过安全狗首先你要知道,安全狗是怎么防护的,过滤的是什…

使用C#的HttpWebRequest模拟登陆网站

很久没有写新的东西了,今天在工作中遇到的一个问题,感觉很有用,有种想记下来的冲动。 这篇文章是有关模拟登录网站方面的。 实现步骤; 启用一个web会话发送模拟数据请求(POST或者GET)获取会话的CooKie 并根…

Scrapy框架模拟Github网站登陆

1. 以往的模拟登陆的方法 1.1 requests模块是如何实现模拟登陆的? 直接携带cookies请求页面找url地址,发送post请求存储cookie 1.2 selenium是如何模拟登陆的? 找到对应的input标签,输入文本点击登陆 1.3 scrapy的模拟登陆 直…

Python爬虫并自制新闻网站,太好玩了

来源 | 凹凸数据(ID:alltodata)我们总是在爬啊爬,爬到了数据难道只是为了做一个词云吗?当然不!这次我就利用flask为大家呈现一道小菜。Flask是python中一个轻量级web框架,相对于其他web框架来说…

Spring Boot 2.X整合Spring-cache,让你的网站速度飞起来

计算机领域有人说过一句名言:“计算机科学领域的任何问题都可以通过增加一个中间层来解决”,今天我们就用Spring-cache给网站添加一层缓存,让你的网站速度飞起来。本文目录 一、Spring Cache介绍二、缓存注解介绍三、Spring BootCache实战1、…

一步步构建大型网站架构

之前我简单向大家介绍了各个知名大型网站的架构,MySpace的五个里程碑、Flickr的架构、YouTube的架构、PlentyOfFish的架构、WikiPedia的架构。这几个都很典型,我们可以从中获取很多有关网站架构方面的知识,看了之后你会发现你原来的想法很可能…

利用WxJava实现PC网站集成微信登录功能,核心代码竟然不超过10行

最近网站PC端集成微信扫码登录,踩了不少坑,在此记录下实现过程和注意事项。本文目录 一、微信开放平台操作步骤1.创建“网站应用”2.获取AppID和AppSecret二、开发指南三、开发实战1、pom.xml引入jar包2、配置文件添加对应的配置3、初始化配置4、控制层核…

你为什么应该经常访问招聘网站?招聘网站至少有4个方面的价值!

一、缘起读大学的时候,有时候会感到很迷茫,不知道毕业之后可以做什么,自己能拿到多少的月薪。于是,就想到去参加一些公司的招聘。大二大三的时候,就去武大参加了武汉中地数码等3个公司的笔试。但是,没有交答…

从12306网站谈起虚拟主机选购注意事项

2019独角兽企业重金招聘Python工程师标准>>> “独在异乡为异客,每逢佳节倍思亲。”在临近年关的氛围下,尤其是只能通过火车才能归家的“游子”,是否也像笔者一样看着不能打开的12306网站望“票”兴叹呢?身为国内资深虚…

在任何设备上都完美呈现的30个华丽的响应式网站

如今,一个网站只在桌面屏幕上好看是远远不够的,同时也要在平板电脑和智能手机中能够良好呈现。响应式的网站是指它能够适应客户端的屏幕尺寸,自动响应客户端尺寸变化。在这篇文章中,我将向您展示在任何设备上都完美的30个华丽的响…

新浪微博推广网站的一些实践体会

本以为微博推广很难,每天都要刷粉刷内容的,也本以为做微博推广也很简单,一不卖产品、二不卖服务的,目的单纯灵活性强些,做了之后才发现都不是那么回事,微博虽然也过了“火了”,但新媒体还真是不…

windowsXP用户被禁用导致不能网站登录

1、查看系统事件,发现弹出如下的错误 2、根据上面的错误,我们很容易就可以判断是禁用了账户引起的 2.1后面进入计算机管理,再进入用户管理 2.2双击点开Internet来宾用于,发现此用户已经停用了。 2.3双击点开与IIS访问有关用户&…

AI 和 SEO 的结合:是福还是祸?

作者 | Vik Bogdanov翻译 | Katie,责编 | 晋兆雨头图 | 付费下载于视觉中国自成立以来,搜索引擎已经从基本搜索代理变成了基于人工智能(AI)和机器学习(ML)的复杂算法。这些创新技术从两个完全相反的角度影响搜索引擎优…

【云计算】云上建站快速入门:博客、论坛、CMS、电子商务网站统统

免费网站怎么建,空间也能免费吗?免费网站怎么建立,免费网站并非免费空间互联网真的有免费建站这等好事?现在制作一个网站已经越来越容易了,只要知道清晰的流程之后都是可以很快的建好一个企业或者个人网站的!免费的建…

PrestaShop 网站后台配置(六)

转载请注明出处:http://www.cnblogs.com/zhong-dev/p/4943023.html 网店版本 Prestashop v1.6 配置邮箱店铺在客户下单之后,可以自动给客户发送邮件,要实现这个功能首先一点服务器要支持邮件功能。现在网店的运行环境是 amh 环境&#xff0c…

在 Azure 网站上使用 Memcached 改进 WordPress

编辑人员注释:本文章由 Windows Azure 网站团队的项目经理 Sunitha Muthukrishna 和 Windows Azure 网站开发人员体验合作伙伴共同撰写。 您是否希望改善在 Azure 网站服务上运行的 WordPress 网站的性能?如果是,那么您就需要一个可帮助加快您…