matlab保存数据到excel_使用selenium登录网站并爬取数据保存到excel

news/2024/5/20 21:07:17/文章来源:https://blog.csdn.net/weixin_39617252/article/details/111158506

92a9938e861d7870e643e455b0d45af9.png

使用selenium模拟登录到网站后,利用requests爬取数据,用bs4解析数据,用xlwt保存到excel。

自定义了2个函数:getData()用于获取数据,使用for循环获取多个页面的数据,解析后的数据保存到列表中;saveData(datalist, savepath)用于保存数据,参数datalist是保存的数据,参数savepath是保存的路径,写入数据时使用了双重循环。

from selenium import webdriverimport timeimport requestsfrom bs4 import BeautifulSoupimport xlwt             # 电子表格操作模块browser = webdriver.Chrome(r'C:\Users\guo\Desktop\renshe\chromedriver.exe')headers = {        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',    }browser.get('https://网址/register/#/login?_k=ax56bx')browser.find_element_by_xpath('/html/body/div/div/div/div[2]/div/div[2]/div[1]/div[2]/form/div[3]/span[2]/input').send_keys('用户名')browser.find_element_by_xpath('/html/body/div/div/div/div[2]/div/div[2]/div[1]/div[2]/form/div[4]/span[2]/input').send_keys(',密码')time.sleep(1)browser.find_element_by_xpath('/html/body/div/div/div/div[2]/div/div[2]/div[1]/div[2]/form/div[6]/button[1]').click()time.sleep(1)def getData():      # 获取数据函数    datalist = []         # 总的数据列表    for i in range(1,65):        url = 'https://网址/ApplyCollegeNew?page='+str(i)        page_text = requests.get(url=url, headers=headers, timeout=10).text        # 实例化bs对象,加载页面源码        soup = BeautifulSoup(page_text, 'lxml')        # 数据解析,返回列表[]        li_list = soup.select('#collegesLists > li')        # 循环列表        for li in li_list:            data = []   # 定义列表,用于保存每一行的数据            title=li.select('.collegeFeature >h3>a')[0].string            data.append(title)            detail=li.select('.collegeFeature')[0].text            data.append(detail)            datalist.append(data)  # 将每行列表添加到总列表    return datalistdef saveData(datalist, savepath):    print('save....')    book = xlwt.Workbook(encoding='utf-8')    sheet = book.add_sheet('大学列表', cell_overwrite_ok=True)    col = ('学校名称', '其他说明')    # 表头字段名的写入    for i in range(0, len(col)):            # 元组是不可变的,len取长度        sheet.write(0, i, col[i])     # 列名    # 数据记录的写入    for i in range(0, len(datalist)):       # 使用len(列表)获得长度        data = datalist[i]        for j in range(0, len(data)):            sheet.write(i+1, j, data[j])    book.save(savepath)    print('save ok....')if __name__ == "__main__":    savepath = '大学数据.xls'    datalist = getData()    saveData(datalist, savepath)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_744096.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

YDOOK :STM32 : stm官方网站 官方芯片手册下载方法

YDOOK :STM32 : stm官方网站 官方芯片手册下载方法 1. 登录官方网站: STM32 中国网: https://www.stmcu.com.cn/ STM32 国际网: https://www.st.com/content/st_com/en.html 2. 进入STM 中文网的: [ 设计资源 ] &…

xshell连接服务器显示乱码_wordpress零基础建站(2)-购买腾讯云服务器并登录

今天我们讲如何购买国内云服务器,众所周知国内云服务器的价格比较昂贵,正常售价1核2G1M的云服务器一年也要1000块,今天我建议有建站需求的小伙伴抓紧上车云服务商的双十一活动,88买一年1核2G1M服务器,288买3年1核2G1M服…

aws s3 獲取所有文件_通过亚马逊 S3 和 Cloudflare 免费托管网站

原文:https://chinese.freecodecamp.org/news/how-to-host-your-personal-website-for-free/在过去的五年左右时间里,Web 变化很大,曾经 dev-op 实践被奉为圭臬,如今却略显过时。发布网站到线上,过去的标准做法是给服务…

c++多久能精通_新手学习SEO一个月能学会吗?

很多刚接触学习SEO的朋友都会问:“新手学习SEO需要多久,一个月能学会SEO吗?“这个问题,首先我想在这里问的:”学会“是怎样的一个定义?如果你想学习编辑刚刚更新了一篇文章,发外链,写…

展会网站建设 服务器选择很重要,展会搭建为什么需要不断的进行比稿和选择...

就有很多的参展商都有的一个经历,就是如果你想进行举办一个成功的展会,那么一定要在初期的时候对展会搭建进行不断的比稿和选择。这是因为现在的搭建市场质量参差不齐,很多的搭建方存在偷工减料鱼龙混杂,导致整个的展会搭建非常的…

【PHP】Sublime下PHP网站开发指南

Sublime下PHP网站开发指南 作者:白宁超 2017年3月16日11:03:17 摘要:随着单位开发项目的需求,关于政务办公多年来一直使用php开发管理平台。笔者早年asp开发经验算是有些帮助,但是之前从未接触过php,如何快速上手还是费…

前端让网站首页加载动画在显示内容

最近遇到了一个需求就是网站在加载时先加载一个动画,点击动画的任意位置在出现首页内容 试了很多种方法,自己想了一种思路 1,首先把首页内容和动画内容分开,body先设置display:none,隐藏 2,写js这里的意思…

IIS网站部署报错解决办法

出现该种错误解决办法: 1. 管用员权限进入cmd命令提示符界面,执行命令"cd C:\Windows\Microsoft.NET\Framework64\v4.0.30319", 运行: aspnet_regiis.exe -i 注意:32位操作系统路径是C:\Windows\Microsoft.N…

简单代码实现 网站灰色蒙版

给网站加灰色蒙版 就是下面的一点点代码 -webkit-filter: grayscale(1);filter: grayscale(1);也可以这样 -webkit-filter: grayscale(100%);-moz-filter: grayscale(100%);-ms-filter: grayscale(100%);-o-filter: grayscale(100%);filter: grayscale(100%);filter: progid:…

iis6.0服务器同时设置多个网站,iis6.0同时运行.net2.0和net4.0的配置方法

前几天在一个IIS6.0上配置两个网站,本以为很简单,因为配置了10多年,非常熟悉了,但是当配置完毕运行后,却出现了从没遇到过的问题:两个网站不能同时运行,当先访问A站,再访问B站时就报…

解决火车头7.6版本对一些https网站的采集报错问题

针对火车头7.6爬取https网站报错System.Net.HttpWebRequest问题的处理方案 1.先看看火车头7.6爬取https网站时出现的报错情况 System.Net.HttpWebRequest 2.废话不多说,先看看解决方案的vb.net教程效果,可以看到已经没有报错了,而且标题也采…

vue3项目网站自适应大屏幕宽度(width>1920)

vue3项目自适应屏幕宽度 安装插件:lib-flexible、postcss-px2rem、px2rem-loader cnpm install lib-flexible --save cnpm install postcss-px2rem --save lib-flexible是来作为移动端适配的解决方案的,postcss-px2rem将代码中px自动转化成对应的rem的…

用php写的亲亲鲜花网站_用Flask写一个极简版课堂测验网站(2)

今日实现&#xff1a;学生名单导入和登录判定名单导入功能的基本实现&#xff1a;upload.html<html lang"en"><head> <meta charset"UTF-8"> <title>文件上传title>head><body><h1>导入EXCEL文件h1>&l…

网站更换国外服务器,备案被注销替换外国服务器?这样合理吗?

备案被注销替换外国服务器&#xff1f;这样合理吗&#xff1f;关于域名备案的话题最近很多网友在询问&#xff0c;针对这个话题&#xff0c;相信很多人都有自己的见解&#xff0c;今天查ICP网的编辑就针对以上问题来给大家做一个解答&#xff0c;也希望这个解答可以让很多对于域…

scrapy爬虫框架你还不会吗?简单使用爬虫框架采集网站数据

前言 本文的文字及图片过滤网络&#xff0c;可以学习&#xff0c;交流使用&#xff0c;不具有任何商业用途&#xff0c;如有问题请及时联系我们以作处理。 本篇文章就使用python爬虫框架scrapy采集网站的一些数据。 Python爬虫、数据分析、网站开发等案例教程视频免费在线观看…

Python爬取视频网站弹幕,并做成词云图

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 作者&#xff1a;张同学 来源&#xff1a;凹凸数据 Python爬虫、数据分析、网站开发等案例教程vb.net教程视频免费在线观看 https://www.xin3721.com/eschool/pythonxi…

Python爬虫入门教程15:音乐网站数据的爬取

基本开发环境&#x1f4a8; Python 3.6 Pycharm 相关模块的使用&#x1f4a8; import requests import os 安装Python并添加到环境变量&#xff0c;pip安装需要的相关模块即可。 一、&#x1f4a5;明确需求 爬取某音乐网站的排行榜歌曲。 二、&#x1f4a5;网页数据分析 1、…

建站记录2-CSS文件未加载-已解决-Resource interpreted as Stylesheet but transferred with MIME type text/plain

在本地加载正常&#xff0c;上传到服务器之后&#xff0c;网页没有样式。 解决问题的过程&#xff1a; 是否路径问题&#xff1f; —>分析&#xff1a;应该不是路径问题。页面中引用了图片&#xff0c;路径格式与CSS文件相同&#xff0c;图片可以正确加载。 —>操作–需…

快速把网站变成纯灰度显示,filter的使用

在html标签加上 <style>html {filter:progid:DXImageTransform.Microsoft.BasicImage(grayscale1);-webkit-filter: grayscale(100%);} </style>filter https://developer.mozilla.org/zh-CN/docs/Web/CSS/filter filter CSS属性将模糊或颜色偏移等图形效果应用…

C# 关于爬取网站数据遇到csrf-token的分析与解决

需求 某航空公司物流单信息查询&#xff0c;是一个post请求。通过后台模拟POST HTTP请求发现无法获取页面数据&#xff0c;通过查看航空公司网站后&#xff0c;发现网站使用避免CSRF攻击机制&#xff0c;直接发挥40X错误。 关于CSRF 读者自行百度 网站HTTP请求分析 Headers …