淘宝、知乎、豆瓣......18个网站的Python爬虫登录汇总,都在这个开源项目里

news/2024/5/10 7:31:39/文章来源:https://blog.csdn.net/githubshare/article/details/91361211

如果你从事数据科学领域,那么获取数据对于你来说就不可或缺,网络爬虫这一关你必须得过,而说到爬虫,大多数人想到的就是Python,因为python不仅编写调试方便,而且能够快速入门,最主要的是相关的类库十分丰富

今天,要和大家推荐的这个项目就是和Python编程有关的,这个项目介绍了如何用 Python 登录各大网站,并用简单的爬虫获取一些有用数据,目前该项目已经提供了知乎、B 站、和豆瓣等 18 个网站的登录方法。

模拟登陆基本采用的是直接登录或者使用selenium+webdriver的方式,有的网站直接登录难度很大,比如qq空间,bilibili等如果采用selenium就相对轻松一些。

每一个网站都会有对应的登录代码,有的还有数据的爬取代码。下面我们以淘宝为例:

爬取淘宝各子标签,按销量排名商品信息,按分类保存至MongoDB

通过pandas进行数据分析

将商品在各省分布、销量排行、地图分布等通过matplotlib绘图显示

以上是淘宝爬虫相关的文件:

taobao.py为模拟登录

剩下的文件为爬虫

模拟登陆的代码如下:

Bilibili自动登录测试正常,成功率98%

如果你还想查看更多示例,可以前往GitHub详情页,而且创建者也鼓励广大开发者提 Issue 或 Pull Requests。

项目地址:https://github.com/CriseLYJ/awesome-python-login-model

 

来源:开源最前线

欢迎关注我的公众号:【编程资源库】 ,关注后回复“我来自互联网”即可领取2000G视频教程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_855245.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中国程序员开发的神奇网站:变量命名神器!

有一种痛,不是程序员可能不懂,但如果是程序员一定懂,那就是给变量或函数命名。 回想一下起名字这条路,刚开始学某个编程语言的时候,26 个字母还能解决问题,26 个不够还能用字母与数字的组合?。但是&#…

如何使用 Python 和 BeautifulSoup 爬取网站!爬虫就该这么玩!

互联网上的信息如此之多,任何人穷其一生也无法全部消化吸收。你需要的不是访问这些信息,而是一种可伸缩的方式,可以用来收集、组织和分析这些信息。你需要的是 Web 爬取。Web 爬取可以自动提取数据,并以一种让你可以轻松理解的格式…

遇到需要的登录的网站怎么办?用这3招轻松搞定!

你好 由于你是游客 无法查看本文 请你登录再进 谢谢合作 当你在爬某些网站的时候 需要你登录才可以获取数据 咋整? 莫慌 小帅b把这几招传授给你 让你以后从容应对 那么 接下来就是 学习 python 的正确姿势 登录的常见方法无非是这两种 1、让你输入帐号和密码登录 2、…

python爬虫教程,爬取任意网站上面的视频!

前言 对于Python爬虫很多人都不陌生,可以用它来批量下载文字、图片、视频等,其中涉及的知识点也是比较多的,但是Python中有一个方法,一行代码就能爬取任意网站上面的视频,只要你安装了Python环境就可以,哪…

Python爬虫,批量下载小说网站上的小说!

爬虫脚本把这个小说网上的几乎所有小说都下载到了本地,一共27000本小说,一共40G。 完整代码: #codingutf-8 2 import urllib 3 import urllib2 4 import re 5 import os 6 7 webroot http://www.xuanshu.com 8 9 for page in range(20,220…

如何使用 Python 和 BeautifulSoup 爬取网站!

互联网上的信息如此之多,任何人穷其一生也无法全部消化吸收。你需要的不是访问这些信息,而是一种可伸缩的方式,可以用来收集、组织和分析这些信息。你需要的是 Web 爬取。Web 爬取可以自动提取数据,并以一种让你可以轻松理解的格式…

江南鹤微信hook c#版已实现webhook,在你的网站中也可以调用hook了

可以将hook软件放在服务器上。在客户端电脑上用web调用即可。 特色: 1 每次登录只显示二维码,不再显示上次登录的用户 2 设置好不自动更新后,会保存。下次用户登录,程序也不会自动更新。 交流vx:weixinhook 第一步…

Python Flask 搭建个人网站

介绍Hello Kuko 是使用PythonFlask这样的组合搭建的网站,虽然其中的功能根本没有。项目已开源到github:kukoapp.pyimport io import json import os import randomfrom flask import Flask from flask import url_for from flask import request from fl…

CentOS 简便方法新手搭建一个网站

该文章写给从来没有搭建过网站的小伙伴们的,大佬们就不要浪费时间看下去了。 只搭建nginx,不搭建后端、数据库等相关服务,目的是让小伙伴能在刚刚学习完Html、css、js之后能够更直观的访问到自己的网页。 如何快速的搭建一个网站呢&#xf…

docnet 开发需要知道的网站!()

当前全球有数百万的开发人员在使用微软的.NET 技术。如果你是其中之一,或者想要成为其中之一的话,我下面将要列出的每一个站点都应该是你的最爱,都应该收藏到书签中去。 对于不熟悉.NET技术的朋友,需要说明一下,.NET…

vs2010发布网站

发布网站步骤: 1、新建网站: 打开IIS,右击网站——>添加网站 填写网站名称(随便写)和应用程序池名称 物理路径选择你要存放发布网站的位置(最好自己新建一个空的文件夹) 点击身份验证下的链…

chrome 打开csdn网站显示有问题

换一个浏览器就不会 这是为啥

详解微软网站三剑客之Graphic Designer

Adobe合并Macromedia后,就不断传来微软开发图形图像和动画软件的消息。不过信息少的可怜,特别是号称Flash杀手的“Sparkle”,除了一条简短的新闻就没别的了。所谓厚积薄发,没想到微软这次一出手就是三款设计软件,看来是…

Ubuntu 12.04下搭建Web网站服务器 (MySQL+PHP+Apache环境)教程

Ubuntu 12.04下搭建Web网站服务器 (MySQLPHPApache环境)教程 作者:木瓜 发布:2012-04-28 22:06 分类:网络 阅读:1832次 10条评论 分享到:QQ空间新浪微博腾讯微博人人网更多10前言 看了…

在网站上添加百度搜索

我们自己开发的个人网站有时需要将百度搜索加上&#xff0c;怎么加呢&#xff1f; 其实很简单&#xff0c;将如下代码加到自己需要的网页上即可&#xff1a; 当然有技术的朋友可以到hao123上参考&#xff0c;将hao123上的百度搜索条拿来自己用。 <form data-hook"sear…

demo4 表格隔行变色效果 onmouseout onmouseover

let trs document.querySelector(tbody).querySelectorAll(tr)for(let i0;i<trs.length;i){// 鼠标经过事件trs[i].onmouseover function(){this.className bg}// 鼠标离开事件trs[i].onmouseout function(){this.className }}

大学四年,靠着这些学习网站,我从挂科学渣变成了别人眼中的大神

原文链接&#xff1a; https://blog.csdn.net/JAck_chen0309/article/details/104780288 前记 毕业合影时&#xff0c;导员笑着对我说“你可是我们系里的风云人物”。我也笑了&#xff0c;思绪却回到了四年前。 还记得四年前&#xff0c;我从小县城里走出&#xff0c;来到学校…

docker-compose 配置 nginx + node + mysql 网站环境

本文需要熟悉 Docker、Node、Nginx 的基础知识&#xff0c;如果不熟悉的同学需要查看文档了解学习后阅读。 Docker - 从入门到实践Node.js v10.15.3 文档Nginx 入门指南 这里开始正文 准备测试代码 初始化一个项目目录&#xff0c;并配置基础的测试代码 简单的一些代码下面不…

为你的网站配置一个小巧的框架( CodeIgniter)

现在的web开发确实已经到了无框架卜欢乐的状态&#xff0c;无论是前端&#xff1a;JavaScript&#xff08;vue.js\react.js\angular.js框架和jQuery库&#xff09;&#xff0c;CSS&#xff08;bootstrap&#xff09;&#xff0c;还是后端&#xff1a;PHP&#xff08;CI/thinkPH…

使用postman测试需要登陆认证网站的api

postman作为一款web开发中必备的神器&#xff0c;有很多只是需要我们去学习 如果想要使用postman测试需要登陆认证网站的api&#xff0c;只需开启一个按钮&#xff1a; 然后在头部添加cookie以及X-CSRFToken&#xff08;因为项目是django&#xff09;