python爬取内容乱码_Python爬取网站返回的内容为乱码解决方法

news/2024/5/9 16:55:20/文章来源:https://blog.csdn.net/weixin_31746149/article/details/114445122

1、爬取某网站内容时,返回的结果为乱码,如图:

d62b881ddcdf0ac0700d789f7893d9e6.png

2、写在前面的解释

Requests会基于HTTP头部响应的编码做出有根据的推测,当访问r.text时,Requests会使用其推测的文本编码。

查看网页返回的字符集类型:r.apparent_encoding

查看自动判断的字符集类型:r.encoding

37c0eeb0444568266860feb8b1419c57.png

可以看到Requests推测的文本编码(ISO-8859-1)与源网页编码(utf-8) 不一致,因此会导致乱码问题的出现。

注:源网页也能直接查看编码格式,如下图:

241e7cd2d97811e90b56ae526ffe3218.png

3、解决方法

这里要注意顺序,需要先指定r.encoding的编码格式,再访问r.text。即第9行代码必须写在第10行代码之前。

(1)方法一:直接指定r.encoding为源网页的编码格式

r.encoding="utf-8"

c6afcf6758b0536b82fcbd32ed039e6e.png

(2)方法二:通过r.apparent_encoding属性来指定,直接将其值赋给r.encoding

r.encoding = r.apparent_encoding

4fda7f3906d73ef1ec29a12ad0e8d0e3.png

(3)方法三:通过编码、解码的方式

11f32c11f0a47db61faa6330bf4b5372.png

4、乱码问题解决

576772c8eae4ba99599fd0218a9e7387.png

--------结束----------

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_725150.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于php留言本网站的搭建

1.检查php,http服务是否安装 [rootlocalhost ~]# rpm -qa | grep http httpd-tools-2.4.6-40.el7.centos.x86_64 httpd-2.4.6-40.el7.centos.x86_64[rootlocalhost ~]# [rootlocalhost ~]# rpm -qa | grep http-bash: [rootlocalhost: 未找到命令 2.检查到没有安…

axure web组件下载_04网站设计关于axure原型预览文件访问慢的原因

01背景最近发现原来的原型预览访问速度超级慢,这一切貌似是最近调整了下Axure原型中的几个元件,上传之后,原本访问超级快的文件,变的超级超级慢。02原因分析过程1、首先直接从服务器角度找原因。自认为服务器可能是宽带不够&#…

css3网站代码 html5_HTML5和css3(一)

一、什么是 HTML5HTML5 的概念与定义是一个新版本的 HTML 语言,定义了新的标签、特性和属性拥有一个强大的技术集,这些技术集是指:HTML5 、CSS3 、javascript, 这也是广义上的 HTML5定义:HTML5 定义了 HTML 标准的最新版本&#x…

mysql投票网站_PHP+Mysql实现网站顶和踩投票功能实例

PHPMysql实现网站顶和踩投票功能实例,通过记录用户IP,判断用户的投票行为是否有效,该实例也可以扩展到投票系统中。首先我们在页面上放置“顶”和“踩”的按钮,即#dig_up和#dig_down,按钮上分别记录了投票的票数以及所…

openresty 交给php,openresty搭建网站防火墙

实现一个简单的防火墙,例如:当我提交一个 select * from 疑似 sql注入的参数时,则会直接被拦截下载waf配置:wget https://github.com/loveshell/ngx_lua_waf/archive/v0.7.2.tar.gz解压文件并将./config.lua,./init.lua,./waf.lua,./wafconf/*文件移动到你的项目目录例如在上篇…

学习MVC之租房网站(六)-用户登录和权限控制

在上一篇<学习MVC之租房网站&#xff08;五&#xff09;-权限、角色、用户管理>完成了权限、角色、用户的增删改查&#xff0c;现在将基于前面完成的内容&#xff0c;进行后台用户登录和权限控制功能的开发。 一、用户登录 用户登录涉及到密码的MD5校验、验证码、Session…

普通网站用双路cpu服务器,双路服务器怎么设置CPU

双路服务器怎么设置CPU 内容精选换一换云游戏场景&#xff0c;需要配置专业显卡。具体的场景典型配置如下&#xff1a;问题现象用户配置完成应用发布资源后&#xff0c;通过云堡垒机首次访问应用发布资源&#xff0c;不能正常访问。可能原因原因一&#xff1a;应用程序启动路径…

Web网站实现Google登录

一、打开谷歌控制台&#xff1a;https://console.developers.google.com/apis 二、点击创建凭据&#xff0c;如下图&#xff0c;填写项目地址等 三、创建好客户端ID和秘钥后&#xff0c;填写对应的项目网址和登录页网址 四、修改OAuth同意屏幕网站首页地址和隐私政策网址 五、代…

java如何截取网页数据_我想用java截取网站上的一条数据怎么截取不下来

展开全部苏宁的这个页面没有class"footer-bd"的&#xff0c;你换个试62616964757a686964616fe59b9ee7ad9431333337393562试&#xff0c;我试了下"footer-bom",这个就能拿到,你测试下&#xff1f;附测试代码&#xff1a;import java.io.BufferedReader;impo…

根据网站错误页面判断服务器和系统服务

判断容器 随便找一个网站&#xff0c;比方说这个&#xff1b;https://777kuu.com/ &#xff0c;在网址后面加上不可能存在的东西&#xff0c;比方说&#xff1a;https://777kuu.com/123.jpg ,让他暴露错误信息 像这样白底黑字加红字的就是windows 2008 R2 IIS7.5或IIS7.0 像…

《大型网站技术架构:核心原理与案例分析》读书笔记-高可用

万无一失&#xff1a;网站的高可用架构 1.网站可用性的度量 网站的页面能完整呈现在最终用户面前&#xff0c;需要经过很多个环节&#xff0c;任何一个环节出了 问题&#xff0c;都可能导致网站页面不可访问。DNS会被劫持、CDN服务可能会挂掉、网站服务 器可能会宕机、网络交换…

在自己软件上上传图片没问题到iis发布上就不能_Azure 上使用 Windows Server Core 运行 ASP.NET Core 网站...

点击上方蓝字关注“汪宇杰博客”导语微软智慧云 Azure 上虽然早就有 App Service 这种完全托管的 PaaS 服务可以让我们分分钟建网站。但是不自己配一下环境&#xff0c;就不能体现技术含量&#xff0c;容易被说微软的人都只会点鼠标。年轻的时候不敲命令&#xff0c;什么时候可…

如何在oracle中下载java,如何在oracle官方网站下载JavaSE官方文档

想要學習JAVA,卻又不知道無從下手。不知你是否有這樣的經歷。好不容易把JAVA JDK給下載下來了,也弄清楚了什麼是JDK、JRE、JAVA2、JAVA SE、JAVA EE等一大堆亂七八糟的概念。把JDK與ECLIPSE下載好後,配置開發環境。之後你需要的是JDK API文檔,此類API文檔有兩種方法獲取,一種是…

鸿蒙应用开发在线体验网址,华为鸿蒙应用开发在线体验网站上线,实现跨设备应用协同...

描述华为鸿蒙系统不仅仅是支持华为智能手机&#xff0c;还有应用在平板电脑&#xff0c;智能手表&#xff0c;智能电视以及其他设备上&#xff0c;是一个跨平台的操作系统。华为HarmonyOS应用开发在线体验网站现已上线。开发者可以通过在线体验“To-Do List”Demo&#xff0c;了…

golang 删除文件_Golang丨Java丨Python爬虫实战—Boss直聘网站数据抓取

我们分别通过Golang、Python、Java三门语言&#xff0c;分别实现对Boss直聘网站的招聘数据进行爬取。首先打开Boss直聘网站&#xff1a;然后我们在职位类型中输入Go或者Golang关键字&#xff1a;然后我们可以看到一个列表&#xff0c;和Go语言相关的各种招聘职位&#xff0c;还…

linux服务器安装openwrt,探索openwrt安装宝塔,搭建web网站论坛社区网校

本帖最后由 离人难拥 于 2021-3-14 12:35 编辑本人小白新手&#xff0c;linux命令也不熟悉&#xff0c;学习&#xff0c;有老师的话请指教先认识一下openwrtOpenWrt 可以被描述为一个嵌入式的 Linux 发行版。(主流路由器固件有 dd-wrt,tomato,openwrt,padavan四类)对比一个单一…

蛋白结构建模与优化_这 11 个可以预测蛋白质结构的网站,通通都安利给你!...

蛋白质是生命活动的体现者&#xff0c;其结构决定着功能。由线性氨基酸组成的蛋白质需要折叠成特定的空间结构才具有相应的生理活性和生物学功能。解析蛋白质的空间结构对于认识蛋白质的功能、功能的执行、生物大分子间的相互作用&#xff0c;以及医学和药学的发展(如药物靶点的…

反向索引和自增索引区别_站外SEO入门:了解反向链接的最重要因素

如我们之前就提到过的&#xff0c;搜索引擎优化通常分为两个不同的类别&#xff1a;站内搜索引擎优化又称为站内SEO站外搜索引擎优化又称为站外SEO如果您想了解有关SEO优化的更多信息&#xff0c;请阅读本文。在本文中&#xff0c;我们讨论站外SEO及其最重要的方面&#xff0c;…

seo从入门到精通_SEO入门到精通(六):百度、360、搜狗、谷歌搜索引擎的区别...

常见的搜索引擎有百度、360、搜狗、谷歌等。它们的功能都是从互联网上搜集信息&#xff0c;在对信息进行组织整理&#xff0c;为用户提供搜索服务的。那么&#xff0c;不同的搜索引擎的优化策略有什么不同&#xff1f;简单来说&#xff0c;同为搜索引擎&#xff0c;其搜索原理、…

网站注册中常用的一种倒记时特效代码

网站注册中常用的一种倒记时特效代码效果图&#xff1a;在会员注册时很多网站都有一份协议或条款提供给用户阅读&#xff0c;又为了避免部分用户不阅读而直接点击"我同意"按钮跳过&#xff0c;通常的方法便是在一段时间内使按钮失效&#xff0c;实现方法如下&#xf…