python爬虫加密空间_python爬虫反反爬,你几乎可以横扫大部分 css 字体加密的网站...

news/2024/5/15 22:25:09/文章来源:https://blog.csdn.net/weixin_42309773/article/details/114446659

接下来就是

学习 python 的正确姿势

bb019fa61ca81831bd4d71f72b3a99e1.png

有人说了

不就是把字体通过 unicode 编码吗?

9106ec1365e34883bb1484374fdde61d.png

那就简单了啊

把每个字的编码找到

然后使用字典把编码和对应的字对应起来

抓取分析的时候

直接替换不就得了

46345e1de4df6a31faca27ca31e8b545.gif

有道理是有道理

但是

如果我每次返回给你的编码都不一样呢?

你说死不死

e90000eedaaab766668adefd4312539b.png

好了好了,先别哭得那么舒服

我们来看看天猫电影票房榜单的页面

https://maoyan.com/board/1

97f5ab7542e1ac3efaa66c8d87645326.png

d1ccdb42a9e5270cd255851a2c3d8938.png

正如你所看到的那样

这里也使用了字体加密

通过源代码我们可以看到

font-face这里制定了字体文件路径

00dd1f0815dc6084ed6c2223f8f235ec.png

还是熟悉的配方

熟悉的味道~

3cf304d05dfb05bc988c0b596329ab93.png

不过小老弟

还是不要开心太早

刷新几次你就会发现

(盯着下图 2 秒钟)

29ec9d7e10ab2c1aef35439bcf970bb0.gif

看到没有

字体文件一直在变

woc!

玩呢?

804f6bb5ad58d41754733467199e7a15.png

c477665c7a697c7697789bc0995b356e.png

我们先把字体文件下载下来

# 把整个页面搞下来

url = 'https://maoyan.com/board/1'

html = download_html(url).decode('utf-8')

用正则把字体文件名拿一下

font_file_name = re.findall(r'//vfile.meituan.net/colorstone/(w+.woff)', html)[0]

拿到了文件名之后就构建一下url

然后把字体文件下载下来

url = 'http://vfile.meituan.net/colorstone/' + font_file_name

font_file = download_html(url)

接着把字体文件写到本地文件中

with open('fonts/' + font_file, 'wb') as f:

f.write(new_file)

使用 fontTools 来获取字体

如果你之前没安装的话要安装才能用

接着我们把字体文件保存为 xml

font = TTFont('fonts/' + font_file)

font.saveXML('./'+font_file+'.xml')

ea46962c24235cbe704e6f797fc32898.png

快打开打开看看

330c0f00f40f18901ccc84e6f32539be.png

哇,这些玩意

有点眼熟啊

这不就是加密的 unicode 码么

左边的 id 难道就是对应的数字?

cb501e81e5ca9a2e353ce619fdceb9e6.png

恩没那么简单

就能找到聊得来的伴

尤其是在看过了那么多背叛

总是....

26fdb7a54f645cccd33c492c1e985c7a.png

不好意思

走错片场了

回到我们刚刚的 xml 文件

往下拉一下

可以看到这个

09441450fedec8d05737f08b23f49ed9.png

这里每一个编码都对应一个 TTGlyph 对象

从各种 x y 坐标可以猜测

它应该是用来绘制一个字的

我们把任意一个对象复制一下

然后用 matplotlib 根据坐标画个图试试看

import matplotlib.pyplot as plt

import re

str = """"

.....此处省略一点代码

"""

x = [int(i) for i in re.findall(r'

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_764240.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站性能优化—CRP

为了把HTML、CSS和JavaScript转化成活灵活现、绚丽多彩的网页,浏览器需要处理一系列的中间过程,优化性能其实就是了解这个过程中发生了什么-即CRP(Critical Rendering Path,关键渲染路径)。首先,我们从头开始快速学习一下浏览器是…

云服务器 ECS 建站教程:SVN的搭建和使用

SVN的搭建和使用简介 Subversion(SVN) 是一个开源的版本控制系統, 也就是说 Subversion 管理着随时间改变的数据。 这些数据放置在一个中央资料档案库(repository) 中。 这个档案库很像一个普通的文件服务器, 不过它会记住每一次文件的变动。 这样你就可以把档案恢复到旧的版本…

大型网站的 HTTPS 实践(一): HTTPS 协议和原理

大型网站的 HTTPS 实践(一): HTTPS 协议和原理 1 前言 百度已经于近日上线了全站 HTTPS 的安全搜索,默认会将 HTTP 请求跳转成 HTTPS。本文重点介绍 HTTPS 协议, 并简单介绍部署全站 HTTPS 的意义。 2 HTTPS 协议概述 HTTPS 可以认…

自适应网站设计对百度友好的关键:添加applicable-device标签(转)

现在很多网站都使用了自适应网页设计(Response-Web-Design),以满足庞大的移动端用户群的需要。但是在技术上设计了自适应的网页之后,出于SEO的考虑,你还要照顾到如何对百度更友好,即告诉百度“我是自适应页…

Ubuntu 网站服务器环境搭建

如果想用Ubuntu作为网站的服务器,一些基本的服务是必备的。本文对环境的搭建做一个简单的整理。 Appach Apache是世界使用排名第一的Web服务器软件。它可以运行在几乎所有广泛使用的计算机平台上,由于其跨平台和安全性被广泛使用,是最流行的W…

一个非常不错的背景纹理图的网站

今天闲逛的时候发现的:http://subtlepatterns.com/。里面的纹理图质量都非常高,并且预览也非常方便,无需注册即可下载,这里强烈推荐下。

好书分享:《SEO实战密码》第3版

影响了整整一代SEOer的《SEO实战密码:60天网站流量提高20倍》出第3版了,相信这本书定能再续辉煌,为当下SEO圈传递更有价值的内容、更多正能量,指导更多企业、站长做好网站与推广,此书值得收藏。非常意外,也…

在LAMP环境下搭建Discuz论坛网站

作为一名Linux菜鸟学员,我在搭建好LAMP环境后,闲来无聊,尝试建站,因此选择Discuz论坛站点。在搭建站点时,首先下载Discuz套件,1.wgethttp://download.comsenz.com/DiscuzX/3.1/Discuz_X3.1_TC_UTF8.zip2.un…

本地运行ASP.NET 网站组件CYQ.IIS发布--网站项目展示必备工具

前言:曾经,为了让秋色园更方便的在本地运行部署,辛苦写了一个“秋色园QBlog博客一键安装工具技术实现[附源码下载] ”。 不过这个工具也有一些不足,比如Win7就会出问题,另外IIS装的不好,也会有问题&#xf…

【转】关于大型网站技术演进的思考(十五)--网站静态化处理—前后端分离—中(7)...

上篇里我讲到了一种前后端分离方案,这套方案放到服务端开发人员面前比放在web前端开发人员面前或许得到的掌声会更多,我想很多资深前端工程师看到这样的技术方案可能会有种说不出来的矛盾心情,当我的工作逐渐走向越来越专业化的前端开发后&am…

【转】大型网站架构演变和知识体系

大型网站架构演变和知识体系 之前也有一些介绍大型网站架构演变的文章,例如LiveJournal的、ebay的,都是非常值得参考的,不过感觉他们讲的更多的是每次演变的结果,而没有很详细的讲为什么需要做这样的演变,再加上近来感…

查找网站的IP地址的两种方法

一、浏览器查询 1、打开任意一个浏览器,在输入框输入“IP查询”,会出现多个查询页面点击相关网址即可。 2、在其中输入要查询的网址域名后点击查询即可,下方解析地址即为该网站的IP地址。以CSDN为例:www.csdn.com。 二、CMD命令查询 打开电…

c# 将图片转成透明背景的png 源代码_这五个免费的图片素材网站,让你不再为找素材而烦恼...

阿里巴巴矢量图库阿里巴巴不矢量图库是阿里巴巴的图标素材库,里面的图标素材具有以下特点:数量大,种类全,可自由变换颜色,可选择PNG,SVG 以及 AI 3种格式。比如我们搜索一个电脑:可以看到出现了…

检查网站目录下有bom的文件并移除bom

2019独角兽企业重金招聘Python工程师标准>>> <?php//remove the utf-8 boms//by magicbug at gmail dot comif (isset($_GET[dir])){ //config the basedir$basedir$_GET[dir];}else{$basedir .;}$auto 1;checkdir($basedir);function checkdir($basedir){if …

查询ecshop网站代码排查方法_「干货」连续行为事件的查询方法与实现(附代码)...

在日常业务中&#xff0c;客户行为事件表往往存储的是客户&#xff0c;行为明细&#xff0c;关键字段包括姓名、日期、事件标志等。为考察客户某一行为的连贯性&#xff0c;经常需要查询客户是否存在连续行为&#xff0c;如是否连续登录、连续签到、连续欠息、连续#逾期#等。#S…

【Android开发】网路编程及Internet应用-从指定网站上下载文件

利用前面学过的HttpUrlConnection和文件输入输出流来完成从Android端下载指定站点的文件。写一个编辑框&#xff0c;用来输入要下载文件的URL路径&#xff0c;下面一个按钮&#xff0c;点击实现文件下载res/layout/main.xml:<?xml version"1.0" encoding"ut…

网站架构资料收集整理

1.系统概况图 图1.1 系统架构概况图 图1.2 较为完整的系统架构图 2.系统使用的主要技术 下列排名不分先后 2.1前端 JavaScript&#xff0c;html&#xff0c;css&#xff0c;silverlight&#xff0c;flash Jquery Javascript类库&#xff0c;用来简化html的操作&#xff0c;事件…

jquery.superslide.js插件网站焦点新闻图片选项卡自动切换效果代码

2019独角兽企业重金招聘Python工程师标准>>> jquery.superslide.js插件网站焦点新闻图片选项卡自动切换效果代码http://www.17sucai.com/pins/7117.html 转载于:https://my.oschina.net/u/1266171/blog/670036

Python之Scrapy爬虫(热门网站数据爬取)

第一关&#xff1a;猫眼电影排行TOP100信息爬取 代码&#xff1a; item.py文件 import scrapy class MaoyanItem(scrapy.Item):#********** Begin **********#name scrapy.Field()starts scrapy.Field()releasetime scrapy.Field()score scrapy.Field()#********** End…

2015年免费的25款 WordPress 网站模板

2015年 WordPress 插件和主题的数量继续在增长。这一年&#xff0c;我们可以期待WP主题引入一些新的技术&#xff0c;从背景&#xff0c;自适应响应式图像到从背景图片中提取主色。 本文包含25款最近发布的 WordPress 主题列表。这些主题都是优质&#xff0c;免费的&#xff0c…