前端反爬思考,好友从百度搜到了我的文章,链接却是别人的

news/2024/4/29 23:12:14/文章来源:https://blog.csdn.net/xingyu_qie/article/details/127777583

今天感叹可以改完八阿哥早点下班,在吃饭的时候,就想着自己也写了一段时间了,看看百度这个强大的引擎能不能搜到我的博客文章。

1、发现文章被爬走了

        吃饭的时候用手机搜的,感觉还挺开心,我还给朋友炫耀,你看,百度搜到的第一篇就是我的文章,而且还并非用我文章的标题搜索的,搜的是 2023年前端趋势

        后来打开电脑在思考,今天写点什么呢,于是怀着异常嗨皮的心情,用PC电脑打开百度搜索了一下,第一眼挺开心,但后来就不开心了,这明显不是我每天参与的社区CSDN啊,打开进去一看,文字还是那些熟悉的文章,截图还是那些熟悉的截图,但去了别人网上了,而且貌似阅读量比我的还高。

        

         于是我打开了客服,问问有没有办法,毕竟深夜码字不易,大家写博客的很多和我应该有同样的心情,刚开始没有粉丝,没有阅读量很发愁,于是拼命的写,写着写着把自己那点干货写完了,发现还是没有效果。但是排名,阅读量还是上不去,你就说熬了一夜又一夜,是不是很沮丧,曾经多少次都想放弃。 

        

        

2、一点思考

        其实现在技术挺强大的,网络充斥着各种各样的烟雾弹,让人防不胜防,你想好好写一篇博客吧,也能被爬走,你说你如果说明了转载自哪里哪里,我也觉得开心一些,毕竟自己的认知被别人所接受了,然后希望可以拿到更远处,散播给更多需要帮助的人。但这全然不是啊。

        之间我们探讨过一个问题,你的职业未来发展方向在哪里?

        比如前端,java,越来越成熟,比如vue react,之前颠覆了jquery ,angular ,现在慢慢变成了最熟人所用的前端技术栈,那么未来想要再次颠覆可能就很难了。

        现在我们的网站都有自己的技术团队,那么你做的东西,可能技术点还是次要,数据才是最重要的。但对于现在越来越成熟的爬虫技术,我们是否能形成自己的反爬虫技术呢?

3、对于前端开发,我们可以反爬吗?

        这个大数据时代,如果你想做一家网站,或者就是做一个知识网站,怎么可能花钱顾那么多人去写呢,所以phython一把,丰衣足食。

        而现在phython工程师那么值钱,肯定是有大量的反爬技术的,也就是说这些爬手工程师其实也在不断精进自己的技术。他们也得背面试题,也得不断的游走面试。

        爬虫首先爬的还是一些比较重要有含金量的东西,否则网络上海量的数据都爬过去,相比他们就算拥有10个阿里云也承受不住。他们可能使用的某些热门的链接,热门的关键词,先通过现有的搜索引擎进行搜索。

headers

        搜索到链接以后,遍历进行url访问,type以HTML的形式获取HTML文档内容,然后进行内容存库,这样就在他们的服务器形成了一篇文章。

        所以我们在开发一个网页或者一个接口的时候,请求到服务端应该时候带有自己团队设定的headers请求头的,比如origin的设置,当服务端监测到origin不在白名单,是无法正常返回数据的。

        其实headers的内容,一旦爬手发现规律后,也是可以仿造的,但这也给爬手们增加了一定的难度

JS加密

        比如base64 MD5 hash DES等手段,我们与服务端传输过程中的数据是加密过的,而爬虫爬过去的数据很明显是杂乱的,没法使用的。

        我们都知道前端加密其实也并不太可靠,他需要与服务端形成一定的加密解密共识。而且前端目前还是必须要加载JS CSS文件进行页面渲染的,所以这种手段其实可以一定程度的抵抗爬重技术。

前端验证码

验证码都见过哪几种形式呢?4位扭曲的数字图片?还是需要滑动对应的图形,亦或是图片上显示着 X + Y = ? 然后让口算,还是12306上8张图片,让你选择哪杯是茅台?这些都无形中加大了作弊的难度,因为服务端必须要求有一个验证码的值,所以人都不知道哪杯是茅台,爬虫能知道?

人为八阿哥

做为资深程序员,谁每天还不写俩八阿哥,要不测试怎么吃饭,怎么会有那么多线上问题。而一旦这个页面被爬走,你的bug将不再只是你个人的bug,你的bug将赋能与他人,你的bug也会慢慢成长,万一能把它们的系统搞崩溃呢

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_223822.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Import Error: from torchtext.data import to_map_style_dataset解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。喜欢通过博客创作的方式对所学的知识进行总结与归纳,不仅形成深入且独到的理…

电子统计台账:快速设置产品的排除与保留

目录 1 基础操作 2 设置垂直过滤模板 2.1 排除法 2.2 保留法 3 完成其他设置 4 小提示:项目导入导出 实践中,企业数据文件中可能有很多产品,中间混杂诸如“累计”、“合计”、“报表人”、“企业负责人”等信息。我们需要用简单的操作完…

洛谷千题详解 | P1018 [NOIP2000 提高组] 乘积最大【C++、Python、Java、pascal语言】

博主主页:Yu仙笙 专栏地址:洛谷千题详解 目录 题目描述 输入格式 输出格式 输入输出样例 解析: C源码: Python源码: Pascal源码: Java源码: -------------------------------------------------…

苯丙氨酸甲酯双三氟甲基磺酰亚胺[PheC1][Tf2N]氨基酸酯离子液体

苯丙氨酸甲酯双三氟甲基磺酰亚胺[PheC1][Tf2N]氨基酸酯离子液体 纯度:95% 外观与形状:液体/固体, 储存:存放于惰性气体之中 应避免湿气 (吸湿) 包装规格(Packing):50g、100g、500g 保存方法:密闭,阴凉,通风干燥处 氨基酸酯…

返回Series或DataFrame中指定列中指定数量的最小值nsmallest()函数

【小白从小学Python、C、Java】 【计算机等级考试500强双证书】 【Python-数据分析】 返回Series或DataFrame中 指定列中指定数量的最小值 nsmallest()函数 [太阳]选择题 下列说法错误的是? import pandas as pd mySeries pd.Series([31, 21, 11]) print("【显示】mySer…

Numpy手撸softmax regression

算法介绍 Softmax 回归(或多项逻辑回归)是将逻辑回归推广到我们想要处理多个类的情况。 在逻辑回归中,我们假设标签是二元的:y(i)∈{0,1}y^{(i)} \in \{0,1\}y(i)∈{0,1},我们使用这样的分类器来区分两种手写数字。 Softmax 回归…

C#项目实战|人脸识别考勤

此文主要通过WinForm来制作的一个人脸识别考勤打卡程序,有兴趣的小伙伴可以接入到打卡机上。 一、实现流程1.1、创建项目1.2、设计页面1.3、创建应用1.4、获取Token及参数解析1.5、与人脸数据比对并展示一、实现流程 1.1、创建项目 打开Visual Studio,右…

值得入手的键盘——Keychron K8 Pro

目录 一、前言 二、介绍 三、上手体验 四、总结 一、前言 在如今,外设产品市场相当火爆的时代,拥有诸多知名的品 牌,而一个新品牌要在竞争非常激烈的情况下站稳脚跟,实属不易。诞生于2017年的 Keychron 以其品质作为高端战略…

【mcuclub】舵机-SG90

一、实物图(SG90) 二、原理图 编号名称功能1GND电源地(棕色线)2VCC电源正(红色线)3I/O信号线(黄色线) 三、简介 舵机(英文叫Servo),是伺服电机的…

WINDOWS核心编程--Windows程序内部运行机制

现代的桌面应用基本上很少使用原始的 Windows API 进行开发了,因为使用原始 API 堆砌出来的应用代码逻辑非常繁琐,特别是窗口消息的处理非常不方便,大多数直接使用 C# 或者 QT 这种跨平台的开发库,而那种直接封装 Windows API 而存…

C语言经典题目之青蛙跳台阶问题

目录 一、问题描述 二、问题分析 1.当n1时 2.当n2时 3.当n3时 4.n4,n5........nn时 三、代码实现 总结 一、问题描述 一只青蛙一次可以跳上 1 级台阶,也可以跳上2 级。求该青蛙跳上一个n 级的台阶总共有多少种跳法。 二、问题分析 青蛙跳台阶&a…

Spring-Aop面向切面编程

文章目录一、简介1、作用2、AOP核心概念3、五种(增强)通知类型二、AOP入门小案例(注解版)1.导入坐标(pom.xml)2.制作连接点(原始操作,Dao接口与实现类)3:定义通知类和通知4:定义切入点5:制作切面6:将通知类配给容器并标…

【Linux】第十一章 进程信号(概念+产生信号+阻塞信号+捕捉信号)

🏆个人主页:企鹅不叫的博客 ​ 🌈专栏 C语言初阶和进阶C项目Leetcode刷题初阶数据结构与算法C初阶和进阶《深入理解计算机操作系统》《高质量C/C编程》Linux ⭐️ 博主码云gitee链接:代码仓库地址 ⚡若有帮助可以【关注点赞收藏】…

C++基本知识(二)---函数重载、引用、内联函数、auto关键字

目录 1.函数重载 2.引用 3.内联函数 4.auto关键字(C11) 5.指针空值nullptr(C11) 1.函数重载 重载函数是函数的一种特殊情况,为方便使用,C允许在同一范围中声明几个功能类似的同名函数,但是这些同名函数的形式参数(指参数的个…

CEC2015:(二)动态多目标野狗优化算法DMODOA求解DIMP2、dMOP2、dMOP2iso、dMOP2dec(提供Matlab代码)

一、cec2015中测试函数DIMP2、dMOP2、dMOP2iso、dMOP2dec详细信息 CEC2015:动态多目标测试函数之DIMP2、dMOP2、dMOP2iso、dMOP2dec详细信息 二、动态多目标野狗优化算法 多目标野狗优化算法(Multi-Objective Dingo Optimization Algorithm&#xff0…

瑞吉外卖强化(一):缓存优化

瑞吉外卖强化(一):缓存优化瑞吉外卖 缓存优化Redis基本操作短信验证码 缓存实现缓存菜品数据SpringCache常用注解瑞吉外卖 缓存优化 Redis基本操作 redisTemplate需要配置类 这里的 需要对其进行 序列化操作 reidsTeplate.opsForValue().s…

论文精读:Swin Transformer V2: Scaling Up Capacity and Resolution

论文地址:https://arxiv.org/pdf/2111.09883.pdf 代码地址: GitHub - microsoft/Swin-Transformer: This is an official implementation for "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows". Abstract 本篇论文主要致力于解决大型…

TCP三次握手和四次挥手基本知识

一、概述 TCP是面向连接、可靠的、基于字节流的传输层通讯协议。 如何确定一个TCP连接: 目的IP目的端口源IP源端口 二、TCP建立连接 序列号client_isn和server_isn是随机初始化,可以通过netstat -napt来查看网络状态。 为什么建立连接需要三次握手&…

c++哈希(哈希表闭散列线性探测实现)

文章目录0. 前言1. 线性探测2. 线性探测的代码实现2.0 定义2.1 插入实现--Insert2.2 查找实现--Find2.3 删除实现--Erase2.4 仿函数3. 完整代码实现4. 代码测试并运行结果:0. 前言 闭散列:也叫开放定址法,当发生哈希冲突时,如果哈…

Python画爱心——谁能拒绝用代码敲出来会跳动的爱心呢~

还不快把这份浪漫拿走!!节日就快到来了,给Ta一个惊喜吧~ 今天给大家分享一个浪漫小技巧,利用Python制作一个立体会动的心动小爱心 成千上百个爱心汇成一个大爱心,从里到外形成一个立体状,给人视觉上的冲击…