几十万的词如何用每页500词分页展示_如何做好SEO的内容更新 提高收录?

news/2024/5/10 0:27:00/文章来源:https://blog.csdn.net/weixin_39728320/article/details/111037245

6af4710b79382692c40db1b028dc7863.png

已知无用的伪原创手段

《SEO实战密码》 中总结了6种内容作弊手段,这些都已经被百度识别了。无论是同义词替换还是简单在原来文章上做更改,都已经没有收录的几率。其中已经没有用的伪原创手段包括如下:

1 更改(完全重写)标题

2 颠倒段落次序

2 加一段原创,如在最前面加一段内容摘要

3 文字简单增减,如感叹词、修饰词

4 同义词近义词替换

5 强行插入关键词,如在一篇小说中强行插入关键词

AI伪原创有用?

圈子里面用伪原创的站长,反馈飓风3上线后,收录是一天不如一天,比如今天发1000篇伪原创文章,下午就剩下收录500篇,明天收录收录不到100篇,90%以上伪原创内容的都被百度识别掉了。

如下图左边是原文,右边是AI伪原创的结果,可以看到无论是句子顺序还是很多词语,都发生了变化。基本每个句子都不是相同的。最近很多人都热推AI伪原创,认为可以通过百度收录,可以取得排名。

第3代百度原创识别手段:

因为第二代的手段效果很不好,所以百度终于推出了飓风算法( 2017年7月7日上线),而对应的专利在2017年3月底提出的申请,那么时间点也比较吻合。基本思想是对句子使用simhash算法做签名,然后用汉明距离做原创度检测。

0a92ded00c879849293223c0f38e1ee6.png

什么是同义词级别simhash

看不懂没关系,先了解simhash算法一点皮毛,A简单举一个例子,一图胜千言。

如果您是算法专家,可以访问传送门:https://github.com/yanyiwu/simhash了解simhash算法。

f848cebaef9c2b74f8c48e766f637554.png

结论:只相当于违规变成了非法

AI伪原创能过百度原创吗?

基础假设

那么回到AI原创的问题,因为百度飓风3.0按照句子级别的simhash进行去重,我们假设:

前置条件1:对句子长度为100个字,进行伪原创

前置条件2:把句子的签名做对比,伪原创后编辑距离位数小于10,并且汉明距离小于10,并且汉明相似度大于80%

判定结果:抄袭

不了解编辑距离,汉明距离(也叫海明距离)的可以看

百度百科《编辑距离》:https://baike.baidu.com/item/%E7%BC%96%E8%BE%91%E8%B7%9D%E7%A6%BB/8010193?fr=aladdin

百度百科《海明距离》:https://baike.baidu.com/item/%E6%B5%B7%E6%98%8E%E8%B7%9D%E7%A6%BB/4235876?fr=aladdin

你不会编程没事,我们会。我们有现成的分词方法,也有停止词过滤程序,直接用github上的程序。

参考:https://github.com/cmhc/simhash/blob/master/src/simHash.php

随便找了一篇网易的文章,做一下simhash的编辑距离跟汉明距离。

AI伪原创工具评测1:

6c08085c17dfcb978da70b36c5db7109.png

最终结果:

没有过假设的百度原创关,编辑距离为6,海明距离为8,相似度高达87.5%

4722de0f53f87370822551fe1eb09450.png

AI伪原创工具评测2:

不死心,又要了另外一家AI伪原创:

794d8bfb16913d43a8c686cf9b520a4f.png

最终结果:

没有过假设的百度原创关,编辑距离为7,海明距离为10,相似度高达84.3%

38ccc700023ad308194f2172d8ebd2c8.png

AI伪原创工具评测3:

还是不死心,又要了另外一家AI伪原创:

8763a59044ce7296f36af4f4dcd38cbc.png

最终结果:

他xx的什么破AI伪原创,编辑距离只有4,海明距离为6,相似度高达90%!被百度干的渣渣都不剩,别误人子弟好不好?

7f498a700e4b61ea8948a41f9549f658.png

结论

首先、直接伪原创不容易过百度原创

人家百度几千号人来做开发呢,就凭一个伪原创就能过了百度检测吗?所以大家千万不要直接采集人家的内容,稍微伪原创就发到自己网站上了,这就是作死。

其次、同义词替换语句颠倒没毛用

某些网站声称几十万的同义词近义词词库,告诉大家,百度为了压缩索引,同义词词库可比你们任何词库都丰富的多,人家的同义词库还是分词性的。另外语句颠倒不会影响simhash算法结果哦。

如何做采集过原创

AI伪原创本质是机器训练后的同义词替换+语句颠倒,百度判重算法是基于simhash的,跟文字顺序无关,如果剔除了停用词,百度打的你裤衩都不剩。

同义词库如果去掉停用词,比如“虽然”“也许”之类的,剩下的也就不到8亿了。其次,没有区分词性的替换,对语句通顺序破坏很大。很多喜欢伪原创的同学不知道DNN是什么玩意,这东西在文本纠错、输入法预测方面已经有很成熟的商用产品了,百度内部用DNN的地方也非常广泛。所以,很多同学伪原创的文章被收录了,但是没几天就又被回收了。

我们是如何做的SEO更文?

根据关键词

内容采集

采集问答( 百度知道 搜狗 知乎)

采集自媒体(百家号、搜狐、微信)

直接采集微信

内容处理

自动分析内容的核心词来利用高智能算法来获取相关内容文章,并智能提取相关度高的段落,根据需要可直接插入的文章里面。

内容检测

最后对于内容的原创度Simhash 相关度TD-IDF 通顺度DNN 进行检测过滤 如果不过关就不会发布。

f543e867a83f0cb2da224efe47f7cd5a.png

使用效果:

一周内收录17700条 ,网站权重4

97803ee7c38c9208b9cc39d13fd332f2.png

b5079a740a13a013f58cc2e7b4e4c3e5.png

使用细节:

确定主词过后,然后让客服导出长尾词,然后筛选出来价值较高的关键词。

然后一个关键词即为一篇文章的标题。

30232a114de9ecc5154de60947f5b73e.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_777486.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计企业网站大纲_高端网站设计企业

成都御天程为您详细解读KUywim高端网站设计企业的相关知识与详情,因为互联网的开展趋势,很多企业都从线下中心转移到。很多服务商都搭建了用来推广服务商业务和展现服务商实力,但是很多企业搭建好后却没有重视用户体验,招致网站流…

提示框组件_爱了!这个网页气泡提示组件,让你的网站更炫酷!

网页设计师对 tooltips 鼠标经过提示效果应该不陌生,这种效果虽然可以直接用 css hover 来实现,但是如果想更友好的、更美观的效果,可能就要借助 JS 来实现。今天和大家分享的 Tippy.js 就是很不错的鼠标悬念插件,多种提示信息用法…

查网络计算机的网址,如何查询网站ip地址 怎样查看网站的ip地址方法

如何查询网站ip地址?相信不少电脑小白用户都学习查看网站的ip地址方法,通过CMD命令实现很简单,跟着装机之家学习一下怎样查看网站的ip地址方法吧!网站以装机之家官网为例:www.lotpc.com,我们来看看网站ip地…

实现基于LNMP的电子商务网站--小米商城

一、 环境准备:centos系统、yum源关闭selinux ,关闭防火墙二、 安装步骤:1. yum方式安装包yum install nginx mariadb-server php-mysql php-fpmsystemctl mariadb ss -ntl 查看端 3306 2.下载小米商城源码&#xff…

sumifs两个求和列如何计算_「sumifs」多条件求和函数Sumifs的用法 - seo实验室

sumifs在excle中多条件求和函数sumifs的用法如何使用?下面是小编为大家精心整理的关于多条件求和函数Sumifs的用法,希望能够帮助到你们。多条件求和函数Sumifs1如果我们要求和的条件很多,比如要求大于2018年4月30号(2018/4/30)的乒乓球的数量…

网站服务器是虚拟主机吗,网站服务器就是虚拟主机吗

网站服务器就是虚拟主机吗 内容精选换一换首先需要准备一台Linux系统的物理服务器作为镜像制作服务器(即宿主机),以及一台用于登录宿主机的本地Windows跳板机(物理服务器或虚拟机)。宿主机必须安装:vsftpd服务sshd服务vnc服务virt-manager工具kvm虚拟化软…

java源代码众筹网站_【JavaWeb项目】一个众筹网站的开发(三)第一个网页

一、bootstrap本项目采用bootstrap3使用bootstrap三步:1.导入jQuery2.导入bootstrap自己的css样式3.导入bootstrap自己的js文件bootstrap定义了大量的样式库,要使用样式,只要将元素的class指定为样式库中的值。二、第一个网页index.jsp和css等…

css3 修改checkbox disabled颜色_html5+css3网站建设、让网站布局更加灵活

随着网站建设技术在不断的发展、从以前的table布局再到css布局,为什么css会取代table呢?可能大家心中一直有这个疑问,html的发展大家有目共睹、因为其跨平台性的原因,深受开发人士的欢迎。网站建设好之后,后期能不能利…

能独立服务器的网站,独立服务器的优势有哪些?哪些网站更适合使用独立服务器...

在租用服务器时,我们经常会建议大家去使用独立的服务器。那么,独立服务器和其他的服务器的主要区别在哪呢?独立服务器是一个人独立使用的,市面上的虚拟主机是多人使用。所以,虚拟主机在综合性能上是比不上独立主机的,…

服务器文件扫描,网站目录文件扫描工具dirbuster

网站目录扫描的工具很多,最开始用的wwwscan 、御剑,甚至一些小扫描器自带的比如,椰树、北极熊用来用去,最终你还是会发现,一些个人写的工具真的都是渣渣要么后门,要么崩溃闪退,小白用用还是可以…

前端---网站优化之SEO!!!

网站优化 SEO是由英文Search Engine Optimization缩写而来, 中文意译为“搜索引擎优化”!SEO是指通过对网站进行站内优化、网站结构调整、网站内容建设、网站代码优化等)和站外优化,从而提高网站的关键词排名以及公司产品的曝光度。 简单的说…

python 网络教育-百度传课_哪些在线课程网站比较好,适合网上自学?

现在许多人都喜欢网上自学,比如需要考证的小伙伴,他们一般不会去报补习班,而是找一些免费在线课程网站,在网络上自学。那么哪些在线课程网站比较好?可能对于初次找在线课程网站的小伙伴来说比较迷茫,别担心&#xff0…

制作tomcat证书_网站要上HTTPS加密,申请证书太麻烦?Caddy可以帮你

你现在还在用HTTP吗,太过时了!chrome浏览器已经默认所有HTTP浏览器为不安全网站,如下图所示,头条号页面被标记为不安全:头条号页面被标记为不安全HTTPS的好处不用说,安全,还有逼格!有…

php 框架适合做google seo 吗_权哥《Google站长工具数据指南》新书发布

权哥今天开心地向大家公告:最适合外贸企业的seo工具书发布了,保证轻松易读,小白也能学会。因为权哥当初本来就是写给公司的小白实习生学习seo的。近年来,大量的外贸企业开始关注流量不能仅仅依赖于平台,而应该跳出平台…

seo在线伪原创工具_在线伪原创_搜一搜站长工具

搜一搜站长工具——在线伪原创历时两年研发完善,于2019年7月正式上线,“搜一搜站长工具-伪原创”功能是专门为网站运营人员、和作者生成伪原创内容的便捷工具,后台使用强大的词库、文章素材来源、分词系统,为使用者提供完全免费的…

2020/12/25-每日三题第1弹:前端要注意哪些SEO、HTTP请求方法你又知道几种呢???

前言: “吾日三省吾身”,出自《论语学而》。 曾子在回答孔子提问时说:“吾日三省吾身:为人谋而不忠乎?与朋友交而不信乎?传不习乎?” 曾子每天都多次自觉省察自己,查看为别人做的…

软件测试学习网站有哪些?怎么学软件测试呢?

相信大家在学习的时候,不管学什么,都会习惯性地找学习软件。在大家自学软件测试的时候,也不会例外。那么,软件测试学习网站有哪些?我们到底应该怎么学软件测试呢?我们不妨一探究竟。 学习网站是什么&#…

网页设计入门应该学什么?网站设计八步骤分享

常言道:“性急吃不了热豆腐”。建立一个网站就像盖一幢大楼一样,它是一个系统工程,有自己特定的工作流程,你只有遵循这个步骤,按部就班地一步步来,才能设计出一个满意的网站。今天与大家一起了解网页设计入…

电信网通证实台湾地震影响内地访问国际网站(12月27日)

电信网通证实台湾地震影响内地访问国际网站 http://www.sina.com.cn 2006年12月27日 09:39 东方网 中国国际海底光缆网络中美六家运营商正在共同建设连接中国和美国的兆兆级海底光缆系统——跨太平洋直达光缆系统东方网讯 12月27日消息,从今日凌晨起,有来…

酷哥搜索Gcoge.Com(Bindeng.Com)真诚邀请各类网站、企业、机构一同携手,通过各种合作模式.......

酷哥搜索是一个实现所有人对所有人(ALL TO ALL,即A2A)的商业信息传播媒体。覆盖全国三百多个城市,致力于打造商业搜索引擎专业品牌,旨在实现商业信息传播的全球化,满足上千万商业用户的各种信息需求。我们真诚的邀请各类网站、企业…