已知无用的伪原创手段
《SEO实战密码》 中总结了6种内容作弊手段,这些都已经被百度识别了。无论是同义词替换还是简单在原来文章上做更改,都已经没有收录的几率。其中已经没有用的伪原创手段包括如下:
1 更改(完全重写)标题
2 颠倒段落次序
2 加一段原创,如在最前面加一段内容摘要
3 文字简单增减,如感叹词、修饰词
4 同义词近义词替换
5 强行插入关键词,如在一篇小说中强行插入关键词
AI伪原创有用?
圈子里面用伪原创的站长,反馈飓风3上线后,收录是一天不如一天,比如今天发1000篇伪原创文章,下午就剩下收录500篇,明天收录收录不到100篇,90%以上伪原创内容的都被百度识别掉了。
如下图左边是原文,右边是AI伪原创的结果,可以看到无论是句子顺序还是很多词语,都发生了变化。基本每个句子都不是相同的。最近很多人都热推AI伪原创,认为可以通过百度收录,可以取得排名。
第3代百度原创识别手段:
因为第二代的手段效果很不好,所以百度终于推出了飓风算法( 2017年7月7日上线),而对应的专利在2017年3月底提出的申请,那么时间点也比较吻合。基本思想是对句子使用simhash算法做签名,然后用汉明距离做原创度检测。
什么是同义词级别simhash
看不懂没关系,先了解simhash算法一点皮毛,A简单举一个例子,一图胜千言。
如果您是算法专家,可以访问传送门:https://github.com/yanyiwu/simhash了解simhash算法。
结论:只相当于违规变成了非法
AI伪原创能过百度原创吗?
基础假设
那么回到AI原创的问题,因为百度飓风3.0按照句子级别的simhash进行去重,我们假设:
前置条件1:对句子长度为100个字,进行伪原创
前置条件2:把句子的签名做对比,伪原创后编辑距离位数小于10,并且汉明距离小于10,并且汉明相似度大于80%
判定结果:抄袭
不了解编辑距离,汉明距离(也叫海明距离)的可以看
百度百科《编辑距离》:https://baike.baidu.com/item/%E7%BC%96%E8%BE%91%E8%B7%9D%E7%A6%BB/8010193?fr=aladdin
百度百科《海明距离》:https://baike.baidu.com/item/%E6%B5%B7%E6%98%8E%E8%B7%9D%E7%A6%BB/4235876?fr=aladdin
你不会编程没事,我们会。我们有现成的分词方法,也有停止词过滤程序,直接用github上的程序。
参考:https://github.com/cmhc/simhash/blob/master/src/simHash.php
随便找了一篇网易的文章,做一下simhash的编辑距离跟汉明距离。
AI伪原创工具评测1:
最终结果:
没有过假设的百度原创关,编辑距离为6,海明距离为8,相似度高达87.5%
AI伪原创工具评测2:
不死心,又要了另外一家AI伪原创:
最终结果:
没有过假设的百度原创关,编辑距离为7,海明距离为10,相似度高达84.3%
AI伪原创工具评测3:
还是不死心,又要了另外一家AI伪原创:
最终结果:
他xx的什么破AI伪原创,编辑距离只有4,海明距离为6,相似度高达90%!被百度干的渣渣都不剩,别误人子弟好不好?
结论
首先、直接伪原创不容易过百度原创
人家百度几千号人来做开发呢,就凭一个伪原创就能过了百度检测吗?所以大家千万不要直接采集人家的内容,稍微伪原创就发到自己网站上了,这就是作死。
其次、同义词替换语句颠倒没毛用
某些网站声称几十万的同义词近义词词库,告诉大家,百度为了压缩索引,同义词词库可比你们任何词库都丰富的多,人家的同义词库还是分词性的。另外语句颠倒不会影响simhash算法结果哦。
如何做采集过原创
AI伪原创本质是机器训练后的同义词替换+语句颠倒,百度判重算法是基于simhash的,跟文字顺序无关,如果剔除了停用词,百度打的你裤衩都不剩。
同义词库如果去掉停用词,比如“虽然”“也许”之类的,剩下的也就不到8亿了。其次,没有区分词性的替换,对语句通顺序破坏很大。很多喜欢伪原创的同学不知道DNN是什么玩意,这东西在文本纠错、输入法预测方面已经有很成熟的商用产品了,百度内部用DNN的地方也非常广泛。所以,很多同学伪原创的文章被收录了,但是没几天就又被回收了。
我们是如何做的SEO更文?
根据关键词
内容采集
采集问答( 百度知道 搜狗 知乎)
采集自媒体(百家号、搜狐、微信)
直接采集微信
内容处理
自动分析内容的核心词来利用高智能算法来获取相关内容文章,并智能提取相关度高的段落,根据需要可直接插入的文章里面。
内容检测
最后对于内容的原创度Simhash 相关度TD-IDF 通顺度DNN 进行检测过滤 如果不过关就不会发布。
使用效果:
一周内收录17700条 ,网站权重4
使用细节:
确定主词过后,然后让客服导出长尾词,然后筛选出来价值较高的关键词。
然后一个关键词即为一篇文章的标题。