一个纯采集站长的SEO、采集、运维总结

news/2024/5/9 23:59:53/文章来源:https://blog.csdn.net/weixin_34198762/article/details/90071614

  我是一个纯采集站长,下面的这些总结,有些是关于关于SEO,有些是关于采集和运维,都是很基础的个人见解,仅作分享,请自辨好坏是非,实践出真知。

  

wKiom1hCSAKg7xZpAAAuzSLVA7Q242.jpg-wh_50


  原创好还是采集好?

  当然是原创好,因为百度是这么说的,谁叫人家是裁判。

  为什么我原创了很多文章,还是不收录?收录了没排名?

  一个搜索引擎,它的核心价值是要为用户提供他/她最需要的结果。搜索引擎是有统计网民需求的,对于网民需求量小或者几乎没有需求的内容,即使你是原创也可能被搜索引擎忽略,因为它不想浪费资源在无意义的内容上。

  对网民需求量大的内容,收录应该会比较多、比较快,但是,正因为收录多,即使你是原创,也可能很难挤进排名。

  搜索引擎统计网民需求以什么来标识?

  关键词。每一个人搜索一个关键词时,就表明他/她对这个词相关的内容有需求。而且,使用搜索引擎的人,通常是有问答需求、检索查询需求。当然搜索引擎内部肯定有非常庞大的分析系统,对这些需求进行精确的定位,详见百度指数。比如搜索的关键词是“手机”,很有可能是想要买手机或者查某款的价格,也可能只是想要下载漂亮的壁纸。但是,如果是想要壁纸,就会有更精确的关键词“手机壁纸”,以下拉框或者相关搜索的形式呈现出来。

  既然原创好,为什么要采集?

  1. 虽然原创好,但只要方法适当,采集的效果并不会比原创差多少,甚至比没掌握到方法的那些原创好很多。

  2. 精力有限,原创很难保证长期大量更新,如果请个编辑,投入产出比可能是负数。

  市面上采集器那么多,应该用哪个好?

  每个采集器都有它的独特之处,所谓存在即合理。请根据自己的需求来选择即可。我的采集器是自己开发的,开发的过程中考虑了以下几方面,使用其他采集器的也可作参考:

  1. 直接提供已分类的海量关键词,这些关键词都是百度已经统计的有网民需求的词(有百度指数),或者是这些词的长尾词,来自百度下拉框或相关搜索。

  2. 直接按关键词采集,智能分析网页正文进行抓取,不需要自己写采集规则。

  3. 抓取到的正文经过规范的标签清理,段落全部以

  标签呈现,乱码一律去除。

  4. 根据采集到的内容自动配图,图片一定是与该内容相关度非常高的。以这种方式代替伪原创,既不影响可读性,又使文章图文并茂,做到比原创所提供的信息更丰富。

  5. 正文内容中的关键词自动加粗,也可自定义要插入的关键词。但没有做句子重排、段落重排等影响可读性的所谓“伪原创”功能。

  6. 可直接使用关键词和其相关词组合作为标题,也可抓取目标网页标题。

  7. 可进行微信文章采集。

  8. 不用触发或者挂机。

  9. 集成百度站长平台主动推送,加快收录。

  不同的网站程序,比如织梦、WordPress、dz、zblog、帝国cms或者其他,对SEO有什么影响?

  理论上没有影响。因为搜索引擎并不知道你是什么程序,或者它可以通过一些规则识别出来,也不可能因为程序本身的不同而影响它的判断。

  那什么会影响SEO呢?答案是模板。因为基本上这些程序都有模板机制,同样程序可以输出不同的页面,不同的程序也可以输出同样的页面,这就是模板。模板确定之后,你的每一个页面就按照这个框架来输出,也就是整个html结构已经确定。而这些html,正是搜索引擎要重点关注的,它得从这些html中得到它想要的信息。因此,一套好的模板非常重要。

  模板设计应该注意哪些细节?

  1. 权重结构顺序。整个页面的html中(注意是html,而不是显示出来的版面),越靠前的位置,权重越高。由此引申出来,“title”、keyword、description三个标签,因为最靠前,权重最高。其次通常是导航,也是基本上是最靠上的,权重也非常高。再次就是文章标题和正文。这是根据html的前后来排序的。

  2. 因为搜索引擎首先要遵循W3C标准,所以,W3C定义的一些本来就是用来表示重要信息的标签,权重自然就高,比如,特别是h1,用来表示当前页面最重要的信息,一般每个页面只能有一个,其权重估计与title相当,也通常是用来放当前页面的标题,当然也有为了提高首页权重,用h1来放置logo或首页链接,都是可以的。另外还有em、strong这样的标签,用来表示强调,一般认为strong权重高于标签,同样也是加粗作用,但我们认为从SEO的角度看是没有权重加强的。

  3. css或者js代码对搜索引擎来说通常是无意义的,尽量使用单独的文件来存放,或者在允许的情况下放到html尾部去

  网站结构规划应该注意哪些问题?

  1. URL设计。URL也是可以包含关键词的,比如你的网站是关于电脑的,你的URL中可以包含“PC”,因为它在搜索引擎眼里通常是“电脑”的同义词。URL不要太长,层次尽量不要超过4层,这个就点到为止。

  2. 栏目设计。栏目通常是与导航相关联的,设计时应该考虑网站整体的主题,用户可能会对哪些内容感兴趣,栏目名称最好是网站的几个主关键词,这样也方便利用导航的权重。

  3. 关键词布局。理论上每一个内容页都应该有它的核心关键词,同一个栏目下的文章,尽可能围绕栏目关键词展开。一个简单粗暴的办法就是直接用栏目关键词的长尾词。

  动态、伪静态、静态,这三者哪个好?

  这个不能一概而论,推荐使用伪静态或静态。这三者的区别,是是否生成静态文件,以及URL格式是否动态。生成静态文件,本质上是为了加快访问速度,减少数据库查询,但会不断增加占用空间;伪静态只是通过URL重写修改URL,实际上还是每次都要经过程序运算、查询数据库再输出页面,对加快访问速度完全无效。动态与伪静态的差异只在于URL,带问号加参数。

  所以关注两个点就好:网站打开速度是否够快?你是否需要节约服务器空间?

  不同的网站程序,数据库操作的效率可能不同。一般来讲,内容页数量在1万以内的,页面打开速度都是比较快的,数据量更大一些,达到5万、十万甚至更多,通常就要考虑静态化了。

  有哪些途径改善访问速度?

  1. 上面已经说到的静态化。

  2. 通常很多网站模板中都有随机调用文章或者类似的版块,事实上对数据库来说,随机是一项比较重的负担,在模板中应该尽量减少随机文章的调用。如果不可避免,可以考虑从数据库上优化,对有索引的字段排序通常比没有索引要快很多。

  3. 将图片、js、css等不经常修改的文件,放到专用的静态服务器上,多个js、或者多个css能合并的尽量合并到一个文件,减少http连接次数。

  4. 使用各类云加速产品。对普通网站来说,免费的百度云加速或者360的云加速都还可以。

  文章比较多,网站已经开启静态,但是每次全站更新都要花很长时间怎么办?

  我的做法是使用缓存机制,这里只提供一个思路,可能需要自己二次开发。

  网站设定为伪静态,每一个请求到达时,程序检查是否存在对应的缓存html文件,如果该文件的生成时间是多少小时或几天以前,我们判定它需要更新,这时候执行正常流程,程序查询数据库,生成html后,写入到缓存文件,再输出到客户端。

  当下一次访问到达时,比如1分钟以后又来一个访问相同页面,再次检查缓存文件时间。从时间上可以判断文件非常新,完全不用更新,则直接读取文件内容输出到客户端。这样每个页面都可以实现自动生成,也只有第一个访客会感受到速度慢,后面的访客访问时都相当于是静态访问,速度是非常快的。

  如果是独立服务器,还可以考虑自动检测服务器负载,如果负载本来就高,那就算判断出来需要更新,也暂时不更新,改为直接输出。

  图片是引用远程网址好还是放在自己服务器好?

  这个也是各有优劣。引用远程网址,可以节约自己的带宽,但很可能会因为对方服务器缓慢、或删除资源、或防盗链,图片无法显示。如果下载到自己服务器,当然一切都自己掌控,但是图片会非常占用空间,总体上可能比生成静态所占的空间更大,而且如果访问量大,图片是最吃带宽的。

  网站内链应该怎样优化?

  内链是百度官方推荐的优化手段之一,所以这是一定要做的。通常表现的形式是正文中出现某个关键词,给这个关键词加上一个链接,指向另一个正好是这个关键词相关内容的页面。因此就诞生了一些所谓的优化手法,强行在正文中插入一些关键词和链接,以此进行类似互推的操作。还有的为了提高首页权重,到处都放上网站名称,并做上首页链接,以为这样可以提高目标页面的权重。但是这些很可能都是适得其反,因为搜索引擎会统计每个链接的点击率。如果放在醒目位置点击却很少的链接,有可能会判断为作弊。所以,请只在正文中本来就有的关键词上做内链,就可以了。

  段落重排、句子重排、同义词替换这些伪原创手法到底好不好?

  不好。因为搜索引擎已经智能,已经不是简单的数据库检索,它会自然语义分析(详情请搜索“NLP”),凡是语义解析比较困难的句子或者段落,它是可以判断为可读性差的,所以我认为这些“伪原创”可能是自作聪明。

  评论模块基本上没有人用,该要还是不要?

  要。评论模块最头疼是事情是垃圾评论,通常真正发言的访客很少,垃圾评论一大堆,整天和营销软件斗智斗勇。这里提供一个我已经实现的方案,对收录可能有一定帮助(没有依据的,只是猜测):

  保留评论框、但禁止评论。所有评论由自己的网站程序生成。前面提到搜索引擎会自然语义分析,其中有一项重要的能力,就是情感判断。搜索引擎会计算每条评论的情感值,是positive(积极)还是negative(消极),具体倾向是10%还是90%。如果评论内容表达的是积极情感,则可以给你的正文加分,反之则减分。至于怎样自动生成积极的评论,就八仙过海各显神通吧。

  这是在网络社交发展起来后的必然趋势,用这种方式来反映一个页面的用户体验度。同理还有分享、点赞等,原理类似。

  绿萝卜算法之后,外链到底还有没有用?

  有用。参见搜索引擎三定律之相关性定律。既然是定律,就不会改变。谁的内容被引用得多,谁就是权威。在主动推送出现之前,外链应该算是蜘蛛认识一个页面内容的第一渠道。

  外链一定要锚文本或者裸链吗?

  不是。搜索引擎肩负重任,要努力发现真正有价值的东西,排除那些没价值的东西。所以有可能你直接提交的链接没收录,在别人地方随便发个纯文本网址,被它发现了,还计算了加分。

  除了锚文本和裸链,还可以用关键词+网址的形式发纯文本。这样在网址前面的那个关键词是会自动与该网址关联的。

  还有,有些链接虽然加了nofollow属性,但是在百度计算外链的时候,还是会计算的。

  收录和索引到底什么关系?

  收录表示蜘蛛来抓取过、分析过。索引表示蜘蛛分析之后,认为内容有一定价值。只有进入索引的内容才有可能出现在搜索结果中,展现给用户。也就是说只有索引的内容才有机会带来流量。





本文转自 卢松松博客 51CTO博客,原文链接:http://blog.51cto.com/lusongsong/1878859,如需转载请自行联系原作者

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_834385.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利用GitHub搭建自己的第一个个人网站(新!!!)

几天前,迫不及待的想让自己的个人网站项目上线,请教了老师,经过老师和度娘和谷歌翻译的帮助,终于能利用GitHub的二级域名访问了,下面将从零开始,介绍搭建方法。 准备工具: 谷歌浏览器&#xff…

win7 IIS7 发布网站 出现 处理程序“PageHandlerFactory-Integrated”在其模块列表中有一个错误模块“ManagedPipelineHandler”

今天安装了windows7 开发web项目需要安装IIS,当安装完以后,web程序已经映射到了本地IIS上,运行出现如下错误提示 处理程序“PageHandlerFactory-Integrated”在其模块列表中有一个错误模块“ManagedPipelineHandler” 原因: vs2010默认的是4.0框架,4.0的框架是…

奇奇seo优化软件_seo优化排名软件价格

seo优化xaa0c1排名软件价格,随着现代化信息技术的发展,人们越来越多的从网络来获取信息。近年来,我们获取的信息绝大部分都是来源于网络,网络如今已成为信息的最大载体。为了让更多消费者了解并消费企业提供的服务和产品&#xff…

php 怎么判断月份最后一天_WordPress小网站“耗资源” 被关停怎么办?(二)

大家好,最近又有一个WordPress小网站被关停了,原因是“耗资源”。这个网站是BeTheme主题(17.8老版本)做的,用阿里云的一款配置非常低的虚拟主机,共享版经济型。今年5月份我写过一篇文章,标题是《…

网站优化注意事项,关键词分析很重要!

对于一个网站的运营,在建站之初,我们经常会制定关键词策略,如果在关键词选择的过程中,采用了错误的方法,那么势必导致网站,南辕北辙,适得其反。因此,在做网站优化的时候,…

盘点愚人节各大网站彩蛋,谁最爱恶搞?

2019独角兽企业重金招聘Python工程师标准>>> 如今的愚人节俨然已是各品牌宣传了一个重要节日,同时,也成为了各大互联网科技企业凑热闹,比拼创意和策划的节日。跟小编一起看看有哪些有趣的策划吧! Google地图变成吃豆人…

如何使用阿里云搭建wordpress网站(图文教程+小白专用+Linux版)?

【声明】 在任何云服务器上安装wordpress网站都是异曲同工,操作系统分为window和Linux。在这里,我选择linux操作系统来搭建wordpress网站。 如果要了解基本的网站搭建流程,请看文章:如何低成本建立属于自己的网站? ht…

EV SSL证书对电子商务网站很重要为什么?

为什么EV SSL对电子商务平台很重要?1、最高级别的SSL证书;2、遵循最严格严格的验证过程;3、确保公司是真实的和合法的;4、显示了绿色地址栏和商业名称;5、对在线交易信息进行严谨的加密;6、提高客户的信任度,提升平台的业务;7、保证完整的网站和数据保护;8、提高搜…

大型网站技术架构(四)网站的高性能架构

2019独角兽企业重金招聘Python工程师标准>>> 网站性能是客观的指标,可以具体体现到响应时间、吞吐量、并发数、性能计数器等技术指标。 1、性能测试指标 1.1 响应时间 指应用执行一个操作需要的时间,指从发出请求到最后收到响应数据所需要的时…

在IIS上部署基于django WEB框架的python网站应用

django是一款基于python语言的WEB开源框架,本文给出了如何将基于django写的python网站部署到window的IIS上。 笔者的运行环境: Window xp sp3IIS 5.1Python 2.7.2 (http://www.python.org/)pywin32-217.win32-py2.7 (python的win32扩展)Django-1.3.1 (https://w…

IIS7部署django网站指南

运行环境: windows Server 2008 R2 Enterprise (64位) IIS 7.5 IIS 6.0 兼容性管理 SQL Server 2005 注: IIS 6.0兼容性管理必须安装 所需软件: 请到官方网站下载,所有的安装包都是32位的。 window installer是指exe的安装包, 而django,django-pyodbc,isapi_wsgi请…

如何使用命令行调优ASP.NET网站代码(From MSDN)

原文出处: http://msdn.microsoft.com/en-us/library/ee308442(vvs.110).aspx 命令行工具路径: c:\Program Files (x86)\Microsoft Visual Studio 11.0\Team Tools\Performance Tools\ 非常实用的工具,可以帮助你判断ASP.NET网站程序代码…

外国官方网站下载文件速度缓慢

我们经常要下载东西,特别是一下专业软件就不得不到官方网站下载了,但很多这样的软件常常需要到外国的一些官方网站里下载了。可是,也经常遇到下载速度过于缓慢的的问题,在这我是用了一个简单但是略显笨的方法,但是也挺…

客户端通过主DNS、辅DNS、缓存DNS能够正常解析,客户端能够通过DNS解析域名来访问网站服务器。

实验要求: 客户端通过主DNS、辅DNS、缓存DNS能够正常解析,客户端能够通过DNS解析域名来访问网站服务器。 主DNS解析域名正向区域 反向区域 辅DNS解析域名缓存DNS解析域名通过DNS解析域名访问网站服务器PS:可能出现的问题: 解决方法&#xf…

爬虫学习之9:结合百度翻译API爬取PEXELS网站图片

PEXELS网站上的图片素材,质量很高,可以免费用于个人和商业用途,但是搜索功能不能用中文,这里结合百度翻译API完成搜索路径的构建。由于百度翻译API为个人申请使用,这里用XXX代替,需要的童鞋可以自己申请免费…

【建议收藏】六个免费的在线OCR识别网站,显著提高你的工作效率!

日常生活中,很多时候我们需要将图片信息转换成文字。比如读一本纸质版的书时,读到有价值的片段,希望保存成电子存档以后翻出来看;比如希望将照片里的文字信息提取出来保存;比如领导交给你一份纸质版表格让你录入excel。…

菜鸟上路Flask+Anaconda+Pycharm网站开发

之前一直用Django框架,然后老大说‘’Django框架太重了,换个轻的,就换了Flask,简单记录一下Flask开发的流程吧。 Step1:我的Python环境是Anaconda中集成的,版本是3.6版,Anaconda中也集成了Flas…

C# 获取网站站点根目录

获取站点ID: using Microsoft.Web.Administration; var sites new ServerManager().Sites["Mis"];string siteID sites.Id.ToString(); using System; using System.DirectoryServices; using System.Collections.Generic; using System.Text; namespac…

抖音seo

什么是抖音SEO?简单来说,就是围绕抖音的推荐算法做的SEO关键词布局和推广,达到自然引流的目的。 什么是抖音SEO算法? 1、内容搜索检索视频内容,寻找与 "减肥 "相关的视频,即系统会对声音、字幕等…

抖音SEO优化,抖音seo

抖音seo推广获客,抖音seo排名,抖音seo霸屏,抖音seo 抖音seo搜索 04-02 14:29 一、抖音seo优化是什么? 抖音seo是搜索引擎行业目前比较关注的领域,国内主流搜索引擎如百度、360、搜狗、神马大家对传统搜索引擎已根深蒂…