不管是国内搜索百度还是国际搜索的谷歌,以及其他如雅虎、360搜索、搜狗搜索,其搜索原来大体上都是相同的,唯有不同的就是他们的具体抓去措施和建立索引排序的规则,也就是算法不同。还有用户体验什么的都各有所区别。这里就大体的共性来说说,老鸟都知道得可以飘过。看了一个SEO培训机构的培训课程,所以我也就免费的写写,希望新人能看到,呵呵,我把他拟名为《西安SEO技术基础教程专题》!
搜索引擎工作原理说来简单也简单,对于优化人员来说只需要了解它的规则即可,当然你要是有超牛的技术能开发更好,想必绝大多数人都没有达到这个地步把,那就看看基本原理:◎搜索引擎爬虫程序(俗称蜘蛛,爬虫,机器人等)抓取网站内容——》◎启动搜索引擎数据分析系统对内容进行分析(按照最新算法)——》◎将分析过的内容做分门别类建立索引系统——》◎用户查询呈现结果!
接下来,针对这个四个原理做简单的解释和介绍,并提出一些优化时的小建议:
◎搜索引擎爬虫程序(俗称蜘蛛,爬虫,机器人等)抓取网站内容
搜索引擎蜘蛛是什么,什么是爬虫程序?爬虫程序即我们叫的蜘蛛,是一个搜索工程师开发的自动应用程序,功能类似机器人一样,在互联网中爬行、浏览,将浏览的网页信息抓取之后保存在搜索引擎程序之中,这是后续建立索引库等的前提条件。假如蜘蛛是一个浏览你网页的用户,它来到你的网站,看见你的网页并将看到的内容保存在自己的电脑上,也可以这样简单理解。它抓取网页的过程分为:发现链接→下载保存网页→加入临时数据库→再次提取网页中链接→在再下载网页→循环往复。
根据蜘蛛这样的抓取原理提出优化建议:
<1>新站做好网站内容和部分内容之后提交或者到收录好的网站发外链,以获得被蜘蛛发现的机会。
<2>新写的文章最好用程序调用在首页,文章长时间未收录选择发外链投稿,检查内容质量。这里提一点,可以采用百度站长工具和有的网站程序的及时推送功能,百度的结构化数据插件和wordpress博客的ping功能就很不错。
<3>网站做好内部链接,也就是内链,各个文章之间以及栏目列表等,让蜘蛛能充分爬行到每一个页面为遵旨,并且网站内尽量不要写js,flash,网页框架等蜘蛛无法看见和容易造成死循环的代码,总体以html简洁化、结构化为主。
根据蜘蛛爬行规律提出优化建议:
<1> 深度优先:搜索引擎爬虫在发现一个网页后接着发现一个链接,就会顺着这个链接到下一个网页,再发现一个链接再顺着链接到下下一个网页,直到全部爬行完毕,这就是基于链接的深度优先原则。
——建议:网站内页之间做好内链,每篇文章和栏目以及列表、专题之间做好衔接,同时内页长尾词也可以做外链(内部定向锚文本,外部多样化外链)。
<2>广度优先:广度优先就是蜘蛛先将一个页面的链接全部抓取一次,然后再去抓取下一个页面的全部链接。比如,A页面有(a、b、c)链接,a链接页面有(a1、b1、c1)链接,b链接页面有(a2、b2),a2链接页面有(a3、b3)链接,在广度优先原则下发现A页面之后会先将(a、b、c)链接全部抓取,再去将a页面的(a1、b1、c1)全部抓取并将b页面的(a2、b2)全部抓取;而深度优先则是发现A页面之后发现(a1、b1、c1),而b还有(a2、b2),a2有(a3、b3、c3),此时蜘蛛就会先沿着b页面抓取,在回过头来抓取a、c。当然,在抓取的时候基本原理如此,但是没有绝对的,两者会混合进行。
——建议:网站内部链接做好合理布局,采用树形或者扁平型或者内页采用轮链都可以。具体看你的网站类而定。如果就企业站站点而言,一般是-首页→导航→内页,内页→内页或内页→栏目或→内页→首页或者内页1,内页2…→内页或者专题或栏目页等。总之,添加内链记住一个遵旨:以方便用户为主,迎合蜘蛛爬行为辅,做好定向锚文本。比如,你在写一篇文章叫《电笔的使用方法》那么,在文章写到电笔注意事项和故障时可以在词内链接一篇关于电笔故障处理和维修保养的定向链接。
<3>权重优先:权重优先就是根据网页权值去判断先抓取哪个。上面说的深度优先和广度优先也不是绝对的,往往是深度和广度结合采取抓取策略,并会参照链接的权值,如果一个链接的权值很高那就采用深度优先,如果链接的权值低那就采用广度优先。另外,说明一点的是,权重有的人叫它权值,其实是各个站长工具模拟定位的,除了谷歌有pr外,百度并没有公布什么权重之说,不过其还是存在的,我们综合把它称之为信任值,也就是百度对你的网站的信任值有多高你的网站权重就有多高。
——建议:发外链时尽量去高权重,也就是高信任值的网站,因为它多半会采取深度优先原则,你的链接就会被优先抓取。权重和自己差不多的平台也要发外链,要多样化,光是高权重、单一外链会被视为作弊。低权重平台可以多加链接,增加链接在蜘蛛爬行的曝光度,这个时候当采取广度优先时你的链接也会优先被抓取。提醒一点:某条链接的权重与链接层次多少,外链质量和多少有关。链接过多不会被抓取,权重低不会被优先抓取,800到1500字的内页,链接不要超过3个为最佳。
<4>重访抓取:蜘蛛再次光临你的网站抓取内容。重访抓取一般分为全站重访和单个重访。重访有时候蜘蛛会一天一次,有时候会一月一次,权威站点会几秒钟一次的都有,不过你可以从两次重访之间的时间间隔我们可以看出其蜘蛛抓取我们网站的频率,在查看快照便可洞察我们的网站内容做的怎么样。
——建议:定时更新网站,发布原创内容。培养蜘蛛习惯,形成一个爬行规律,按照理论你的网站更新越频繁爬取的频率也就越高。另外,如果你的网站日志的爬行时间频率和你的快照更新相差较远,超过半个月为例,那么你就检查是否内容质量不够高,文章时效性差,同质化严重等问题。
◎启动搜索引擎数据分析系统对内容进行分析
搜索引擎的数据分析系统就是按照事先工程师设计好的一套算法程序,对爬虫抓取回来的网页逐个进行分析处理,它要执行的任务有以下几个方面:
<1>网页结构化分析
简单点说就是将网页中的各种代码,如html,js等处理掉,提取网页内容。
<2>消除噪声
结构化处理完毕之后就会去除哪些文章版权、广告信息以及与主题无关的噪音,仅留下与主题相关的内容。
<3>去重
就是搜索引擎会查询已有数据库看是否存在这同样的网页,内容高度重复和转载的一般就会删除不被收录。
<4>分词
分词是在搜索引擎处理好前面三个问题之后才会将抓取到的正文内容划分成若干个词语,然后一一排列好之后,存入索引库!同时计算一个页面也就是一个文档中某个词出现的次数、位置。
<4>链接分析
搜索引擎程序会查询页面的链接,包括外链和导出链接还有内链,根据搜索引擎最新的算法给予这个页面一定的权重,百度的其基础理论是《李彦宏超链分析法》,谷歌的是Google PageRank算法。
◎将分析过的内容做分门别类建立索引系统
通过结构分析、消噪、去重、分词之后其基本工作已经完成,处理好的信息就会被放到索引擎的索引库中。索引库有两个系统:
<1>正排索引系统
搜索引擎将每个url对应的网页,也就是文档进行编号,并将该编号对应该文档中的内容,URL的外链,关键词密度等数据。
<2>倒排索引
倒排索引是建立在正排索引基础上的,也叫反向索引,其主要是检索某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
◎用户查询呈现结果
此时就是搜索引擎的检索结果页面,就是用户在搜索查询时,搜索引擎相应查询请求反馈回来的结果页面。通常我们看到的搜索结果页。包括标题、描述、网址、快照字样时间。
总之,发现连接 → 抓取网页 → 分析网页→ 建立索引库→ 检索结果。这就是简单的搜索引擎工作原理。
2016 年 1 月 4 日 下午 7:30 8F
也是支持,我代表大家顶你了
2014 年 4 月 30 日 下午 1:14 7F
很详细,之前对原理一直都不是很清楚
2014 年 4 月 10 日 下午 1:54 6F
文章有点长广告有点多。
2014 年 4 月 9 日 下午 8:57 5F
恩,原理不错,分析的到位哈
2014 年 4 月 9 日 下午 5:19 4F
原创内容上去了,权重就上去了,基本上不怎么研究搜索引擎的工作原理。。
2014 年 4 月 9 日 下午 5:13 3F
很详细,之前对原理一直都不是很清楚
2014 年 4 月 9 日 下午 3:17 2F
一直听大家在说SEO,对其工作原理还真不了解
2014 年 4 月 9 日 下午 12:54 1F
看标题,很深奥的样子
2014 年 4 月 9 日 下午 2:05 B1
@ PHP二次开发 看你的回复这下糗大了