问题:蜘蛛是怎么样爬取一个网站内容的?
有人在群里喊说“有人知道网站爬去蜘蛛的资料没,蜘蛛它的爬取规律到底是怎么样的?蜘蛛是怎么样爬取一个网站内容的?”就此问题,我们通过大家的意见整理成文,也算是一种学习和参考。那么,对于蜘蛛是怎么样爬取一个网站内容的我们下面一一道来。
介绍蜘蛛如何爬取网页之前不得不说的是搜索引擎的工作过程,大致分为蜘蛛发现网页——>爬取网页——>分析处理网页——>建立索引库——>提供用户检索,其实简单的也就三步,抓取,处理和供用户检索服务。
可以看得出,蜘蛛爬取网页是整个工作中的正真的第一步。这个第一步如何走就显得很重要,一般按照搜索引擎的规则是先去爬取那些百度白名单网站或一些信任度较高的网站和页面,例如一些高权重和网站首页都是优先被爬取的对象。在蜘蛛爬取网页的过程中会发现一些网站链接,它会把这些链接保存在自己的数据库当中,然后再按照一定的规则去一次抓取这也链接的网页。这就涉及到抓取的规则。
搜索引擎蜘蛛抓取网页的规则:
高权重、高信任度优先,权重越高、信任度越大抓取相对越频繁,如网站首页和内页对比就是一个很好的例子。除了这些,蜘蛛整体的抓取策略采用的事a.广度优先和b.深度优先原则,在工作过程中一般是二者综合采用。
举一个简单的例子,如A页面有链接B、C、D,B页面有B1、B2、B3,C页面有C1、C2,D页面有D1、D2,B1页面有b1、b2页面链接。
a.广度优先原则,蜘蛛爬取了A页面,发现了BCD页面,就会将CBD挨个爬取完毕,再去B页面的B1、B2、B3或C页面的C1、C2或者D页面的D1、D2,即使B1页面有b1、b2页面也要等抓取完B1页面同层级,再去抓取下一级b1、b2。
b.深度优先原则,和广度优先正好反过来,蜘蛛抓取了A页面,发现了B页面就会继续抓B页面,之后又发现了B1页面,再继续抓取B1页面,发现了b1页面,会再次继续抓取b1页面,知道抓完毕才会返回来从新开始。
单纯的讲蜘蛛抓取网页的规则是上面说的这些大致方向没错,但是在实际抓取过程中不仅仅是这些因素,还有网站的信任度、权重等因素的影响,很多时候是广度优先和深度优先共同作用的。如,在爬取到B页面时,不是继续爬取B1页面,而是分别爬取了B1、B2、B3后再去从C页面开始,爬取C1、C2。
理解什么是广度优先和深度优先其实不难,这里有一个简单的方法,记住同级优先抓取——广度优先,也叫横向抓取;一抓到底——深度优先,也叫纵向抓取(为了方便理解暂且这么说)!
究竟蜘蛛是怎么样爬取一个网站内容的,其实大致原理就是如此,在一定的抓取规则下,蜘蛛发现网页,在按照一定的规则去抓取网页,更详细的内容可以看考《SEO教程之搜索引擎的工作原理是什么》一文。
搜索引擎蜘蛛相关知识介绍:
当你的新站上线之后,你是不是遇到过,sogou蜘蛛,360蜘蛛都很快滴爬取了你的网页,唯独百度蜘蛛却迟迟不肯到访,及时来了也是抓取一两条就走了,时隔几日观察网站日志依然如此,怎莫办,是不是就想让百度蜘蛛能快速爬取网站内容呢?西安SEO王发利博客推荐一下做法,来增加百度蜘蛛的友好度,来增加你网页快速被抓取的几率。
1、制作结构清晰的网站(蜘蛛爬取网站更快捷方便)
2、建立完善的网站地图,最好能将网站的全站url都包含在里面(蜘蛛发现网页链接更容易)
3、robots.txt文件撰写完善,写入sitemap地址(蜘蛛访问网站会优先访问此文件)
4、能建立百度ping机制最好建立(主动告诉百度网站有更新)
5、利用百度站长工具提交URL(包括robots.txt、sitemap地址)
6、适当地发一些外链(收录好的站发外链快尽快让百度发现)
本文小结:
到底百度蜘蛛是怎么样爬取一个网站内容的,其实不光光是百度,其他的搜索引擎蜘蛛对于爬取流程大致都是一样的。发现,抓取。如何让蜘蛛尽早发现,抓取网页并收录,获得初步排名这是我们需要做优化的第一步,也是很重要的一步。
2015 年 5 月 14 日 上午 10:13 7F
美女、车震 http://www.itahao.com/
2015 年 5 月 14 日 上午 10:13 6F
不错。
2014 年 11 月 25 日 上午 9:59 5F
支持。~!~
2014 年 10 月 9 日 上午 10:26 4F
听起来有点乱
2014 年 10 月 7 日 下午 9:37 3F
很不错哈,博主,通俗易懂了分析了蜘蛛的爬取规则
2014 年 10 月 6 日 下午 1:50 2F
不错。
2014 年 10 月 6 日 下午 12:48 1F
我来了