开云·体育(kaiyun)(中国)官方网站-入口登录

36,993 views

如何进入暗网,看百度暗网抓取技术浅析

暗网，按照网络上的说就是那些深藏于表面网络的隐藏网络，一般暗网的数据量要比表面网络大好几个数量级，特点是深藏于网络数据库当中，一般不能通过超链接直接访问，而需要动态网页技术才能集合资源访问，也就是不是搜索引擎能标准索引的表面网络。如，大型商城的搜索内容、携程旅行网、12306等网站的票据数据，这些数据都很难有链接直接指向数据库，都是以查询界面的形式供用户查询，只有用户有需求时查询才能看到并获得相关数据。换句话说，暗网，也就是常规的爬虫无法索引这些数据内容，像深藏于背后一样，这也是暗网名字的由来之理。

任何不能通过一次GET或需要通过POST请求才能直接下载的页面，都可以认为其处于“暗网”中。

简单举例造成暗网原因：

1. 网络原因不能下载；

2. 内部网站；

3. 动态页面，需要用户身份认证，登录后才能访问；

4. 检索词进行搜索时，才能得到相关的结果的索引列表。

简单的讲，就是没有入口(链接链入)或难以被搜索引擎抓取的网页，都属于暗网范畴。在互联网上搜索引擎能检索的内容大约只占总内容的千分之二，通过暗网抓取能提供给用户更丰富的结果，极大的提高搜索引擎友好度。

为了能够对暗网数据进行索引，需要研发与常规爬虫机制不同的系统，这类爬虫被称作暗网爬虫。暗网爬虫的目的是将暗网数据从数据库中挖掘出来，并将其加入搜索引擎的索引，这样用户在搜索时便可利用这些数据，增加信息覆盖程度。

目前大型搜索引擎服务提供商都将暗网挖掘作为重要研究方向，因为这直接关系到索引量的大小。在此领域的技术差异，将直接体现在搜索结果的全面性上，自然是竞争对手之间的必争之地。Google目前将其作为重点研发方向，而百度的"阿拉丁计划"目的也在于此。

垂直网站提供的搜索界面，往往需要人工选择或者填写内容，比如机票搜索需要选择出发地、到达地和日期，图书搜索需要指出书名或者作者。而暗网爬虫为了能够挖掘数据库的记录，必须模拟人的行为，如果一一组合遍历，那么会给被访问网站造成太大压力，所以如何精心组合查询选项是个难点；第二点在于：有的查询时文本框，比如图书搜索中需要输入书名，爬虫怎样才能够填入合适的内容?这个也颇具挑战性。