一、蜘蛛
搜索引擎用来爬行和访问网站页面的程序被称为蜘蛛,也可称之为机器人。蜘蛛访问浏览器,就和我们平时上网一个样子,蜘蛛同样会申请访问,得到允许后才可以浏览,可是有一点,搜索引擎为了提高质量和速度,它会放很多蜘蛛一起去爬行和抓取。
蜘蛛访问任何一个网站时,都会先去访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。
和浏览器一样,搜索引擎蜘蛛也有表明自己身份的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辨识搜索引擎蜘蛛。
二、跟踪链接
为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行一样。
整个互联网是有相互链接的网站及页面组成的。当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。
最简单的爬行的策略有:深度优先和广度优先。
1、深度链接
深度优先指当蜘蛛发现一个链接时,它就会顺着这个链接指出的路一直向前爬行,直到前面再也没其他链接,这时就会返回第一个页面,然后会继续链接再一直往前爬行。
2、广度链接
从seo角度讲链接广度优先的意思是讲的蜘蛛在一个页面发现多个链接的时候,不是跟着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。
从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,没有什么东西是无限的,蜘蛛的带宽资源和蜘蛛的时间也是一样都是有限的,也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。
3.吸引蜘蛛
蜘蛛式不可能抓取所有的页面的,它只会抓取重要的页面,那么哪些页面被认为比较重要呢?有以下几点:
(1)网站和页面权重
(2)页面更新度
(3)导入链接
(4)与首页点击距离
4.地址库
搜索引擎会建立一个地址库,这么做可以很好的避免出现过多抓取或者反复抓取的现象,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。
地址库中的URL有以下几个来源:
(1)人工录入的种子网站。
(2)蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。
(3)搜索引擎自带的一种表格提供站长,方便站长提交网址。
相关推荐
章鱼搜索从BT网络里收录了互联网中海量的电影,音乐,游戏,书籍等资源,允许用户对资源进行预览和试看,是史上最强的资源搜索引擎工具,没有之一。
目前,互联网的搜索引擎技术已经历了两个发展期:Yahoo由于网站索引技术为网站资源搜索提供了当时最好的支持,在上世纪八十年代网络搜索市场独领风骚。而九十年代崛起Google的大规模网页搜索技术使Yahoo风光不再,...
它的作用是访问互联网上的html网页,建立索引数据库,使用户能在搜索引擎中搜索到贵网站的网页。 搜索引擎派出“蜘蛛”程序检索现有网站一定IP地址范围内的新网站,而对现有网站的更新则根据该网站的等级不同有快慢...
人们已经习惯于通过google、百度、Yahoo等知名搜索引擎在国际互联网中快速地查找到需要的信息。但是对于搜索企事业单位内部网中的信息而言,上述搜索引擎可就无能为力了。或者,对于某个行业而言,这些搜索引擎的...
基于DNS的网页搜索引擎,王亮,郭一平,搜索引擎是通向Internet这个世界上最大信息库的主要方式。互联网正改变着人们生活的方方面面,而信息检索服务则是其最重要的服务之�
介绍了一下搜索引擎的工作原理和组成部分,以Google和百度为代表介绍了搜索引擎的高级检索功能,以及搜索引擎非常强大的最常用的八条高级检索命令,最后对网上免费学术资源网站进行了介绍。
对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,...
如今互联网资源迅速膨胀,搜索引擎能够从浩如烟海的杂乱信息中抽出一条清晰的检 索路径,让用户获得自己需要的信息。由蜘蛛程序实现的网页抓取模块是搜索引擎系 统提供服务的基础,从资源的角度决定了整个系统的成败...
本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本 工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的...
本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计...
本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建 方案。全书分三篇共13 章内容,从基本工作原理概述开始,到一个小型简单搜索 引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的...
搜索引擎的出现,整合了互联网上众多的网页资源,并提供信息导航和信息查询服务, 使信息的价值得到了网民和厂商的普遍认可。但是,搜索引擎的发展格局是多方面的,市场 需求的多元化也导致了搜索引擎的行业化和细...
搜索引擎汇聚了互联网中庞大的网页数据,融合了爬虫、数据库等多种技术,以搜索引擎算法为支撑,获得网站网页资料,建立数据库并提供查询的系统,通过网络上的各种链接自动获取大量网页信息内容,并通过自然语言处理...
文档从基本概念入手,详细阐述了全文搜索引擎如何通过爬取互联网信息、建立网页索引数据库,提供纯文字搜索结果的过程。同时,还深入剖析了全文搜索引擎的工作流程,包括网页抓取、预处理、建立索引、查询处理以及...
本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计...
对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,...
本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计...
搜索引擎的相关学习,所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理...
将中文文档进行字符化,即可被搜索引擎索引的字符单元 对于英文文档,经过以上处理之后,将经过处理之后所形成简化文档保存(如:News_1_E.txt),以备以后的索引处理 对于中文文档,经过以上处理之后,将经过处理...