搜索引擎由哪些部分组成?
蜘蛛负责网页信息的抓取。一般来说,分词器和索引器一起使用。他们负责对抓取的网页内容进行分词和自动索引,并建立索引数据库。查询者根据用户的查询条件搜索索引数据库,对搜索结果进行并、交等排序和聚合操作,然后提取网页的简单摘要信息,反馈给查询用户。Google搜索引擎从功能上也分为三个部分:网页抓取、索引入库和用户查询。网页抓取主要负责抓取网页,由URL服务器、爬虫、内存、分析器、URL解析器组成,爬虫是这部分的核心。索引入库主要负责对网页内容进行分析,对文档进行索引,并存储到数据库中。它由索引器和分类器组成。这个模块涉及到很多文档和数据,关于桶的操作是这一部分的核心。用户查询主要负责分析用户输入的检索表达式,匹配相关文档,并将检索结果返回给用户。它由查询装置和网页评分装置组成,网页评分的计算是这一部分的核心。举例:SOPI搜索引擎系统的组成SOPI是一个小型的搜索引擎系统,功能类似于百度和GOOGLE,适用于中小型网站和企业的信息搜索和展示服务。本网站的所有内容都是通过这个系统自动获取的。系统性能参数如下:平台:1U兼容服务器,双核至强2.8G,1G内存索引库大小:5G数据库:SqlServer2005运行环境:微软。NET Framework SDK v2.0平均内存使用量:600-900MCPU使用量:10%-80%每天新增文章和图片数量:65438+百万搜索时间:5G内容搜索。结果0.3-1秒SOPI由信息采集系统、信息分析系统、指标系统、管理系统和网站平台五部分组成。结构如下:搜索引擎的主要工作流程是:首先从蜘蛛开始,蜘蛛程序每隔一定时间(像google一般是28天)自动启动并读取网页的URL服务器上的URL列表,按照深度优先或广度优先搜索的方式抓取每个URL指定的网站,为抓取的网页分配一个唯一的文档ID(DocId),并存储在文档数据库中。通常,它在存储到文档数据库之前被压缩。并将当前页面上的所有超链接存储在URL服务器中。在爬取的同时,分词器和索引器对爬取的网页文档进行处理,根据网页中出现单词的位置和频率计算权重,然后将分词结果存储在索引数据库中。在整个爬行和索引工作完成后,更新整个索引数据库和文档数据库,以便用户查询最新的web信息。