当前位置:刘锭博客 > 优化推广 > 正文
201107/24

搜索引擎的查询服务是什么?

刘锭-苏州seo 优化推广 Tag:/ 搜索引擎/ 百度/ 排名/ Comments 围观:

前面《搜索引擎的功能结构三大功能模块》已经提到了搜索引擎的查询服务,那什么是查询服务呢?

从一个原始网页集合S 末尾,预处置进程失掉的是对S 的一个子集的元素的某种外部表示,这种表示构成了查询效能的直接基础。对每个元历来说,这种表示至少包括如下几个方面:
1、原始网页文档
2、所含的重要关键词的集合(以及它们在文档中出现的位置信息)
3、URL 和标题
4、其他一些目的(例如重要水平,分类代码等)


而系统关键词总 体的集合和文档的编号一同构成了一个倒排文件结构,使得一旦失掉一个关键词输入,系统能迅速给出相关文档编号的集合输入。但是,似乎我们在前面提到的,用 户经过搜索引擎看到的不是一个“集合” ,而是一个“列表”。如何从集合生成一个列表,是效能子系统的主要义务。从搜索引擎系统功用划分的角度,有时分将倒排文件的生成也作为效能子系统的一局部 功用,但我们这里将它划分到预处置阶段中觉得更方便些。换句话讲,效能子系统是在效能中止的进程中触及的相关软件顺序,而为这些软件顺序事前预备数据的顺 序都算在预处置子系统中。下面来看对效能子系统的要求和其义务原理,主要有三个方面。
1. 查询方式和婚配
查询方式指的是系统允许用户提交查询的方式。思索到各种用户的不同背景和不同的信息需求,不可以有一种普适的方式。普通以为,关于普通网络用 户来说,最自然的方式就“要什么就输入什么”。但这是一种相当模糊的说法。例如用户输入“北京大学”,可以是他想了解北京大学目前有些什么信息向外发布, 想看看往年的招生政策(于是希望看的是北大网站上的内容) , 也可以是他想了解外界目前对北京大学有些什么评价(于是希望看到的是其他声威网站上关于北大的音讯)。这是两种相当不同的需求。在其他一些状况下,用户可 以关心的是直接信息,例如“喜马拉雅山的高度” ,8848 米应该是他需求的,但不可以包括在这短语中。而用户输入“惊起一滩鸥鹭”则很可以是想知道该词的作者是谁,或许希望能提示前面几句是什么。虽然如此,用一 个词或许短语来直接表达信息需求,希望网页中含有该词或许该短语中的词,依然是主流的搜索引擎查 询方式。这不只由于它确实代表了大少数的状况,还由于它比拟容易完成。这样,普通来讲,系统面对的是查询短语。就英文来说,它是一个词的序列;就中文来 说,它是包括若干个词的一段文字。普通地,我们用q0表示用户提交的原始查询,例如,q0 =“网络与散布式系统实验室”。它首先需求被“切词”(segment)或称“分词”,即把它分红一个词的序列。如上例,则为“网络与散布式系统实验室” (留意,不同的分词软件可以得出不同的结果,这里用的是北大计算言语所的在线分词软件)。然后需求删除那些没有查询意义或许简直在每篇文档中都会出现的词 (例如“的” ) ,在本例中即为“与”。最后构成一个用于参与婚配的查询词表,q = {t1, t2, …,tm},在本例中就是q = {网络,散布式,系统,实验室}。前面讲过,倒排文件就是用词来作为索引的一个数据结构,显然,q 中的词必需是包括在倒排文件词表中才有意义。有了这样的q, 它的每一个元素都对应倒排文件中的一个倒排表(文档编号的集合),记作L(ti),它们的交集即为对应查询的结果文档集合,从而完成了查询和文档的婚配。 上述进程的基本假定是:用户是希望网页包括所输入查询文字的。
2. 文档摘要
搜索引擎给出的结果是一个有序的条目列表,每一个条目有三个基本的元素:标题,网址和摘要。其中的摘要需求从网页注释中生成。普通来讲,从一篇文字中生成 一个恰当的摘要是自然言语了解范围的一个重要课题,人们曾经做了多年的义务并取得了一些效果。但相关的技术用到网络搜索引擎来有两个基本困难。一是网页的 写作通常不规范,文字比拟随意,因此从言语了解的角度难以做好好;二是复杂的言语了解算法耗时太多,不顺应搜索引擎要高效处置海量网页信息的需求。我们做 过统计,即使是分词这一项义务(文本了解的基础) ,在高档微机上每秒钟也只能完成10篇左右网页的 处置。因此搜索引擎在生成摘要时要简便许多,基本上可以归结为两种方式,一是静态方式,即独立于查询,依照某种规则,事前在预处置阶段从网页内容提取出一 些文字,例如截取网页注释的扫尾512 个字节(对应256 个汉字),或许将每一个段落的第一个句子拼起来,等等。这样构成的摘要寄存在查询子系统中,一旦相关文档被选中与查询项婚配,就读出前往给用户。显然,这 种方式对查询子系统来说是最轻松的,不需求做另外的处置义务。但这种方式的一个最大的缺陷是摘要和查询有关。一篇网页有可以是多个不同查询的结果,例如当 用户区分查询“北大计算机网络”和“北大散布式系统” ,当用户输入某个查询,他普通是希望摘要中可以突出显示和查询直接对应的文字,希望摘要中出现和他关心的文字相关的句子。因此,我们有了“静态摘要”方 式,即在照应查询的时分,依据查询词在文档中的位置,提取出周围的文字来,在显示时将查询词标亮。这是目前大少数搜索引擎采用的方式。为了保证查询的效 率,需求在预处置阶段分词的时分记住每个关键词在文档中出现的位置。

3. 结果排序
苏州seo了解,失掉和用户查询相 关的文档集合的进程。这个集合的元素需求以一定的方式经过计算机显示屏出现给用户。就目前的技术状况看,列表是最稀有的方式(但人们也在探求新的方式,如 Vivisimo 引擎将结果页面以类别的方式出现)。给定一个查询结果集合,R={r1, r2, …, rn},所谓列表,就是依照某种评价方式,确定出R 中元素的一个顺序,让这些元素以这种顺序出现出来。笼统地讲,ri 和q 的相关性(relevance)是构成这种顺序的基本要素。但是,有效地定义相关性自身是很困难的,从原理上讲它不只和查询词有关,而且还和用户的背景, 以及用户的查询历史有关。不同需求的用户可以输入同一个查询,同一个用户在不同的时间输入的相反的查询可以是针对不同的信息需求。为了构成一个适宜的顺 序,在搜索引擎出现的早期人们采用了传统信息检索范围很成熟的基于词汇出现频度的方法。大致上讲就是一篇文档中包括的查询(q)中的那些词越多,则该文档 就应该排在越前面;再精细一些的思索则是若一个词在越多的文档中有出现,则该词用于区分文档相关性的作用就越小。这样一种思绪不只需一定直觉上的道理,而 且在倒排文件数据结构上很容易完成。由于,当我们经过前述关键词的提取进程,构成一篇文档的关键词集合,p = {t1,t2, …, tn}的时分,很容易同时失掉每一个ti 在该文档中出现的次数,即词频, 而倒排文件中每个倒排表的长度则对应着一个词所触及的文档的篇数,即文档频率。但是,由于网页编写的自发性、随意性较强,仅仅针对词的出现来决议文档的顺 序,在Web 上做信息检索表现出清楚的缺陷,需求有其他技术的补充。这方面最重要的效果就是前面提到过的PageRank。经过在预处置阶段为每篇网页构成一个独立于 查询词(也就和网页内容有关)的重要性目的,将它和查询进程中构成的相关性目的结合构成一个最终的排序,是目前搜索引擎给出查询结果排序的主要方法。

除上述外,查询效能前往的内容还有一些细节的支持。例如,对应一个查询往往会有数不胜数的结果,前往给用户的内容通常都是按页组织的,普通每页显示10 个结果。统计标明[Wang, et al.,2001], 网络用户普通没有耐烦一页页看下去,平均翻页数小于2。这通知我们将第一页的内容组织好十分重要。假定希望用户多用搜索引擎,就要让第一页的内容尽量有吸引力。

 

本文地址:
版权所有 @ 转载时必须以链接形式注明作者和原始出处!