当前位置:刘锭博客 > 优化推广 > 正文
201107/24

什么是搜索引擎的预处理?

刘锭-苏州seo 优化推广 Tag:/ 链接/ 关键词/ 预处理/ Comments 围观:

搜集到海量的原始网页集合,距离面向网络用户的检索效能之间还有相当的距离。微观地看,效能子系统是一个顺序。采用Wirth 关于“顺序= 算法+数据结构”的观念来调查个顺序,一个适宜的数据结构是查询子系统义务的中心和关键。这里只是指出:现行最有效的数据结构是“倒排文件”(inverted file) ;倒排文件是用文档中所含关键词作为索引,文档作为索引目的的一种结构(相似于普通书籍中,索引是关键词,书的页面是 索引目的)。下面讨论从网页集合构成这样的倒排文件进程中的几个主要效果,即我们所说的“预处理”。主要包括四个方面,关键词的提取,“镜像网页”(网页 的内容完全相反,未加任何修正)或“转载网页” (near-replicas,主题内容基本相反但可以有一些额外的编辑信息等,转载网页也称为“近似镜像网页” )的消弭,链接剖析和网页重要水平的计算。

1. 关键词的提取
随意取一篇网页的源文件(例如经过阅读器的“反省源文件”功用),我们可以看到其中状况纷乱冗杂。除了我们从阅读器中可以正常看到的文字内容外,还有大批 的HTML 标志。依据天网统计,网页文档源文件的大小(字节量)通常大约是其中内容大小的4 倍。另外,由于HTML 文档发作来源的多样性,许多网页在内容上比拟随意,不只文字不考究规范、完整,而且还可以包括许多和主要内容有关的信息(例如广告,导航条,版权说明 等)。这些状况既给有效的信息查询带来了应战,也带来了一些新的机遇,在前面的章节将会有进一步的论述。这里我们只是指出,为了支持前面的查询效力,需求 从网页源文件中提取出可以代表它的内容的一些特征。从人们如今的看法和实践来看,所含的关键词即 为这特征最好的代表。于是,作为预处置阶段的一个基转义务,就是要提取出网页源文件的内容局部所含的关键词。关于中文来说,就是要依据一个词典Σ,用一个 所谓“切词软件”,从网页文字中切出Σ所含的词语来。在那之后,一篇网页主要就由一组词来近似代表了, p = {t1, t2, …, tn}。普通来讲,我们可以失掉很多词,同一个词可以在一篇网页中屡次出现。从效果(effectiveness)和效率(efficiency)思索, 不应该让一切的词都出如今网页的表示中,要去掉诸如“的” , “在”等没有内容指表示义的词,称为“停用词” (stop word)。这样,对一篇网页来说,有效的词语数量大约在200个左右。
2. 网页重要水平的计算
搜索引擎前往给用户的,是一个和用户查询相关的结果列表。列表中条目的顺序是很重要的一个效果。由于面对各种各样的用户,加之查询的自然言语作风,对异常 的“关键词”前往相反的列表一定是不能使一切提交“关键词”的用户都满意的(或许都抵达最高的满意度)。因此搜索引擎实际上追求的是一种统计意义上的满 意。人们以为Google 目前比天网好,是由于在少数状况下前者前往的内容要更契合用户的需求,而不是所无状况下都如此。如何对查询结果中止排序有很多要素需求思索,前面将有深化 的讨论。这里只是概要解释在预处置阶段可以构成的所谓“重要性”要素。望文生义,既然是在预处置阶段构成的,就是和用户查询有关的。如何讲一篇网页比另外 一篇网页重要?人们参照科技文献重要性的评估方式,中心想法就是“被援用多的就是重要的”。“援用”这个概念恰恰可以经过HTML 超 链在网页之间表现得十分好,作为Google 创立中心技术的PageRank 就是这种思绪的成功表现[Page,et al.,1998]。除此以外,人们还留意到网页和文献的不同特点,即一些网页主要是大批对外的链接,其自身基本没有一个明白的主题内容,而另外有些网页 则被大批的其他网页链接。从某种意义上讲,这构成了一种对偶的关系,这种关系使得人们可以在网页上树立另外一种重要性目的 [Kleinberg,1998]。这些目的有的可以在预处置阶段计算,有的则要在查询阶段计算,但都是作为在查询效力阶段最终构成结果排序的局部参数。
3. 链接剖析
前面提到,大批的HTML 标志既给网页的预处置构成了一些费事,也带来了一些新的机遇。从信息检索的角度讲,假定系统面对的仅仅是内容的文字,我们能依据的就是“共有词汇假定”(shared bag of words) ,即内容所包括的关键词集 合,最多加上词频(term frequency或tf、TF)和词在文档集合中出现的文档频率(document frequency 或df、DF)之类的统计量。而TF 和DF 这样的频率信息能在一定水平上指示词语在一篇文档中的相对重要性或许和某些内容的相关性,这是有意义的。有了HTML 标志后,状况还可以进一步改善,例如在同一篇文档中, <H1>和</H1>之间的信息很可以就比在<H4>和</H4>之间的信息更重要。特别地,HTML 文档中所含的指向其他文档的链接信息是人们近几年来特别关注的对象,以为它们不只给出了网页之间的关系,而且还对判别网页的内容有很重要的作用。例如“北 大学报”这几个字在北京大学学报社会迷信版的主页上是没有的,因此一个仅靠内容文字剖析的搜索引擎就不可以前往该主页作为结果。但是北京大学主页上是用 “北大学报(社)”作为链接信息指向了北京大学学报社会迷信版的主页。因此在很好运用链接信息的搜索引擎中应该能前往北京大学学报社会迷信版的主页。
4. 重复或转载网页的消弭
与生俱来的数字化和网络化给网页的复制以及转载和修正再宣布带来了便利,因此我们看到Web 上的信息存在大批的重复现象。天网在2003 年的一次大规模统计剖析标明,网页的重复率平均大约为4。也就是说,当你经过一个URL 在网上看到一篇网页的时分,平均还有另外3 个不同的URL 也给出相反或许基本相似的内容。这种现象关于宽广的网民来说是有正面意义的,由于有了更多的信息访问机遇。但关于搜索引擎来说,则主要是负面的;它不只在搜集网页时要消耗机器时间和网络带宽资源,而且假定在查询结果中出现,有意义地消耗了计算机显示屏资源,也会引来用户的埋怨,“这么多重复的,给我一个就够了” 。因此,消弭内容重复或主题内容重复的网页是预处置阶段的一个重要义务。

接下来讲讲什么是搜索引擎的查询服务? 可参见  http://www.0736-seo.com/wzyh/271.html

本文地址:
版权所有 @ 转载时必须以链接形式注明作者和原始出处!