当前位置:刘锭博客 > seo基础 > 正文
201107/29

中文分词技术分析及其意义

刘锭-苏州seo seo基础 Tag:/ 百度/ 谷歌/ 中文分词/ Comments 围观:
 从现阶段的实践状况来看,英文曾经跨越了分词这一步,也就是说在词的运用上曾经先我们一步,并且曾经展现了良好的运用前景,无论是信息检索还是主题剖析 的研讨都要强于中文,究其基本缘由就是中文要经过火词这道难关,只需攻破了这道难关,我们才有希望赶上并跨越英文在信息范围的展开,所以中文分词对我们来说意义严重,可以说直接影响到运用中文的每一集团的方方面面。
要想说清楚中文分词的意义和作用,就要提到智能计算技术。智能计算技术触及的学科包括物理学、数学、计算机迷信、电子机械、通讯、生理学、退步实际和心思 学等等。复杂的说,智能计算就是让机器“能看会想,能听会讲”。要想完成这样的一个目的,首先就要让机器了解人类的言语,只需机器了解了人类的言语文字, 才使得人与机器的 交流成为可以。再反观我们人类的言语中,“词是最小的可以独立活动的有意义的言语成分”,所以关于中文来讲,将词确定上去是了解自然言语的第一步,只需跨 越了这一步,中文才干象英文那样过渡到短语划分、概念抽取以及主题剖析,致使于自然言语了解,最终抵达智能计算的最高境界,完成人类的梦想。
中文分词终究对搜索引擎有多人影响?关于搜索引擎来说,最重要的少「不是找到一切结果,由于在上百亿的网页中找到一切结果没有太多的意义,没有人能看得 完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,经常直接影响到对搜索结果的相关度排序。在现有三个中文搜索引擎上做 测试,测试方法是直接在Google(http://www.google.com )、百度(http://www.baidu.com )、中搜(http://www.zhongsou.com )上以“xx”为关键词中止搜索。
Google的中文分词技术采用的是美国Basis Technology (http://www.basistech.coin)公司提供的中文分词技术,百度运用的是自己公司开发的分词技术,中搜运用的是国际海量科技(http://www.hylanda.coin )提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。

本文地址:
版权所有 @ 转载时必须以链接形式注明作者和原始出处!