google信息检索模型介绍-google优化-龙阳网络

一，什么是google信息检索模型？

信息检索模型（IR model）可形式化地表示为一个四元组：< D, Q, F, R(q, d) >
其中D是一个文档集合，Q是一个查询集合，F是一个对文档和查询建模的框架，R(q, d) 是一个排序函数，它给查询q和文档 d之间的相关度，赋予一个排序值，即相关度评价。常见的信息检索模型有：

1、布尔模型（Boolean Model）

2、向量空间模型（Vector Space Model）

3、概率模型（Probabilistic Model）

4、推理网络模型（Inference Network Model）

google信息检索的一个核心问题是如何决定查询和文档之间的相关度，即信息检索模型中的排序函数R(q,d)。常用的相关度评价方法是向量空间模型(Vector Space Model，VSM) 。向量空间模型基于共有词汇假设（shared bag of words），即查询和文档都被认为是有所有关键词组成的 N维向量，相关度根据他们在向量空间中的夹角的cosine值表示，即R(d, q) = cos(d, q) = d·q / |d|×|q|。那么如何决定N维向量每一维的权重，即N维向量中每个关键词的权重呢？？

根据信息论原理，信息单位出现的频率越大，携带的信息越小。这就是说出现频度很高的词对于文档区分的作用很小，比如汉语中的“的”，英语中的 “the”。基于这一原理，“逆文本频率指数”（Inverse Document Frequency, IDF）通常被用来计算关键词的权重。关键词t的IDF值可以被表示为：IDF(t) = log( N/ df(t) )，其中N是所有文档总数， df(t)表示单词t的文档频率(Document Frequency)，即单词t在多少篇文档中出现。

IDF是一个单词在语言中的统计特性，所以少量新文档加入对它影响很小，可以一次计算后作为单词的属性使用。把TF(t, d)定义为单词t在文档d中的出现频率，那么文档d中关键词t的权重可以表示为：
Weight(t, d) = TF(t, d) * IDF(t)

其中，IDF(t)对单词t来说是一个全局权值，而TF(t, d)则是单词t在文档d中的局部权值。

二，google信息检索模型的原理。

根据TF*IDF公式，文档集中包含某一词条的文档越多，说明它区分文档类别属性的能力越低，其权值越小；
另一方面，某一文档中某一词条出现的频率越高，说明它区分文档内容属性的能力越强，其权值越大。

三，google信息检索模型评价标准。

“效率”几乎是任何计算机系统都需要考虑的问题，比如算法的时空效率，对于信息检索系统，重要的效率指标通常有：系统的查询响应时间（Response time）、系统的查询吞吐量（Request throughput）。
“效果”关注用户需求的满足程度，对于信息检索系统通常有两个指标：查全率（Recall）和查准率（Precision）。查全率定义为检索结果集中的相关文档占整个文档全集中的相关文档的百分比
查准率定义为检索结果集中与用户查询相关的文档占整个检索结果中所有文档的百分比。
查全率是衡量检索系统取回相关信息的能力，查准率是衡量检索系统拒绝非相关信息的能力。实验证明，在信息检索中，查全率和查准率之间存在着相反的相互依赖关系，即查准率和查全率往往不能两全其美，通常查准率高时，查全率低；查全率高时，查准率低。

（推荐阅读：搜索引擎优化进阶：DocView模型）
（推荐阅读：从索引与抓取看百度与Google的区别）
（推荐阅读：搜索引擎的运作机制，原理篇）
（推荐阅读：基于P2P的Web搜索强于集中式搜索引擎？）
（推荐阅读：google工程总监认为人类长生不老的时代即将来临）
（推荐阅读：Google优化方案英文版）

本文系原创文章,版权归为深圳网站优化所有,原文请查看链接地址http://www.baidu-seo.net.cn/google-seo/388/,转载必须带上此地址,并标明原始出处,否则将追究法律责任。