• 1
  • 2
  • 3
  • 4

google信息检索模型介绍

发表时间:2009-5-31 11:32:45   文章归类:google优化

 一,什么是google信息检索模型?

   信息检索模型(IR model)可形式化地表示为一个四元组:< D, Q, F, R(q, d) >
   其中D是一个文档集合,Q是一个查询集合,F是一个对文 档和查询建模的框架,R(q, d) 是一个排序函数,它给查 询q和文档 d之间的相关度,赋予一个排序值,即相关度评价。常见的信息检索模型有: … 

1、布尔模型(Boolean Model)

2、向量空间模型(Vector Space Model)

3、概率模型(Probabilistic Model)

4、推理网络模型(Inference Network Model)

 google信息检索的一个核心问题是如何决定查询和文档之间的相 关度,即信息检索模型中的排序函数R(q,d)。常用的相关度评价方法是向量空间模型(Vector Space Model,VSM) 。向量空间模型基于共有词汇假设(shared bag of words),即查询和文档都被认为是有所有关键词组成的 N维向量,相关度根据他们在向量空间中的夹角的cosine值表示,即R(d, q) = cos(d, q) = d·q / |d|×|q|。那么如何决定N维向量每一维的权重,即N维向量中每个关键词的权重呢??

    根据信息论原理,信息单位出现的频率越大,携带的信息越小。这就是说出 现频度很高的词对于文档区分的作用很小,比如汉语中的“的”,英语中的 “the”。基于这一原理,“逆文本频率指数”(Inverse Document Frequency, IDF)通 常被用来计算关键词的权重。关键词t的IDF值可以被表示为:IDF(t) = log( N/ df(t) ),其中N是所有文档总数, df(t)表示单词t的文档频率(Document Frequency), 即单词t在多少篇文档中出现。

   IDF是一个单词在语言中的统计特性,所以少量新文档加入对它影响很小,可以一次计算后作为单词的属性使用。把TF(t, d)定义为单词t在文档d中的出现频率,那么文档d中关键词t的权重可以表示为:
Weight(t, d) = TF(t, d) * IDF(t)

其中,IDF(t)对单词t来说是一个全局权值,而TF(t, d)则是单词t在文档d中的局部权值。

二,google信息检索模型的原理。

  根据TF*IDF公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;
   另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。

三,google信息检索模型评价标准。

   “效率”几乎是任何计算机系统都需要考虑的问题,比如算法的时空效率,对于信息检索系统,重要的效率指标通常 有: … 系统的查询响应时间(Response time)、系统的查询吞吐量(Request throughput)。
 “效果”关注用户需求的满足程度,对于信息检索系统通常 有两个指标:查全率(Recall)和查准率(Precision)。 … 查全率定义为检索结果集中的相关文档占整个文档全集中的相关 文档的百分比
… 查准率定义为检索结果集中与用户查询相关的文档占整个检索结 果中所有文档的百分比。
… 查全率是衡量检索系统取回相关信息的能力,查准率是衡量检索 系统拒绝非相关信息的能力。实验证明,在信息检索中,查全率 和查准率之间存在着相反的相互依赖关系,即查准率和查全率往 往不能两全其美,通常查准率高时,查全率低;查全率高时,查 准率低。

(推荐阅读:搜索引擎优化进阶:DocView模型
(推荐阅读:从索引与抓取看百度与Google的区别
(推荐阅读:搜索引擎的运作机制,原理篇
(推荐阅读:基于P2P的Web搜索强于集中式搜索引擎?
(推荐阅读:google工程总监认为人类长生不老的时代即将来临
(推荐阅读:Google优化方案英文版


  本文系原创文章,版权归为深圳网站优化所有,原文请查看链接地址http://www.baidu-seo.net.cn/google-seo/388/,转载必须带上此地址,并标明原始出处,否则将追究法律责任。

Tags: Google介绍  

©2007-2021 龙阳网络(www.baidu-seo.net.cn) 版权所有 闽ICP备14017888号-2