文档和词项

这篇文档旨在对于Xapian 提供一些理论背景。

文档和词项 Documents and terms

在信息检索中(Information Retrieval),我们尝试检索的对象被成为 ‘文档’ (documents),并且在这种模型下,每篇文档被看成是一系列词的结合(a collection of terms)。这两个词语, ‘文档’和’词项’ ,在信息检索的词典中是经典的,以及反应了它的图书馆学的起源。通常,一个文档被认为是一段文本,最可能是机器可读的形式,一个词项作为一个词语或短语来帮助描述文档,以及确实会在文档中出现若干次。所以一个文档可能是关于牙科护理,可以被相关的词项比如 ‘tooth’,’teeth’,’toothbrush’,’decay’,’cavity’,’plaque’,’diet’ 等等来描述。
更普遍的,一个文档可以成为我们想检索的一切,一个词项的任何特征可以帮助我们描述文档。所以文档可以看成是放在博物馆里收藏的化石,词项可以看成是化石的形态特征。或者文档看成是歌曲,词项就是出现在歌曲乐句的音符。

如果,在一个IR系统,文档D ,被词项t描述,t被称为索引D ,我们写成
t → D
事实上一个IR系统包含了一组文档 D1, D2, D3 …一组词项t1, t2, t3… 以及这些关系
ti → Dj
例如 词项索引文档的实例。 一个特别的单词项索引一个特别的文档,称为 倒挂索引(posting).

对于一个文档D,有一列词项索引它,这称为 t 的 倒挂索引列 (文档列表 会更加连贯,但对于这个非常重要的概念似乎有些模糊)

在一个简单的层次,一个计算机处理的IR系统将词项放入索引文件中,词项就能高效的查阅和寻找它的倒挂索引列。在倒挂索引列表中,每个文档用一个简短的标示符来表示。为了进一步简化,一个倒挂索引列表可以看做是一列数字(文档id) ,词项列表是一列字符串。某些系统内部用一个数字来代表一个词项,所以词项列表也是一列数字。Xapian使用词项本身,以及使用前缀压缩紧凑地存储。
词项并不一定要是来源于文档。通常它们被转化为小写,以及应用词干提取算法,所以一个词项’connect’ 可以来源于许多词语,’connect’,’connects’,’connection’,’connected’ 等等。一个词语也可能产生不止一个词项,例如你可能检索提取过的以及未被提取过得词项。或者词干提取算法可能产生不止一个词干。

学习信息检索 接触xapian
翻译只翻译了一小部分,有时间再翻译

原文:
http://xapian.org/docs/intro_ir.html

Spread the love