18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 文本信息检索(数据库)

文本信息检索(数据库)

时间:2022-11-28 14:30:01 | 来源:信息时代

时间:2022-11-28 14:30:01 来源:信息时代

    文本信息检索 : 根据相似匹配度量模式,将用户的查询请求与文本文档集合中的内容进行相似度比较,查找出一组相似度高的信息反馈给用户的一种信息检索。
在文本信息检索中,常常用文档中含有的词汇集合来近似表示文档的内容。但并不是全部词汇都可以用来描述文档。例如,汉语中的“的”、“和”,英语中的冠词、前置词等一类词汇一般情况下可以认为与文档内容无关。因此,用一组词汇近似描述文档时,提取能够描述文档内容的特征词就显得极为重要。我们称这种特征词为索引项(indexing term),从文档中提取索引项的处理称为索引(indexing)。索引方法一般有两种: 人工索引(manual indexing)和自动索引(automatic indexing)。人工索引是指人工从文档中提取出重要的特征词。当处理大量的文档集合时,需要多人提取各自认为是重要的文档特征词的工作,这就难以保证文档特征词的一致性。此外,人工提取成本太高,自动索引也就应运而生。自动索引就是计算机自动地从文档中提取特征词。
通常,索引项用文档中出现的单词表示。因此,为了从文档中提取索引项首先就要确定构成文档的连续字符中的哪一部分是单词。单词的确定随书写文档的语言不同处理方法极为不同。英语、法语等欧美语言由于词与词之间有空隔分隔,单词确定较为容易,而汉语、日语等语言因为词间无空格,确定单词本身就极为困难。对于汉语、日语等词间无间格的语言,为了能正确提取单词需先进行词法分析(morphological analysis)。词法分析是将构成文档的字符序列分割成单词,并对各个单词赋予词性和词形变化等信息。在词法分析中,既有用文档中的词与词典中单词进行匹配来确定单词的方法,也有先从大规模文本文档数据库中求出字符或词的出现概率,再根据求得的概率确定单词的方法。文档的索引单位除单词之外,还有许多其他的索引单位。典型的方法是,从字符序列开始,一字字地向右取,取N个字符的N元组索引(N-gram indexing)方法。特别是,当N=1,2,3时,分别称为单元组(unigram),即按字索引方法、双元组(bigram)和三元组(trigram)索引。在提取索引项时,一般还需进行停用词处理、词干提取(stemming)等技术。
索引项加权是对各个索引项赋予使查全率和查准率提高的权重。为了提高查全率,尽量为多数文档中的高频索引项加较重的权值;为了提高查准率,尽量为只在少数特殊的文档中出现的索引项加较重的权值。设有n个文档D1,D2,…,Dn从这些文档中共提取了m个索引项w1,w2,…,wm。索引项wi在文档Dj中的权重dij按以下三项指标:局部权重lij(local weight)、全局权重gi(global weight)、文档规范化系数nj(document normalization factor)加权。即,索引项的权重用上述三项指标按下式计算:

dij=lijgi/nj


其中,局部权重lij是按索引项wi在文档Dj中的出现频率计算的权重。以提高查全率为目的,给文档中频繁出现的索引项赋予较大的权值。全局权重gi是按索引项在文档集合中的分布确定的权重。以提高查准率为目的,为集中在特定文档中出现的索引项赋予较大的权值。文档规范化系数nj是随着文档的长度加长,其中含有的索引项数也随之增加,因此,长文档的索引项就会有较大的权重。nj是为消除这种长文档的影响而导入的文档规范化系数。
在文本信息检索中,检索系统采用的查询和文档集合内部表示、相似匹配的方式决定所采用的检索策略和模式,构建检索模型。例如,向量空间模型用多维向量表示文档和查询请求,文档和用户查询的相似度度量就是向量间的相似度计算。向量的元素是索引项的权重,它表示各个索引项对描述文档内容贡献程度的大小。例如,一个词在所有的文档中都出现的话,用这个词作为索引项就没有什么意义,因为它不能描述不同文档的差别。所以,在向量空间模型中,索引项的提取和索引项的加权对文档内容的描述是极其重要的。
全文检索模型有顺序检索和索引检索两种类型。所谓顺序检索,是指当有一个查询时,表示检索对象的文档和查询的关键词间直接进行字符串匹配。这种方式对大规模的文档来说,存在时间效率上的问题。但由于不需要事先作处理,对于内容不断变化的文档来说较为合适。例如,顺序检索在编辑器和字处理器等方面得到广泛的应用。
索引检索需要事先进行预处理工作,从文档中提取索引项并建立一个索引表。为了容易进行检索,表中存放索引项及其在文档中相应位置的信息。检索时由于不是直接在文档中,而是仅仅在索引表中检索,所以具有快速检索大规模文档的优点。一般,随着文档量的增加,索引的存储量也会增加,自然就带来建立索引表的开销增大。不过,由于近年来计算机的高性能化和存储器的低价格化,与建立索引的预处理工作相比,人们更重视高速的检索性能。所以,Internet的搜索引擎等系统在检索大规模的文档时都采用了索引检索。
文本信息检索技术已被后来发展的多媒体信息检索技术继承和改进。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭