时间:2022-10-08 14:30:01 | 来源:信息时代
时间:2022-10-08 14:30:01 来源:信息时代
文本过滤 : 依据一定的标准和运用一定的工具从大量的文本数据流中选取用户需要的信息,或剔除用户不需要的信息的方法,亦称“信息过滤”。
1958年H. P.卢恩(Hans Peter Luhn)提出的“商业智能机器”是文本过滤的最早雏形,其所提出的构想涉及信息过滤系统的每一个方面,为后来的文本过滤做了很好的铺垫。1987年T. W. 马龙(Thomas W. Malone)等人提出了认知、经济、社会的信息选择模式,其中认知模式相当于基于内容的信息过滤;经济模式来自于D. 丹宁(Dorothy Denning)的阈值接受思想;社会模式即协同过滤。1989年,美国第二届消息理解会议(Message Understanding Conferences,MUC)开始将自然语言处理技术引入到信息研究中来。20世纪90年代,文本检索会议(Text Retrieval Conference,TREC)每年都把文本过滤当作一个重要的研究内容,促进了文本过滤技术的发展。从第四届文本检索会议(TREC-4)开始,增加了文本过滤的项目;从1997年第六届文本检索会议(TREC-6)开始,文本过滤主要任务确定下来;第七届文本检索会议(TREC-7)又将信息分为自适应过滤、批过滤和分流过滤,使得对信息过滤的研究更加深入。中文文本过滤技术研究起步于21世纪第一个十年,随着信息安全、信息定制等应用的兴起,中国对于信息过滤尤其是文本过滤技术的研究也得到人们普遍的重视。中国科学院计算机研究所、复旦大学都曾参加了文本检索会议评测中的信息过滤任务,哈尔滨工业大学、南开大学等重点科研单位也已经开始对信息过滤进行了研究。
文本过滤工作基本上可以概括为两项:一是建立用户需求模型,表达用户对信息的具体需求;二是检索匹配技术,即信息过滤、信息检索和文本匹配技术。文本过滤的主要流程是:首先根据用户的信息需求,建立用户需求模型;然后在相应的文本流中搜索符合用户需求的文本,同时利用反馈改进需求模型。随着信息过滤需求的增长和研究的深入发展,其他相关领域的技术被应用到文本过滤中,如信息检索中的相关反馈、伪相关反馈,以及文本检索中的向量空间模型技术、文本分类和聚类技术、机器学习以及语言底层的处理技术,拓展了文本过滤的研究广度,推动了文本过滤理论研究与技术应用的发展。