时间:2022-11-28 08:30:02 | 来源:信息时代
时间:2022-11-28 08:30:02 来源:信息时代
文本数据库知识发现 : 参见文本数据挖掘。
文本数据挖掘(text datamining)
针对文本数据进行的数据挖掘。文本数据是一类常见的数据。比如,电子书籍、电子报刊、电子邮件、网页和各种文本格式的文档资料等都是文本数据。文本数据中有些是结构化的,如,标题、作者出版日期等; 有些是非结构化的,如,摘要、内容和图表等。文本数据挖掘主要包括:
(1)文本摘要:从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释,以便用户不需要浏览全文即可了解文档或文档集合的总体内容。例如,搜索引擎在向用户返回查询结果时,常常给出文档摘要,目前,大部分搜索引擎采用的方法是简单截取文档的前几行。
(2)文本分类:按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。从而使用户不但能够方便地浏览文档,而且可以通过限制搜索范围使得文档的查找更为容易。典型的算法如TFIDF和Naive Bayes等。
(3)文本聚类:不同于文本分类,文本聚类没有预先定义好主题类别,其目的是将文档集合分成若干簇,要求同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可能小。例如,利用文本聚类技术将搜索引擎的检索结果划分为若干个簇,从而使用户只需要考虑那些相关的簇,大大缩小了所需要浏览结果的数量。典型的算法有以G-HAC等算法为代表的层次凝聚法,以k-means等算法为代表的划分法。
(4)文本关联分析:从文档集合中找出不同词语之间的关系。如Brin提出了一种从大量文档中发现一对词语出现模式的算法,并用来在文本文档上寻找作者和书名的出现模式,从而发现了数千本在Amazon网站上找不到的新书籍。