18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 文本数据库知识发现(数据库)

文本数据库知识发现(数据库)

时间:2022-11-28 08:30:02 | 来源:信息时代

时间:2022-11-28 08:30:02 来源:信息时代

    文本数据库知识发现 : 参见文本数据挖掘。
文本数据挖掘(text datamining)
针对文本数据进行的数据挖掘。文本数据是一类常见的数据。比如,电子书籍、电子报刊、电子邮件、网页和各种文本格式的文档资料等都是文本数据。文本数据中有些是结构化的,如,标题、作者出版日期等; 有些是非结构化的,如,摘要、内容和图表等。文本数据挖掘主要包括:
(1)文本摘要:从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释,以便用户不需要浏览全文即可了解文档或文档集合的总体内容。例如,搜索引擎在向用户返回查询结果时,常常给出文档摘要,目前,大部分搜索引擎采用的方法是简单截取文档的前几行。
(2)文本分类:按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。从而使用户不但能够方便地浏览文档,而且可以通过限制搜索范围使得文档的查找更为容易。典型的算法如TFIDF和Naive Bayes等。
(3)文本聚类:不同于文本分类,文本聚类没有预先定义好主题类别,其目的是将文档集合分成若干簇,要求同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可能小。例如,利用文本聚类技术将搜索引擎的检索结果划分为若干个簇,从而使用户只需要考虑那些相关的簇,大大缩小了所需要浏览结果的数量。典型的算法有以G-HAC等算法为代表的层次凝聚法,以k-means等算法为代表的划分法。
(4)文本关联分析:从文档集合中找出不同词语之间的关系。如Brin提出了一种从大量文档中发现一对词语出现模式的算法,并用来在文本文档上寻找作者和书名的出现模式,从而发现了数千本在Amazon网站上找不到的新书籍。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭