18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 全文本数据管理标准(数据库)

全文本数据管理标准(数据库)

时间:2022-11-07 18:30:01 | 来源:信息时代

时间:2022-11-07 18:30:01 来源:信息时代

    全文本数据管理标准 : 对全文本多媒体数据进行规范化管理与应用的技术标准。全文本有时也简称“全文”。
全文数据的应用早在20世纪80年代就已经开始,当时主要是对文档进行“全文检索”。到了90年代一些全文检索软件的提供商开始考虑全文数据库的应用,提出查询语言。后来,ISO/IEC JTC1/SC32下属第四工作组(WG4)负责研究SQL/MM,制订了ISO/IEC 13249系列标准的第二部分,ISO/IEC13249-2 Information Technology—Database Languages—SQL Multimedia and Application Package—Part2:Full -Text,即“信息技术——数据库语言——SQL多媒体和应用包——第二部分节胜利: 全文本”,简称SQL/MM全文。
SQL/MM全文标准定义了一些用户定义类型(即UDTs),支持全文本数据的存储和检索,满足基于词、短语的全文检索和检索词的邻近扩展、模糊扩展、基于词库扩展以及文本分类和文本鉴别搜索模式构造的需要。
全文本(full-text)类用于构造文本和文本搜索的搜索模式。全文本类提供文本构造,用于测试文本是否包含特定的模式,以及将文本转换为字符串。
结构化搜索模式(structured search pattern)类用于构造结构化的搜索模式;FullText_Token类用于定义有效标记(tokens),即由分隔符分隔的字符串。
在标准中定义的类及其相关的过程都是为了使全文数据的管理与应用的操作处理简便、有效,具有智能检索或知识检索的功能。
内容管理、决策支持、数据挖掘、数据仓库等系统可以使用全文标准。
全文标准的目标是希望能够在图书馆、报业、多媒体、科学研究以及其他领域中应用。
SQL/MM全文标准尽量做到与语言无关。在标准的描述中,许多问题都规定为“由实现定义”。在应用到中文全文检索时,必须要描述中文自身特点所出现的问题和处理方法。
中文全文检索的方法主要按字和词为索引单元分成字和词两种。按字是指对于文本中的每一个字都建立索引,按词是指对于文本中的每一个词都建立索引。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。英文等西方文字由于按照空格切分词,因此实现上与按字处理类似。中文等东方文字则首先需要对文本中的字串切分成词,以达到按词索引的目的。SQL/MM全文标准中定义的查询是基于词这个基本语法单位,而词是由“标记化工具(tokenizer)”输出的,这个工具在中文环境下可以理解为“分词” 。
对于国内全文数据库厂商来说,要按照SQL/MM全文标准制定的要求去实现,显然缺乏相应的基础,即SQL以及SQL/MM框架本身的实现。而这部分技术,是基于结构化数据管理即SQL标准的要求,这对全文数据管理来说并不一定是必需的。SQL/MM全文标准,根本上是对关系数据管理标准的完善和补充。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭