18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 音视频数据管理标准(数据库)

音视频数据管理标准(数据库)

时间:2022-12-06 06:30:01 | 来源:信息时代

时间:2022-12-06 06:30:01 来源:信息时代

    音视频数据管理标准 : 对这类数据实现规范化管理与应用的标准。音频数据是人类能够听得到的声音频率范围的信号媒体; 视频数据也是依据人眼对一系列静态图像在每秒扫过24帧(frame)以上时的视觉效果所确定的信号媒体。音频视频数据管理是对上述特定范围内可用计算机设施加以捕捉、记录、存储、管理、处理、传递与重现的信号媒体数据的管理。音频、视频数据除了具有文本、图形、图像、空间等多媒体数据的非结构化、数据量大、处理复杂等特点外,其还具有空间特性及时序性,特别是音视频之间还存在着同步关系等非常强的时序特性。因此,音视频数据的表示必须反映出它们之间的这种时空关系,即准确的时间顺序和空间布局,数据处理要保证各种信息单元之间在时间上同步和空间上衔接。音视频数据即是以某种编码方式表示音视频这种时序、空间特性的数据集。
人类获得信息的方式,70%来自视觉,20%来自听觉,由此可见音视频数据的应用是最为广泛的,其除了应用于人们生活的方方面面外,还涉及军事的各个领域。所以音视频数据的研究、管理和应用,是现在和将来多媒体标准化领域的研究重点,受到了各方面的关注。音视频数据管理标准是多媒体数据库标准中的音频和视频数据库标准,这也是多媒体数据库中最为复杂的一类,因此,截止到目前为止还没有真正的音视频数据管理标准。但同样是因为音视频数据的海量性和复杂性,决定了音视频数据库技术的研究以及标准的制定,必须依托于音视频数据的压缩编码技术和标准的成熟,以及音视频等多媒体数据元等描述方法的成熟和标准化。ISO/IEC JTC1 SC29 WG11制定的MPEG系列标准即是这类音视频媒体数据管理标准的基础标准。
国际标准化组织ISO/IEC JTC1 SC29 WG11制定的基于对象的音视频编码国际标准ISO/IEC14496(MPEG-4)是和音视频数据库相关的最为重要的国际标准之一。MPEG-4国际标准的目标是: 支持多种媒体的应用,特别是多媒体信息基于内容的检索和访问,可根据不同的应用需求,现场配置解码器。MPEG-4国际标准对音视频的编码是基于对象的,这样便于操作和控制对象,这样可以使用户将不同对象进行拼接而得到用户自己想要的合成图像。而对于音视频数据库来说,这种基于对象的压缩编码方法,也符合音视频等基于对象的多媒体数据库的建立和查询等操作。另外,MPEG-4在扩展性上具有很好的灵活性,其可根据现场带宽和误码率的客观条件,在时域或空域进行扩展,时域扩展是在带宽允许时在基本层之上的增强层中增加帧率,在带宽不足时可以在基本层中减少帧率,以达到充分利用带宽,使图像质量更好; 空域扩展是指对基本层中的图像进行插值,增加或减少空间分辨率。MPEG-4的这种扩展性应用到音视频数据库中,将为音视频数据库的存储和检索带来极大的便利。
国际标准化组织ISO/IEC JTC1/SC29 WG11制定的基于内容检索的音视频多媒体内容描述接口国际标准ISO/IEC 15938(MPEG-7)也是和音视频数据库相关的最为重要的国际标准。MPEG-7国际标准的目标是: 为各种类型的多媒体信息规定一种标准化的描述,这种描述和多媒体信息的内容本身一起,支持用户对其感兴趣的各种“资源”的快速、有效的检索。各种“资源”包括: 静止图像、图形、音频、视频,以及如何将这些元素组合到一起的合成信息。MPEG-7用来为不同类型的多媒体信息描述定义一个新标准。虽然计算机能很容易查找文字,但查找音频和视频内容则很困难。MPEG-7描述能通过数据如静止图画、图形、三维模型、音频、演讲、视频来定位,或远程地用该数据描述的双向指针来定位。MPEG-7国际标准中这些标准化描述可以加到任何类型的多媒体资料上,不管多媒体资料的表示格式如何,或以什么压缩形式,加上了这种标准化描述的多媒体数据就可以被索引和检索。
对音视频数据的描述大致可分为两类,一类是对图像、音频、视频等多媒体数据内容的文字描述,另一类是运用各种数字信号处理技术从图像、音频、视频数据中提取出来的特征信息。前者虽然简单,但需要较多的人工介入,而且得到的描述结果通常不能够准确地反映数据所包含的信息,这就导致了查询结果往往带有很强的不确定性。后者自动化程度高,但查询机制的性能要受到所提取的特征信息的类型、合理程度等诸多因素的影响,而且特征提取过程所需的运算量也比较大。描述数据是音视频等多媒体数据库管理系统为了支持较为高级的查询而引入的,是与特定多媒体数据库相应的附加的冗余信息。当前的信息提取技术水平能够允许多媒体数据库管理系统较为有效地支持用户对文本数据的检索,但在提取及查询图像、音频或视频数据的方面,还没有令人满意的方法。
对于音视频数据库中音频或视频内容的检索,其常用检索内容主要包括:
(1)视频:视频建立在图像的基础上,先有图像的内容才可以得到视频的内容,其检索主要有: ①镜头: 镜头是视频的基本单位,包括切换、渐变等的划分; ②摄像动作: 对各种摄像动作的提取,如摇、推、拉、追踪等; ③运动对象: 查找视频序列中的某一运动对象; ④场景: 寻找和组合相同的镜头等。
(2)音频: 音频的内容检索包括特定模式的查找,特定词、短语、音乐旋律和特定声音的查找等。早期的研究更多的是致力于语音内容的识别,但对数据库来说查找非语音信号可能会更有效,例如,讲话人的性别、声音的间隔、特殊的背景声与前景声的组合等。由于声音常常伴随其他媒体存在,所以,寻找这些特征有利于对其他媒体的检索。例如,在足球比赛时,一阵大声的喧哗可能意味着进了球,只要能够检索出这段声音,也就可以基本确定对视频的索引。
MPEG-4和MPEG-7国际标准的制定和应用的逐步成熟(MPEG-4标准的应用已逐渐成熟,但MPEG-7的应用还正在起步当中),已经为未来多媒体数据库中音视频数据库的构建模式打下了核心技术基础,未来音视频数据库的建立和音视频数据管理标准的制定必将构建于MPEG-4和MPEG-7国际标准之上,其应用还需由MPEG-21标准的框架支持。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭