视频检索(数据库)

时间：2022-11-13 12:30:02 | 来源：信息时代

时间：2022-11-13 12:30:02 来源：信息时代

视频检索 : 从大量的视频数据中找到所需要的视频片断的一种多媒体数据检索方法。
视频检索方法包括基于外部特征的查询、基于文字描述/注释的查询和基于内容的检索。目前比较成功的系统有卡内基·梅隆大学的数字视频图书馆系统informedia,它结合语音识别、视频分析和文本检索技术,实现基于知识的查询和检索; IBM的QBIC(query by image content)系统通过范例、用户描绘的草图、选择的颜色和纹理图案、摄像机移动、组成物体运动情况等方式进行检索。此外,还有Columbia大学的VisualSEEK系统、斯坦福大学的数字图书馆、MIT的view station projects。基于内容的视频检索(CBVR)是目前CBR研究的热点,它根据视频的内容和上下文关系,通过对非结构化的视频数据进行结构化分析和处理,采用视频分割技术,将连续的视频流划分为具有特定语义的视频片段(shot/clip),作为检索的基本单元,在此基础上进行关键帧(代表帧)(representative frame)的提取和动态特征的提取,建立特征索引; 依据视频片断组织特征索引,采用视频聚类等方法把内容相近的片断组合起来,逐步缩小检索范围,直至查询到所需的视频数据。视频检索中可以利用的信息还有摄像机运动、视频流中的目标运动等。以下是视频检索的几项关键技术。
1.视频分割——视频片断边界检测
将视频自动地分割为片断的过程就称为视频片断边界检测,也叫场景切换检测(scene change detection),是实现基于内容的视频检索的第一步。片断边界检测算法的研究是视频分析与检索中最活跃的研究领域之一,目前已发表的算法可分为模板匹配法、直方图法、基于边缘的方法和基于模型的方法等。模板匹配法的缺点是对噪声和片断或物体运动非常敏感,可能导致错误的场景切换检测。直方图法不考虑像素的位置信息,因而抗噪声能力比模板匹配法要强,但有时会漏掉场景切换。基于边缘方法在发生片断切换时,新出现的边缘应远离旧边缘的位置,同样,旧边缘消失的位置应远离新边缘的位置。上述三检测方法都是通过计算帧间差自下而上来进行片断边界检测的,对于突变检测可以取得较好的效果,但对于渐变检测则有一定的困难,因为它在很大程度上忽略了渐变切换中帧之间结构上的相关性。基于模型的方法是利用对视频片断编辑的先验知识,对各种片断切换建立一定的数据模型,自上向下地进行片断切换的检测。因此,这种方法对片断渐变的检测往往能取得较好的效果。
2. 关键帧抽取
(1)基于片断的关键帧提取方法:简单的方法就是把每个片断的第一帧作为关键帧。如果片断内容变化较大,则应该提取多帧关键帧。目前大多以低层视觉特性为衡量标准来抽取多帧关键帧。主要方法有基于颜色和基于运动的方法。前者的缺点是帧的选取依赖于阈值的选择,且颜色特征不能很好地表达视频的语义信息。后者指适合于时序上有动态变化帧的运动光流法: 分析光流场运动强度函数,把具有极小运动强度的帧作为关键帧。存在的问题是,如果是长视频,将提取数以百计的关键帧。
(2)基于场景的关键帧提取方法:这里的场景比视频层次结构中的场景更广泛、更丰富,可以是一幕、一个事件,甚至是整个视频序列。比较有名的提取法是FX Palo Alto实验室的漫画书表示法。
3.视频片断内容表示
视频片断是由多幅图像组成的一个二维图像序列,表示方法主要有三类:
(1)基于关键帧的表示法:关键帧反映一个片断的主要内容,它的选取取决于: ①必须反映片断中的主要事件,因而描述应尽可能地准确全面; ②要便于管理,数据量应尽量的小,且计算不宜太复杂。常用的方法有: 帧平均值法和直方图平均法。
(2)基于图像拼接技术的背景表示法:选择关键帧从时间和空间上压缩了数据,但是关键帧本身也不可避免地会出现数据冗余,同时,若关键帧选择不当,还有可能漏掉某些重要的内容。如果融合多幅图像的背景信息,通过图像拼接生成一幅全景图,则是一种紧凑且完全的片断背景内容表示方法。全景图生成一般分为两步: 首先使用运动模型(平移模型、旋转模型、仿射模型、平面透视模型等)对连续帧的运动进行变换;然后,根据估算的摄像机的运动参数来对图像进行变形处理,拼接成一幅全景图。这样,每个片断都可以用一幅全景图和用运动目标提取技术提取的重要运动目标来共同表示。这种方法所需数据量小,包含的信息多。此外,这种方法还可以获得摄像机运动参数及目标运动轨迹等信息,有助于视频内容的理解。不足在于不适合包含有复杂摄像机运动和频繁背景前景交替的视频。
(3)利用音频辅助和校正视频内容:场景的转换往往伴随着背景音乐曲调和节奏的变化,视频段中可能出现人的声音。视频处理不确切的部分可以通过对上述声音的分析加以纠正,从而简化视频处理的复杂度,提高准确性。
4.视频结构重构——片断聚类
相关一组片断往往是一个情节。故事情节是一种比片断具有更高抽象层次的结构,情节更符合人们在观看视频时对内容的理解方式。片断聚类后,有助于减少视频的浏览范围,同时可以进行层次化的检索。
Minerva M. Yeung等提出的分层场景转移图就是一种层次化处理方式。
5.视频摘要(video abstraction)
视频摘要是可以附带音频的静止或运动图像的序列,它比原始视频短很多,并且保留了原始视频的基本内容,便于对原始视频的快速浏览和检索。视频摘要分为静态的视频概要(video summary)和动态的缩略视频(video skimming)两大类。视频摘要分为标题(简短文字描述)、海报(关键帧)和故事板三类。故事板是从原始视频中提取的,按一定顺序和形式排列的多图像序列。缩略视频分为精彩剪辑视频、专题缩略视频和一般缩略视频。在很多情况下,以动态缩略视频作为摘要更合适。

解决方案&服务

客户&案例

营销资讯

关于我们

微信公众号

快捷入口

视频检索(数据库)

手机打车盈利模式

教育云简介

天威诚信CA天威诚信公司介绍

密钥密钥建设案例

第三届中国“互联网 ”大学生创新创业大赛参赛项目要求

西瓜足迹相关事件

GE物联网简介

黄色网站法律法规

简单网络管理协议架构方式

曙光智慧城市简介

快捷入口

视频检索(数据库)

推荐文章