1、多模态信息处理研究进展、现状及趋势任务定义、目标和研究意义多模态(multimodality)的概念起源于计算机人机交互领域信息表示方式的 研究,其中术语“模态” 一词被定义为在特定物理媒介上信息的表示方式。在研 究中人们发现,用语言、视频、音频等媒体指称来描述信息表示方式过于宽泛、 粒度太大,不足以区分实际采用的表示方式,为此引入了比媒体(或媒介)更细 粒度的“模态”概念。而多媒体媒介可以分解为多个单模态,如视频作为一种多 媒体媒介,可以分解为动态图像、动态语音、动态文本等多个单模态。为了模态 概念定义的科学性和实用性,单模态的分类必须满足完整性、正交性、关联性和 直观性的要求。在同一事物上
2、多类单模态信息共生或共现的现象是十分普遍的。 人与人交谈时有声语音与文字文本是共生的;互联网网页中图片与其对应的解说 文字是共现的,凡此等等。共生或共现的多种单模态信息的统称即所谓的多模态 信息。融合多种单模态的信息处理即所谓的多模态信息处理,其中涉及对多模态 信息的获取、组织、分析、检索、理解、创建等。多模态信息处理技术主要应用于对象识别、信息检索、人机对话等与智能系 统及人工智能相关的领域。大量研究成果显示,基于多模态理念的信息处理算法 和方法,往往会得到比传统方法更好的性能和效果。例如,语义计算相关领域基 于指称语义的研究发现,采用语言表达式的视觉指称(即一组图片)来定义指称 相似性度量
3、,在某些语义推导任务中,效果好于基于纯文本的分布式语义表示; 情感计算领域相关研究发现,不同模态的数据在情感表达中具有互补性,在愉悦 度表达方面文本模态优于音频模态,而在激活度表达方面音频模态则优于文本模 态。在基于内容的多媒体信息检索领域,针对基于内容的视音频检索中的语义鸿 沟问题,利用视音频数据共生或共现的文本信息,进行多模态的语义分析和相似 性度量,是克服语义鸿沟问题的一种十分有效的方法。以媒体为单位的跨信息处 理任务,普遍存在语义鸿沟问题,所处理信息对象的语义,无论是基于外延语义 (指称语义)还是内涵语义(关联语义)概念,在单一媒体信息范围内得不到完 整或最终表达,而多模态信息处理方法
4、为该问题的解决提供了新的思路和方法。1. 研究内容和关键科学问题多模态信息处理是在各种单模态信息处理的基础上发展起来的,各单模态数 据的处理方法大都直接采用现有单模态的处理方法来实现。例如在特征提取层面, 针对文本、图像、音频等单模态数据,往往直接利用成熟的文本、图像、音频特 征提取方法来实现。多模态信息处理特有的研究内容主要关注于多模态信息的建 模、获取、融合、语义度量、分析、检索等方面。2.1多模态信息建模如何科学、严谨的定义单模态信息,是多模态信息建模要解决的问题。由于 用媒体方式界定人机交互方式粒度太大,从而引入了模态的概念。所谓多模态信 息建模,就是要构建一个单模态的分类体系,在该分
5、类体系中,各单模态类别之 间满足完整性、正交性、关联性和直观性的要求。表1给出了一个满足这些要求 的单模态分类体系。表1 一个输入/输出模态的分类顶层通用层原子层亚原子层语言模态1静态拟真图形元素2静动态拟真声音元素3静动态拟真触觉元素4动态拟真图形4a.静动手势话语4b.静动手势关键字4c.静动手势符号5静态非拟真图形5a.书面文本5a1.打印文本 5a2.手写文本5b.书面关键字5b1.打印关键字 5b2.手写关键字5c.书面符号5c1.打印符号 5c2.手写符号6静动态非拟真声音6a. 口语话语6b. 口语关键字6c. 口语符号7静动态非拟真触觉7a.触觉文本7b.触觉关键字7c.触觉符
6、号8动态非拟真图形8a.动态书面文本8b.动态书面关键字8c.动态书面符号8d.静动口语话语8e.静动口语关键字8f.静动口语符号拟真模态9.静态图形9a.图像9b.地图9c.组合图表9d.图形9e.概念图表10.静二动态声音10a.图像10b.地图10c.组合图表10d.图形10e.概念图表11.静=动态触觉11a.图像11b.地图11c.组合图表11d.图形11e.概念图表12.动态图形12a.图像12a1.脸部表情12b.地图12a2.手势12c.组合图表12a3.肢体动作12d.图形12e.概念图表主观模态13.静态图形14.静=动态声音15.静动态触觉16.动态图形显式结构模态17.
7、静态图形18.静动态声音19.静动态触觉20.动态图形随着人机交互设备的发展和丰富,新的传感器可以采集到新的、可与人交互 的信息,如定位信息、重力加速度信息、睡眠信息、热量消耗信息、步行运动信 息等,表1给出模态分类体系已不能完全覆盖新模态信息的种类,因此需要持 续研究新的模态分类体系。2. 2多模态信息获取尽管人与人、人与机器之间交互信息的多模态现象是普遍存在的,但对于多 模态信息处理而言,所处理的对象数据往往需要特殊处理才能获得。多模态信息 的获取主要包括数据的采集、解析与数据集构建。2. 1.1多模态数据的采集尽管可以对单模态数据类别进行比较形式化的定义,但实际研究中只要尽可 能地遵守完
8、整性、正交性、关联性和直观性的原则,新模态数据类别的引入是比 较灵活,同时也是比较活跃的。比如除了图像、声音等信息外,针对社交媒体, 可通过智能终端,采集到位置、重力加速度、睡眠、运动等人体信息;针对车联 网,可通过车载传感器,采集到车速、位置、温度、发动机转速、雷达等汽车状 态信息;针对监控网,可以采集红外、震动、烟雾浓度、生物指纹等与安防相关 的信息。多数情况下,多模态信息处理任务要求所有处理样本数据的各单模态数据是完整的。好在各单模态数据源经常是共生或共现的,满足完整性要求是可以做得 到的。但也有例外的情况,例如歌曲多模态信息中,尽管音频与歌词是共生的, 但歌词很难从音频中分离,因此,歌
9、词文本数据还要通过其它单独途径采集。2. 2. 2多模态数据的解析多模态数据的解析就是将原始混合状态的多模态数据,分解为单模态的数据。 例如视频数据,需要分解为动态图像、音频语言、文本语言等三种单模态数据, 其中文本语言部分,可能来自于视频字幕、图像内容中的文字和语音识别的结果等。多模态数据的解析往往需要与数据采集相结合,例如歌曲MTV视频的解析, 歌词文本很难从视频本身得到,可以通过采集系统来弥补。再例如,艺术、影视 评论类文本数据的解析,其中涉及的图像、视频、音频数据的获取,更需要借助 米集系统来完成。2. 2. 3多模态训练数据集的构建为了进行对多模态信息的机器学习处理,如分类、回归、聚
10、类等,需要构建 训练用样本数据集,特别是针对有监督学习,还需要进行数据标注。多模态训练 数据集的构建有自己独特的方法。以多模态人脸情感识别为例,首先选择一组参试人员,选择一组表达不同情 感的诗词,准备一个相对封闭的环境,一个显示诗词的屏幕,一个面对受试人员 脸部的摄像头,一个录音麦克风,一个采集视频、音频和交互数据的软件,交互 数据通过受试人员拖动屏幕上采集软件的滚动条来产生。标注的情感数据采用二 维连续的AV情感模型来量化,由于标注的情感模型是二维的,因此每个诗词样 本都需要标注两次。标注开始后,受试人朗诵屏幕上的诗词,并根据朗诵诗词的 情感体验拖动滚动条。最终可以获得包含有声语言、文本语言
11、和人脸视频的多模 态情感标注数据,及相应的训练数据集。2. 3多模态语义分析在人机交互研究中,有关机器对自然语言理解的相关研究可被称为语义分析。 除对自然语言(包含文本及语音)的语义分析研究外,针对图像、视频流、音频流等多媒体数据的泛语义分析的研究越来越多地受到关注,并成为研究的热点。 对应自然语言理解,这些研究可称为图像理解、视频理解、音频理解等,它们都 面临着严重的语义鸿沟问题,解决多媒体数据理解中的语义鸿沟问题,需要建立 多媒体数据与文本之间的对应关系。为了能够在语义鸿沟上架起一座桥梁,研究 人员已经做了许多有意义的工作,有基于模型学习的、基于结构分析的,以及基 于检索的方法被提出来。近
12、些年基于多模态的语义分析方法得到更多的关注。研 究发现,利用媒体数据的多模态属性进行语义分析,会得到更好的效果。例如, 在视频语义分析技术的基础上,辅以音频欢呼声事件的鉴别,能够更好地分析出 进球事件的语义。多模态语义分析有两个明显的优势,一是可以利用不同模态数 据之间信息的互补性,使得分析对象的信息更加全面、完整;二是可以利用不同 模态数据与文本之间的“亲疏”关系,缩短与文本之间的“距离”。例如,语音 比图像距离文本要近,歌曲也要比图像距离文本近。所谓多模态语义分析是指在 同一个媒体对象的多个模态数据上,同时并行或协同进行语义分析,并最终通过 融合得到分析结果的语义分析方法。2. 4多模态信
13、息检索随着经典的文本检索文本、图像检索图像的单模态信息检索技术的成熟与大 规模应用,各单模态之间相互检索,诸如用图像检索文本、文本检索音频这样的 跨媒体检索系统,也成为信息检索领域的研究热点。与单模态信息检索方式相比, 跨媒体信息检索不仅能够更好地表达用户的检索意图,改善用户的检索体验,提 高检索召回率和准确率,而且对媒体数据语义的理解也具有重要作用。跨媒体信 息检索首先要解决的是所谓语义鸿沟问题,由于各单模态内容的异构性导致语义 的不可度量,使得传统多媒体检索方法不能直接适用于跨媒体检索。有多种方法 被用来解决这一问题。一种方法是对多媒体数据不同模态的语义关系进行统一建 模,以实现跨媒体检索
14、。这种方法的缺点是受限于语义概念的建模规模;另一种 方法是利用共生或共现的多模态信息作为语义桥梁,来实现跨媒体检索。广义上 讲,上述两种检索方法,都可以被称为多模态信息检索,狭义上讲,后者为典型 的多模态信息检索,前者可称为跨模态信息检索。2. 5多模态情感识别人机交互、多媒体信息处理等多个领域的研究和应用,对情感计算技术的发 展起到了重要的推动作用。目前人机交互的主要方式仍是书面语言,书面语言交流与人类面对面交流的 最大差别是,所谓副语言(Para-language)的缺失。副语言包括语气声、哭笑 声、面部表情、肢体语言等。实现副语言的人机交流是实现和谐自然人机对话的 基础。鉴于副语言更多地
15、侧重情感语义表达的属性,引入情感识别技术来实现对 副语言的理解是顺理成章的。为了处理语音和副语言这样的多模态数据,将情感 识别技术扩展到处理多模态数据,既是所谓的多模态情感识别技术。在多媒体检索研究领域,传统的基于文本知识的索引方法已显现出它的局限 性,而基于情感的索引吸引了多媒体研究的学者们。在多媒体应用领域,用户也 期望内容推荐和分发系统,能够更好地适应他们的体验和情感。多媒体情感分析 与识别的研究目标是,在多媒体内容的推荐和检索中使用情感因素。例如,当把 “我想听一首欢快的歌”、“我想看一部恐怖片”等检索条件输入给计算机系统 时,计算机系统能够给出满足要求的响应。其中关键的前提是,多媒体
16、内容的情 感属性,不是人工标注的,而是计算机自己通过计算获得的。歌曲、电影数据的 多模态属性,同样要求情感识别技术是多模态的。2. 6多模态人机对话多模态人机对话系统与基于文本语言的传统人机对话系统类似,由信息获取、 信息处理和信息输出三部分组成,不同之处在于,多模态人机对话系统的信息获 取模块通过麦克风、摄像机等输入设备,采集语音、面部表情、肢体动作等多模 态信息作为输入;信息处理模块对输入信息进行多模态融合的语义分析,并基于 多模态知识库产生协同对话内容,该内容除语言内容外,还包括反映情感的面部 表情内容;信息输出部分将两部分内容同步输出到输出设备上,目前主要是输出 到有模拟对话人脸部图像
17、的屏幕上,长远目标是输出到仿真机器人上,实现整合 了语音、手势和面部表情的、类似人类的自然互动与对话。多模态人机对话系统的核心研究内容是两个方面,即多模态会话内容的理解 和多模态会话内容的生成。在会话内容理解方面,除了会话人情感识别外,对会话内容所涉及图像的理解,也成为研究的热点。如对基于图像的字幕生成(看图 说话,image caption generation,见图1)的研究,以及更进一步的基于图像的 问答系统的研究。这些研究的目标是实现机器对会话场景及会话视觉内容的理解。bookssitting behind some图1 基于图像的字幕生成2. 技术方法和研究现状为实现多模态信息处理的
18、目标,大量的文本和多媒体信息处理的技术和方 法被多模态信息处理系统集成和采纳。下面仅就多模态信息处理中比较重要的关 键技术和方法作一介绍。3. 1多模态融合方法多模态信息由于底层数据的异构性,比如图像是24位的RGB颜色值矩阵、 音频是16位的声压值串、中文文本是16位或24位的汉字编码串。如何让这些 异构的数据完成同一个识别或检索任务,是多模态信息处理首先要解决的问题。 解决这个问题的方法被称为多模态融合(Multimodal fusion)。所谓多模态融合 是指:整合各种输入模态的信息,并将它们合并在一个完成同一目标的系统中的 处理方法。以多模态人脸情感识别为例,输入的多模态信息为人脸图像
19、和语音, 一个最直观的融合方案是,分别对人脸图像和语音各构造一个情感识别系统,然 后对两个系统的输出进行加权平均,得到最终的识别结果。模式识别领域关于多模态融合系统模型的研究,为多模态信息处理系统模型 的研究做出了重要的贡献,如瀑布模型、JDL模型、Omnibus模型、FH模型等。 在这些模型中认为,一个识别系统大致由三层组成,即数据采集层、特征提取层 和决策识别层;并提出了多模态信息的融合时机,可在这三层分别发生,从而有 了数据层融合、特征层融合和决策层融合的概念。数据层融合往往要求数据是同 质、同构的,因此下面仅介绍特征层融合和决策层融合两个概念。特征层融合是在信息处理的中间层进行的融合,
20、该方法先对各模态信息分别 进行特征提取,再对特征数据进行综合分析和处理,形成多模态联合特征矩阵或 向量。对于采用机器学习作为决策层分析的系统,特征层融合的主要作用是使学 习器有结构统一的输入样本数据。由于大多数机器学习方法对输入样本有格式要 求,如等长的向量,此时特征融合是必须执行的处理步骤。决策层融合是指每个模态要单独完成各自的属性判别,然后通过融合来自每 个模态的属性判别结果,并依据相应的融合方法形成最后的判别。主要的技术方 法有表决法、集成学习、协同学习、多层学习等。目前面向目标识别的多模态融 合系统大多采用基于决策层的信息融合方法。3.2多模态深度学习采用深度学习方法研究多模态信息处理
21、问题是近年来的热门方向。学者们充 分利用了深度学习的特点,针对多模态信息处理任务,提出了一系列新的方法和 算法。深度学习是一个非常好的多模态融和工具。多模态深度学习模型的一种实现 方案是,为每一个参与融和的单模态训练一个深度波尔兹曼机(DBM),然后 在这些DBM之上增加一个额外的隐藏层给出融和后的联合表示(图2)。上述 融和过程,如果是无监督的,则可视为特征学习过程,输出的即为特征层融和的 结果特征;如果是有监督的,输出的即为决策层融和的最终分类结果。(更多关 于深度学习的内容,请参见报告的语言表示与深度学习一章。)图2多模态深度学习模型基于图像的字幕生成问题也可以用深度学习方法来解决,即采
22、用所谓交叉模 态特征学习。由于字幕与图像之间存在内在的多模态关联关系,因此,运用上述 多模态深度学习模型,可以学习到融和的特征(也称为共享特征表示,Shared Representation),那么理论上该模型应该支持训练一个模态,而测试另外一个模 态,且仍能获得好的分类效果(图3)。3. 3多模态语义表示所谓语义表示是指在计算机系统中对语义的形式化描述或表达。因此,多模 态语义表示是指,人机交互过程中不同模态之间交互语义信息的形式化描述。对 语音、文本和视觉信息进行处理、理解和生成的多模态系统,必然会涉及到多模 态信息输入输出过程中的语义表示问题。由于多模态信息的异构性,在多模态系 统中,一
23、种模态的输入信息需要先映射到一种语义表示,当在另外一种模态进行 输出时,再将这种语义表示映射到指定模态进行输出。多模态语义表示的发展是基于应用驱动的,许多多模态应用或实验系统,都 提出了自己的语义表示方案,其中采用比较多的是基于框架语义学(Frame)和XML语言的表示方案。在特定的多模态应用系统中,语义表示问题可理解为, 基于框架语义学对应用系统语义表示空间的XML编码。上述多模态语义表示方法事实上是对语义的显式表示,在基于机器学习,特 别是基于深度学习的多模态系统中,语义表示常常以模型的形式存在,这种语义 表示可理解为隐式的多模态语义表示。3. 技术展望与发展趋势多模态信息处理研究的发展,
24、受到来自移动智能终端、可穿戴设备、物联网、 自然语言处理、人机对话、仿真机器人、信息检索、模式识别、情感识别、深度 学习、大数据、认知科学等工作的促进和推动。随着移动智能终端、可穿戴设备、 物联网的普及,人机交互的信息从传统的文字、声音、影像,发展到位置、重力 加速度、睡眠、运动等人体信息,共生、共现的单模态信息种类大大增加;由于 人的感知和认知机理的多模态本质,自然语言处理、人机对话、仿真机器人、信 息检索、模式识别、情感识别等研究领域,越来越多地采用多模态信息处理的方 法和思路,取得了许多具有实际应用价值的成果,从而大大提升了多模态信息处 理的能力;深度学习、大数据的兴起,即为多模态信息处理提供了新的技术手段, 也为多模态信息处理提供了更丰富的数据来源。
版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如有侵权请立即联系:2622162128@qq.com ,我们立即下架或删除。
Copyright© 2022-2024 www.wodocx.com ,All Rights Reserved |陕ICP备19002583号-1
陕公网安备 61072602000132号 违法和不良信息举报:0916-4228922