基于多模态信息融合的语音意图理解方法_代写论文

基于多模态信息融合的语音意图理解方法
郑彬彬，贾珈，蔡莲红
(清华大学计算机科学与技术系，北京 100084)
摘要：为从语音中获取包括字面含义和说话人情绪状态在内的全面意图信息，提出了一种基
于多模态信息融合的语音意图理解方法，并对其中的关键词抽取、命令解析、基于文本/韵
律特征的情绪状态检测以及多模态信息融合等关键算法进行了设计。该方法从识别文本和语
音信号中抽取不同模态的信息并进行融合，能够有效地从语音中获取丰富的意图信息，有助
于建立自然的人机交互环境。
关键词：语音意图理解；多模态信息抽取；多模态信息融合
0 引言
随着人机交互技术的迅速发展，如何使计算机具有理解话语的能力逐渐成为研究热点。
意图理解系统旨在对说话人的意图进行准确地分析和理解。目前针对语音意图理解的研究主
要集中于话语理解（spoken language understanding）[1]，通过分析特定领域的语音文本来获
取其中的语义信息，大致可分为基于规则/文法的理解方法[2]、基于统计的理解方法[3]、基于
例句的理解方法[4]。虽然上述方法能够有效地理解话语的字面意思，但普遍存在以下2个问
题。
1）话语理解的研究对象是对语音进行人工转写得到的文本，而在实际应用中只能使用
语音识别引擎来获取文本信息。由于自然语言中存在多种复杂的口语现象，在现有语音识别
技术条件的限制下得到的识别文本不可避免地存在大量错误，这将导致理解性能大幅下降。
2）只考虑了话语的字面意思，即语言学信息。然而，语音可以传达丰富的信息，除语
言学信息外，说话人的态度、情绪或者说话风格等副语言学信息也对意图的理解起着重要的
作用。忽视这部分信息可能导致对说话人意图的理解产生很大偏差。
针对以上问题，本文提出了一种基于多模态信息融合的语音理解方法，该方法利用关键
词检测等技术对识别文本进行分析以减少识别错误带来的影响；除关键词信息外，也从语音
基金项目：国家自然科学基金（61003094，90920302，60931160443）
作者简介：郑彬彬（1985- ），女，硕士研究生，主要研究方向：语音意图理解
通信联系人：贾珈，助研，主要研究方向：人机语音交互，jjia@tsinghua.edu.cn
信号中抽取声学特征，获得多模态信息并进行融合，以获取说话人状态，最终对说话人的意
图进行准确而全面地理解。
1 意图结构与理解框架
1.1 意图结构设计
本文考虑语音意图理解在智能家居场景下的应用。在智能家居控制场景中，说话人的意
图主要是对家居设备进行命令控制。为有效表示用户意图，设计了表1 所示的意图结构，包
括命令内容、用户状态以及命令状态3 部分。
表1 智能家居控制场景意图结构
Table 1 Intention structure of home automation
意图结构项命令内容用户状态命令状态
意图结构子项
设备名称；设备属性；
设备位置；操作类别
高兴；愤怒；
悲伤；惊奇
有效性
优先级
命令内容指用户语音中包含的具体指令。智能家居控制场景中常用的设备控制命令具有
统一的模式，命令内容包括设备名称、设备属性、设备位置及操作类别4 个子项。例如命令
“把卧室空调的温度升高”中，设备名称、属性、位置和操作类别分别为“空调”、“风力”、“卧
室”和“升高”。
用户状态反应说话人讲话时的情绪状态，包括高兴、悲伤、愤怒和惊奇4 种基本情感类
型，意图理解结果给出用户情绪状态属于每种情感类型的置信度得分，其取值范围为0～1。
命令状态包括命令的有效性和优先级，有效性指明该命令是否符合当前场景的设定。有
效性取值为1 表明命令有效，取值为0 表明命令无效。优先级分为3 个等级
(0-low,1-normal,2-high)，反映了用户对该条命令响应时间的要求，优先级越高的命令用户要
求的响应时间越短。
1.2 基于多模态信息融合的语音意图理解系统框架
为充分理解用户语音中包含的意图信息，设计了如图1 所示的意图理解框架。
图1 语音意图理解系统框架
Fig. 1 Framework of speech intention understanding system
语音意图理解的多模态信息融合方法系统框架中的输入为用户语句，意图输出结果的形
式是如前所述的意图结构。这种方法一方面从语音识别文本中抽取命令内容相关的关键信息
和说话人状态判断的辅助信息；另一方面对用户语音进行声学特征分析，得到说话人状态的
判别结果。最终将这两部分信息进行融合，获取到最终的用户意图。其中文本信息的获取包
括关键词抽取、命令解析和基于文本信息的情绪状态判别等主要模块；声学信息由基于韵律
特征的情绪状态判别得到。将这两部分信息经过多模态信息融合模块的融合处理，得到最终
的用户意图。
2 基于N-Best 音节格的命令关键词抽取
近年来，语音识别技术的研究取得了很大进展，但自然口语的语音识别仍然存在很多问
题。这是由于自然口语中存在大量的重复、遗漏和倒序等现象[5]，使得识别准确率难以提升。
另一方面，要对句子进行准确的理解，并不需要考虑句子中的每个词，只需对几个蕴含关键
概念的关键词汇进行理解就能把握句子的意义。关键词识别技术从语句中抽取用户关心的关
键信息，能够降低对识别系统和环境噪声的要求。
2.1 关键概念及关键词集设计
由于说话人可以用不同词汇来表达同一概念，所以可选择关键概念而非关键词本身作为
后续理解算法的输入。根据1.1 节中对命令模式的分析和意图结构的设计，针对智能家居控
制场景定义五类关键概念(KC，key concept)，包括设备类型（cc_device）、设备属性（cc_attri）、
设备位置（cc_pos）、操作类别（cc_oper）和用户状态（user_state）。其中 “user_state”描述
说话人的情绪状态。
每个概念项可能对应多个关键词，根据关键概念种类，定义了6 类关键词：“Devices”，
“Attributes”，“Positions”，“Operations”，“UserStates”和“Combinations”。其中前五类关键词
依次对应前述的关键概念类别，“Combinations”类的关键词可以转化为一个设备属性和一个
操作类别概念。为便于后续理解，算法并不输出关键词本身，而输出对应的关键概念。表2
和表3 所示为关键概念及关键词集的总结。
表2 关键概念
Table 2 Key concepts
关键概念类别概念项举例概念项数量
cc_device
cc_attribute
cc_pos
cc_oper
user_state
Door, Light, Sound
Power, Wind, Volume
Bedroom, Kitchen
Open, Close, Up, Down
Happy, Sad, Angry
7
7
5
4
3
表3 关键词集
Table 3 Keywords set
关键词类别举例 [关键词(概念项)] 关键词数量
Devices
Attributes
Positions
Operations
Userstates
Combinations
电灯(Light);音响(Sound)
开关(Power);音量(Volume)
洗手间，厕所(Washingroom)
开,打开(Open)
高兴，开心(Happy)
大点声(VolumeUp)
7
15
11
23
60
15
2.2 基于N-Best 音节格的关键抽取算法
在命令检测和对话系统的应用中，最通用的关键词抽取方法是基于垃圾模型的方法[6]。
这类方法在对限定关键词建立声学模型的同时，构建垃圾模型吸收所有其他发音，其优点是
实时性好，但关键词库难以扩展。在音频内容检索的研究中，研究者主要利用语音识别引擎
产生基于音节或音素的搜索网格[7]进行关键词抽取，这类方法更换词库方便，但搜索开销较
大。
针对上述问题，本文设计了基于N-Best 音节格的命令关键词抽取算法。为保证关键词
库的可扩展性，并使语音识别结果有较高的稳定性，采用基于微软SAPI5.1 的大词汇量连续
语音识别引擎作为前端。为进行细粒度词汇匹配，将语音识别结果转换为拼音和声调的组合
串，构建基于音节的N-Best 搜索网格作为关键词抽取的输入。N-Best 音节格即N 个识别得
分最高的经过时间对齐的识别结果语句（实现中取N=5），其形式见图2。采用N-Best 音节
格代替1-Best 的识别结果能够为关键词匹配提供更多的信息，并且这种音节格的形式简单，
搜索时花销小，适合命令检测。
图2 5-Best 音节格举例（“把卧室电灯打开”）
Fig. 2 Example of 5-Best syllable-level lattice(“turn on the light in bedroom”)
关键词抽取算法的输出是一个关键概念序列，各关键概念按出现位置排列，并且每个概
念项标注其匹配位置和匹配得分。
搜索算法为从N-Best 音节格的第1 列开始以音节为单位进行扫描，计算每个预设关键词
与从当前列开始的5 个对应音节串之间的相似度得分，对这5 个相似度得分以识别得分加权
求和作为匹配得分；记录匹配得分超过预设阈值（根据实验取0.9）的关键词所对应的关键
概念、匹配得分和匹配位置，构成关键概念序列；对得到的关键概念序列进行后处理，保证
关键概念按匹配位置排列，并且前后关键词之间没有位置重叠。
为计算匹配得分，建立基于最小编辑距离（MED，minimum edit distance）[8]的词汇相似度
度量。最小编辑距离是指把一个字符串转换为另一个字符串在编辑操作上所付出的最小代
价，MED 越小代表2 个字符串越接近。其中允许的编辑操作包括替换、插入和删除。采用
最小编辑距离作为词汇相似度度量能细致地描述不同音节串之间的差距，并可以用成熟的动
态规划算法进行求解。
在音节级的匹配中，令插入、删除和替换代价均为1。音节级的MED 将作为词汇级匹
配中的替换代价，因此可用两音节长度的最大值进行归一化。定义拼音PYi 和PYj 间的归一
化最小编辑距离为
MED( , )
NMED( , )
max{Length( ),Length( )}
PYiPYj PPYiYiPYj PYj
= 。 (1)
在词汇级的匹配中，计算MED 时令删除代价为无穷大，插入代价为1，替换代价为对
应音节之间的归一化编辑距离。当计算得到词汇间的最小编辑距离后，将其转化为取值在
0～1 的相似度度量，定义词汇Wi 和Wj 间的相似度为
MED( , )
WordSimilarity( , ) 1
Length( )
WiWj WiWWij
原创学术论文网Tag：代写论文职称论文发表论文发表代写工科论文

搜索

热门标签:

基于多模态信息融合的语音意图理解方法