siat.cas.cn  
研究方向
 
您当前所在位置:首页 > 机构设置 > 科研部门 > 集成所 > 研究单元 > 环绕智能和多模态系统研究室 > 研究方向
研究方向  
 

1、海量复杂语音识别

研究在复杂声学环境下,提升现有语音识别系统性能以及鲁棒性的方法,包括:运用广义可变参数隐马尔可夫模型(GVP-HMMs)建模方法,根据外部环境噪声情况(如信噪比),自动差值生成一个传统的静态GMM-HMMs模型,通过模型补偿方法提高声学模型的鲁棒性;使用带口音标签的决策树聚类方法,通过纯数据驱动,找出不同口音地区的相同发音之间的个性与共性,降低训练语料中的相互混淆;利用基于DNN的多层级适应性网络(Multi-Level Adaptive NetworkMLAN)增加训练数据量,既吸取大量数据对普遍语音的广泛覆盖性能,同时也提升了特定口音或方言的声学特征的区分能力。

2、多模式言语交互

1)通过进行发音任务时发音器官运动和声学参数评估、言语发声动力学数据采集以及相关发音器官肌肉力的评估,逐步建立以帕金森、脑卒中等疾病后的多模态言语运动功能评估体系。该研究是病理语音学,发音器官运动认知科学,声学分析,机器学习等多种技术的有机融合,不仅具有广泛的应用价值,也提出了很多关键的技术点需要探索新方法进行解决,具有更为重要的理论研究价值。

2)多模式言语康复训练系统

可视化言语康复训练系统是目前国内具有独创性的言语康复训练方法,可应用于言语训练、助残发声训练、甚至外国人学习汉语普通话等领域,而这些领域都具有广阔的市场前景,且与国家的政策方针一致。该平台具有多输入、多输出、多模式信息融合的特点,可以提供包括听觉感知、听觉辨识、声长练习、声调练习、发音练习、人机对话等典型功能。完成20位聋儿完成长时单盲随机临床实验,证明使用该系统对于聋儿构音障碍的康复有明显改善。

3、语音生成计算建模

利用三维电磁发音数据采集(EMA)获取发音运动数据建立语音生成计算模型,合成语音视觉信息, 并利用三维说话人头像进行发音运动模拟。在国家自然科学基金重点项目支持下,完成汉语所有声韵母、音节和代表性句子的三维发音运动数据采集和处理,建立基于HMMDNN相结合的发音-—动作合成模型。建立基于生理的三维头像静态模型,包括外部可见发音器官以及内部发音器官。探索基于自由变形算法(DFFD)的三维发音器官运动模式,完成汉语所有音节的发音运动模拟。

4、汉语言的脑认知

1)亚字加工的时间进程

在阅读汉字时,亚字(也即部首)发音(如果有的话)的激活早于整字发音的激活,其时间窗大致在P200位置,即刺激呈现起始后190-270毫秒。

 

2)汉语声调感知

先天性失乐感的人可能对语言和音乐中的音高加工都存在问题。我们通过控制音段的熟悉度和音高差异的粒度考察了先天性失乐感被试的音高加工缺陷的本源。我们发现先天性失乐感被试则存在一定语音缺陷;先天性失乐感被试存在一般音高加工缺陷。但在熟悉音段的条件下,这种差别更为显著,表明语音缺陷也在起作用。

5、病理语音评估

研究通过嗓音的声学分析进行客观的评估方法将为嗓音障碍提供了一种明确的、量化的分级方式,是一种快速、非侵入性的自动检测方法。利用客观评估方法实现主观GRBAS的嗓音评级以及对病理嗓音分类进行预测。通过三维电磁发音运动采集系统(EMA),以及面部运动采集系统同步获取言语障碍者的发音运动数据,比较分析患者的发音器官运动特点。运用声学分析测量稳定元音发音的声学信号计算基频、扰动特征、声带开合比等声学特征;运用声学分析分析测量稳定元音发音的声学信号,计算共振峰频率及带宽,从而计算元音发音指数(VAI)等特征参数,进而间接反映舌与唇的结构。通过对不同病理机制导致的嗓音问题,采用信噪比,MFCC,声门噪声激励方法和非线性动力分析等当前主要特征参数分析其病理嗓音发病机制。构建一套创新性的、定量化的多模态言语功能评估体系,提供一种更好的方式进行科学的发音训练来帮助构音障碍患者恢复正确发音,流畅地说话。