老队员归队风采飞扬,在站队员又开技术眼界
老队员归队风采飞扬,在站队员又开技术眼界
文| 711号队员 熊楚贤
5月9日晚7点,Dian团队例会在启明学院305举行。本次例会邀请到上海交通大学X-LANCE实验室在读博士生、579号队员李晨达和同为该实验室在读博士生的584号队员张王优,为大家带来语音分离和语音识别技术的分享。
首先是李晨达师兄带来的语音分离技术分享。他从大家熟悉的傅里叶变换入手,介绍了语音分离技术的基本原理:通过短时间傅里叶变换提取语音信号的幅度、相位特征,送入神经网络中,输出每一个说话人对应的掩码,再将得到的掩码乘上原始信号的幅度和相位,就可以得到每一个说话人语音对应的幅度和相位。在实际应用这个原理时,仍然有许多具体问题需要处理,例如监督学习模型的训练不仅需要分离出不同说话人的掩码,还必须分清这些掩码分别属于谁,否则就会造成混乱。李晨达师兄也为我们简单介绍了几种解决办法,如“深度分割聚类”、“置换不变性训练”、“引入额外信息”等。
图1 语音分离技术的基本原理
接着,李晨达师兄介绍了当前语音分离领域的四大研究热点:一是在时域上直接估计目标语音,绕过傅里叶分析,直接对一维的采样点进行建模;二是多模态信息,对视觉文本等信息加以利用;三是真实场景的自适应训练,使模型自适应业务场景下的缺陷数据;四是连续长语音分离,使用单人说话时干净的语言来辅助重叠时的语音分离。李晨达还重点介绍了ESPnet开源工具包,并展示了使用ESPnet分离混杂辩论语音的结果,让同学们对语音分离技术有了更直观的认识。
图2 李晨达师兄介绍语音分离技术
李晨达师兄的分享结束后,张王优师兄为大家带来语音识别技术的分享。语音识别是指将一段语音转换为对应的文本内容,从计算机的角度来看则是将一个数值序列转换成另外一个数值序列。要将文本转化成数值来处理,可以构造一个词典来保存文本和数值之间的映射关系,通过短时傅里叶变换提取语音信号的特征后,再按照数值索引从词典中输出对应的文本。传统语音识别方法根据语言学家研究的发音词典,将特征序列中的每一个音素重复若干次,使之与输入序列对齐后,再使用自然语言模型进行文本转化。但是这种方法提取出的特征序列与实际输出的文本序列长度不一致,很难建模处理。
图3 张王优师兄进行自我介绍
张王优提到,近几年神经网络的发展诞生了一种更加简洁的语音识别方法——端到端语音识别,它是采用完全由神经网络组成的识别模型,根据输入语音直接得到输出文本序列,无需像传统算法一样划分为声学模型、语言模型等各个部分。同时,他介绍了三种现在最流行的端到端语音识别模型。一是编码器-解码器模型,其输入序列和输出序列长度不需要一致,依次对输入的每一帧频谱进行编码,并将最后一帧编码的结果传递给解码器,由解码器进行自回归的解码,循环往复,直到输出停止符号。二是连续时序分类模型,它仍然要求输入输出序列长度一致,但是不需要在音素的层面对齐而是直接在字的层面进行对齐。三是循环神经网络转录机,它的对齐方式不是简单地将音素或者字进行重复,而是在每两个字之间插入任意多的空白符号,使得输入的序列长度和输出的序列长度一致。
之后,张王优介绍了语言识别的评估指标,以及语音识别模型训练中常常难以全面覆盖的语音数据类型,如地域口音、背景噪声以及拖尾长音等。随后,他展示了不同国家英语口音的识别结果,其中美国和英国的口音比较接近,中国口音则与英美口音差距较大,而印度的口音与大部分国家都有很大区别,形象地展示了口音的不同给语音识别带来的困难。最后,张王优师兄介绍了自己目前的研究方向——鸡尾酒会问题。在一场鸡尾酒会上会有非常嘈杂的背景音,也会有多人同时说话的重叠问题,还会可能存在混响,影响对不同声源的方位信息的判断,在这种环境下分辨出不同个体的声音是一项非常具有挑战性的任务。
本次例会两位师兄为我们带来了语音方向的技术分享,以及X-LANCE实验室的基本介绍,刘玉老师、钟国辉老师分别对他们的分享内容作了简要的点评并表示了肯定。感谢李晨达师兄和张王优师兄的精彩分享!