老队员归队风采飞扬，在站队员又开技术眼界

时间：2021-09-27

老队员归队风采飞扬，在站队员又开技术眼界

文| 711号队员熊楚贤

5月9日晚7点，Dian团队例会在启明学院305举行。本次例会邀请到上海交通大学X-LANCE实验室在读博士生、579号队员李晨达和同为该实验室在读博士生的584号队员张王优，为大家带来语音分离和语音识别技术的分享。

首先是李晨达师兄带来的语音分离技术分享。他从大家熟悉的傅里叶变换入手，介绍了语音分离技术的基本原理：通过短时间傅里叶变换提取语音信号的幅度、相位特征，送入神经网络中，输出每一个说话人对应的掩码，再将得到的掩码乘上原始信号的幅度和相位，就可以得到每一个说话人语音对应的幅度和相位。在实际应用这个原理时，仍然有许多具体问题需要处理，例如监督学习模型的训练不仅需要分离出不同说话人的掩码，还必须分清这些掩码分别属于谁，否则就会造成混乱。李晨达师兄也为我们简单介绍了几种解决办法，如“深度分割聚类”、“置换不变性训练”、“引入额外信息”等。

图1 语音分离技术的基本原理

接着，李晨达师兄介绍了当前语音分离领域的四大研究热点：一是在时域上直接估计目标语音，绕过傅里叶分析，直接对一维的采样点进行建模；二是多模态信息，对视觉文本等信息加以利用；三是真实场景的自适应训练，使模型自适应业务场景下的缺陷数据；四是连续长语音分离，使用单人说话时干净的语言来辅助重叠时的语音分离。李晨达还重点介绍了ESPnet开源工具包，并展示了使用ESPnet分离混杂辩论语音的结果，让同学们对语音分离技术有了更直观的认识。

图2 李晨达师兄介绍语音分离技术

李晨达师兄的分享结束后，张王优师兄为大家带来语音识别技术的分享。语音识别是指将一段语音转换为对应的文本内容，从计算机的角度来看则是将一个数值序列转换成另外一个数值序列。要将文本转化成数值来处理，可以构造一个词典来保存文本和数值之间的映射关系，通过短时傅里叶变换提取语音信号的特征后，再按照数值索引从词典中输出对应的文本。传统语音识别方法根据语言学家研究的发音词典，将特征序列中的每一个音素重复若干次，使之与输入序列对齐后，再使用自然语言模型进行文本转化。但是这种方法提取出的特征序列与实际输出的文本序列长度不一致，很难建模处理。

图3 张王优师兄进行自我介绍

张王优提到，近几年神经网络的发展诞生了一种更加简洁的语音识别方法——端到端语音识别，它是采用完全由神经网络组成的识别模型，根据输入语音直接得到输出文本序列，无需像传统算法一样划分为声学模型、语言模型等各个部分。同时，他介绍了三种现在最流行的端到端语音识别模型。一是编码器-解码器模型，其输入序列和输出序列长度不需要一致，依次对输入的每一帧频谱进行编码，并将最后一帧编码的结果传递给解码器，由解码器进行自回归的解码，循环往复，直到输出停止符号。二是连续时序分类模型，它仍然要求输入输出序列长度一致，但是不需要在音素的层面对齐而是直接在字的层面进行对齐。三是循环神经网络转录机，它的对齐方式不是简单地将音素或者字进行重复，而是在每两个字之间插入任意多的空白符号，使得输入的序列长度和输出的序列长度一致。

之后，张王优介绍了语言识别的评估指标，以及语音识别模型训练中常常难以全面覆盖的语音数据类型，如地域口音、背景噪声以及拖尾长音等。随后，他展示了不同国家英语口音的识别结果，其中美国和英国的口音比较接近，中国口音则与英美口音差距较大，而印度的口音与大部分国家都有很大区别，形象地展示了口音的不同给语音识别带来的困难。最后，张王优师兄介绍了自己目前的研究方向——鸡尾酒会问题。在一场鸡尾酒会上会有非常嘈杂的背景音，也会有多人同时说话的重叠问题，还会可能存在混响，影响对不同声源的方位信息的判断，在这种环境下分辨出不同个体的声音是一项非常具有挑战性的任务。

本次例会两位师兄为我们带来了语音方向的技术分享，以及X-LANCE实验室的基本介绍，刘玉老师、钟国辉老师分别对他们的分享内容作了简要的点评并表示了肯定。感谢李晨达师兄和张王优师兄的精彩分享！

老队员归队风采飞扬，在站队员又开技术眼界

老队员归队风采飞扬，在站队员又开技术眼界

新闻 | News