200字范文 > 基于语音处理的语音增强方法及相关设备与流程

基于语音处理的语音增强方法及相关设备与流程

时间：2019-01-18 13:23:25

本发明涉及人工智能技术领域，尤其涉及一种基于语音处理的语音增强方法及相关设备。

背景技术：

随着科技的发展，智能语音对话和语音通信技术已运用到人们的日常生活当中，但是在嘈杂语音环境下，如多人会话噪声(Babble Noise)，汽车噪声和风噪声等，都会降低语音质量，极大影响到用户体验，很多情况下容易导致语音噪音干扰用户对语音内容的理解，甚至在一些情况下影响到用户的判断。例如，在语音通信时，噪声会干扰甚至掩盖对方的声音，降低通话质量；在语音识别系统中，噪声会使得语音识别率下降，甚至使识别系统完全失效。因此，根据观测到的带噪语音信号，估计纯净语音具有十分重要的意义，我们称此为语音增强。

目前，在语音对话和通信系统中，会采用多通道麦克风阵列方法进行语音增强，采用麦克风阵列进行语音增强，往往需要语音方位(甚至是噪声方位)已知。但实际情况下，由于真实环境中方向性噪声的存在，声源方位往往并不固定，且噪声和混响下的声源方位难以估计。因此，传统的基于麦克风阵列的语音增强算法在对多方向性噪声声源的语音信号进行增强时效果不佳。

技术实现要素：

有鉴于此，有必要针对现有技术中通过麦克风阵列进行语音增强效果不佳存在的问题，提供一种基于语音处理的语音增强方法及相关设备。

一种基于语音处理的语音增强方法，包括：

获取带有方向性噪音的原始语音信号，将所述原始语音信号依次输入滤波器和麦克风阵列，得到所述原始语音信号的固定波束麦克风阵列；

根据所述固定波束麦克风阵列，将所述原始语音信号分割成N个子空间语音信号；

从每一子空间语音信号中提取若干唤醒词，并对所述唤醒词分别进行分帧加窗处理；

根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词，计算对应子空间语音信号的置信度；

根据计算得到的每一子空间语音信号的置信度，选取所述置信度最高的所述子空间语音信号作为最终输出语音信号。

在其中一个可能的实施例中，所述获取带有方向性噪音的原始语音信号，将所述原始语音信号依次输入滤波器和麦克风阵列，得到所述原始语音信号的固定波束麦克风阵列，包括：

获取带有方向性噪音的原始语音信号；

将所述原始语音信号输入所述滤波器，进行固定波束形成计算，所述固定波束形成计算公式如下：

其中，k为频点，c为原始语音信号的帧编号，Zc(k)为c的固定波速，为原始语音信号，WcH(k)为滤波器的系数，每帧的滤波器的系数为预设的不同常数，H为帧的数量；

将经过固定波速形成计算的所述原始语音信号输入所述麦克风阵列，得到所述原始语音信号的固定波束麦克风阵列。

在其中一个可能的实施例中，所述根据所述固定波束麦克风阵列，将所述原始语音信号分割成N个子空间语音信号，包括：

将所述固定波束麦克风阵列划分为N个子阵列；

给所有子阵列中的每一向量赋予不同的权重，根据所述权重计算每一子阵列的方向性加权向量，每一所述方向性加权向量为对应子阵列的中心指向性向量；

以每一所述方向性加权向量的指向为分割依据，将所述原始语音信号分割成N个子空间语音信号。

在其中一个可能的实施例中，所述从每一子空间语音信号中提取若干唤醒词，并对所述唤醒词分别进行分帧加窗处理，包括：

将所述子空间语音信号按照预设的语音分析时长分割成若干语音子片段，对每一语音子片段进行傅里叶变换，得到每一语音子片段的声音频谱，其中，傅里叶变换的公式为：

上式中，Y(n)表示经过傅里叶变换后的声音频谱，y(n)表示原声音频谱，f表示频率分辨率，n表示声波波长，N表示汉宁窗长度；

将每一语音子片段的声音频谱放在同一个坐标系下，所述坐标系以频率为横坐标，以振幅为纵坐标；

提取纵坐标大于预设阈值的所述声音频谱对应的语音子片段作为所述唤醒词，并对所述唤醒词分别进行分帧加窗处理。

在其中一个可能的实施例中，所述根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词，计算对应子空间语音信号的置信度，包括：

分别将每一子空间语音信号中的所述唤醒词输入到训练好的神经网络模型中，计算每一子空间语音信号的后验概率，计算公式为：

hsmooth＝max{1,j-wsmooth+1}

上式中，P为唤醒词的后验概率，j为唤醒词的帧，k为隐藏层，i为唤醒词，wsmooth为滑动窗口，hsmooth为滑动窗口内帧的索引；

根据每一子空间语音信号的后验概率，计算对应子空间语音信号的置信度，计算公式为：

hmax＝max{1,j-wmax+1}

上式中，S为置信度，i为唤醒词，j为唤醒词的帧，P为唤醒词的后验概率，wmax为滑动窗口，hsmooth为滑动窗口内帧的索引。

一种基于语音处理的语音增强装置，包括如下模块：

预处理模块，用于获取带有方向性噪音的原始语音信号，将所述原始语音信号依次输入滤波器和麦克风阵列，得到所述原始语音信号的固定波束麦克风阵列；

分割模块，用于根据所述固定波束麦克风阵列，将所述原始语音信号分割成N个子空间语音信号；

提取模块，用于从每一子空间语音信号中提取若干唤醒词，并对所述唤醒词分别进行分帧加窗处理；

计算模块，用于根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词，计算对应子空间语音信号的置信度；

输出模块，用于根据计算得到的每一子空间语音信号的置信度，选取所述置信度最高的所述子空间语音信号作为最终输出语音信号。

在其中一个可能的实施例中，所述预处理模块还用于：

获取带有方向性噪音的原始语音信号；

将所述原始语音信号输入所述滤波器，进行固定波束形成计算；

将经过固定波速形成计算的所述原始语音信号输入所述麦克风阵列，得到所述原始语音信号的固定波束麦克风阵列。

在其中一个可能的实施例中，所述分割模块还用于：

将所述固定波束麦克风阵列划分为N个子阵列；

以每一所述方向性加权向量的指向为分割依据，将所述原始语音信号分割成N个子空间语音信号。

基于相同的构思，本发明提出了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行上述基于语音处理的语音增强方法的步骤。

基于相同的构思，本发明提出了一种存储介质，所述存储介质可被处理器读写，所述存储介质存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个所述处理器执行上述基于语音处理的语音增强方法的步骤。

有益技术效果：

(1)将麦克风阵列平均划分为若干子阵列，进而将语音信号按照麦克风子阵列的方向性加权向量分割成若干子空间语音信号，分散了噪音的方向性，减少了噪音的方向数量，有利于提取方向性噪音最弱的子空间语音信号；

(2)根据声音频谱提取每个子空间语音信号音高较高的若干唤醒词，从而计算每个子空间语音信号的置信度，有利于提取有效语音较强且噪音较弱的子空间语音信号，从而达到对被多方向性噪音干扰的语音信号进行语音增强的效果。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

图1为本发明实施例中的一种基于语音处理的语音增强方法的整体流程图；

图2为本发明实施例中的一种基于语音处理的语音增强方法中的预处理过程的示意图；

图3为本发明实施例中的一种基于语音处理的语音增强方法中的子空间语音信号分割过程的示意图；

图4为本发明实施例中的一种基于语音处理的语音增强方法中的唤醒词提取过程的示意图；

图5为本发明实施例中的一种基于语音处理的语音增强方法中的置信度计算过程的示意图；

图6为本发明实施例中的一种基于语音处理的语音增强装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

图1为本发明实施例中的一种基于语音处理的语音增强方法的整体流程图，如图1所示，一种基于语音处理的语音增强方法，包括：

步骤S1，获取带有方向性噪音的原始语音信号，将所述原始语音信号依次输入滤波器和麦克风阵列，得到所述原始语音信号的固定波束麦克风阵列。

本步骤中，首先获取带有方向性噪音的原始语音信号，带有方向性噪音的原始语音信号是指被来自多个方向的噪声源干扰的原始语音信号。先将所述带有方向性噪音的原始语音信号输入滤波器进行固定波速形成计算，形成所述带有方向性噪音的原始语音信号的固定波速，再将形成固定波速的原始语音信号输入由多个麦克风组成的麦克风阵列中，得到所述原始语音信号的固定波束麦克风阵列。

步骤S2，根据所述固定波束麦克风阵列，将所述原始语音信号分割成N个子空间语音信号。

本步骤执行时，首先将所述固定波束麦克风阵列划分为N个子阵列，其中，N为大于1的整数。具体的，每个子阵列由若干向量组成，划分子阵列后，给每个子阵列中的不同向量赋予不同的权重。根据被赋予的权重计算每个子阵列的方向性加权向量，每个方向性加权向量为对应子阵列的中心指向性向量。再以每个方向性加权向量的指向为分割依据，将所述原始语音信号分割成N个子空间语音信号。

步骤S3，从每一子空间语音信号中提取若干唤醒词，并对所述唤醒词分别进行分帧加窗处理。

本步骤执行时，先将所述子空间语音信号按照预设的语音分析时长分割成若干语音子片段，所述预设的语音分析时长一般为2秒到5秒。分割完成后再对每一语音子片段进行傅里叶变换，得到每一语音子片段的声音频谱。将每一语音子片段的声音频谱放在同一个坐标系下，所述坐标系以频率为横坐标，以振幅为纵坐标。提取纵坐标大于预设阈值的所述声音频谱对应的语音子片段作为所述唤醒词，并对所述唤醒词分别进行分帧和加窗处理。

步骤S4，根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词，计算对应子空间语音信号的置信度。

本步骤执行时，首先分别将各个子空间语音信号中的所有唤醒词输入到训练好的神经网络模型中，分别计算各个子空间语音信号的后验概率。再根据各个子空间语音信号的后验概率，计算对应子空间语音信号的置信度。

步骤S5，根据计算得到的每一子空间语音信号的置信度，选取所述置信度最高的所述子空间语音信号作为最终输出语音信号。

本步骤中，根据各个子空间语音信号的唤醒词计算得到的最高置信度代表着该子空间语音信号的噪音最少，有效语音最多。具体的，选取置信度最高的方式可以通过给每个子空间语音信号进行编号，再以各个子空间语音信号的编号为横坐标，以置信度为纵坐标，建立一个置信度坐标系，将各子空间语音信号的置信度放到所述置信度坐标系，纵坐标最大的即为置信度最高的子空间语音信号。

本实施例，将麦克风阵列平均划分为若干子阵列，进而将语音信号按照麦克风子阵列的方向性加权向量分割成若干子空间语音信号，分散了噪音的方向性，减少了噪音的方向数量，有利于提取方向性噪音最弱的子空间语音信号；根据声音频谱提取每个子空间语音信号音高较高的若干唤醒词，从而计算每个子空间语音信号的置信度，有利于提取有效语音较强且噪音较弱的子空间语音信号，从而达到从而达到对被多方向性噪音干扰的语音信号进行语音增强的效果。

在一个实施例中，图2为本发明实施例中的一种基于语音处理的语音增强方法中的预处理过程的示意图，如图2所示，所述步骤S1，获取带有方向性噪音的原始语音信号，将所述原始语音信号依次输入滤波器和麦克风阵列，得到所述原始语音信号的固定波束麦克风阵列，包括：

步骤S101，获取带有方向性噪音的原始语音信号；

本步骤中，从具有多个方向性噪声源环境的语音通话或视频通话中提取带有方向性噪音的语音信号作为原始语音信号。

步骤S102，将所述原始语音信号输入所述滤波器，进行固定波束形成计算，所述固定波束形成计算公式如下：

其中，k为频点，c为原始语音信号的帧编号，Zc(k)为c的固定波速，P～(k)为原始语音信号，WcH(k)为滤波器的系数，每帧的滤波器的系数为预设的不同常数，H为帧的数量；

步骤S103，将经过固定波速形成计算的所述原始语音信号输入所述麦克风阵列，得到所述原始语音信号的固定波束麦克风阵列。

本步骤执行时，将经过固定波速形成计算的所述原始语音信号输入由多个个麦克风组成的麦克风阵列，把所述原始语音信号进行时域对齐，再使用短时离散傅里叶变换将对齐后的原始语音信号表示成复数值的频率信号形式，计算麦克风阵列原始语音信号的功率谱矩阵，并对该功率谱矩阵进行特征值分解得到特征值矩阵和特征向量矩阵，即所述原始语音信号的固定波束麦克风阵列。

本实施例，将原始语音信号输入滤波器，在一定程度上减少了原始语音信号的噪音，输入麦克风阵列，得到特征值矩阵和特征向量矩阵，便于后续根据麦克风阵列划分子空间。

在一个实施例中，图3为本发明实施例中的一种基于语音处理的语音增强方法中的子空间语音信号分割过程的示意图，如图2所示，所述步骤S2，根据所述固定波束麦克风阵列，将所述原始语音信号分割成N个子空间语音信号，包括：

步骤S201，将所述固定波束麦克风阵列划分为N个子阵列。

本步骤中，固定波束麦克风阵列，是一个线性均匀分布的麦克风阵列，它包含多个阵元，即子阵列，经由分帧加窗转化为频域信号，计算麦克风阵列原始语音信号的功率谱矩阵，并对该功率谱矩阵进行特征值分解得到特征值矩阵和特征向量矩阵，划分时，以等同大小为划分依据，即每个子阵列的向量数相等。

步骤S202，给所有子阵列中的每一向量赋予不同的权重，根据所述权重计算每一子阵列的方向性加权向量，每一所述方向性加权向量为对应子阵列的中心指向性向量。

本步骤执行时，计算出每个子阵列的方向性加权向量，首先，选取一个子阵列A，给子阵列A的各个向量赋予不同的权重，权重的赋予规则为从子阵列A的边缘向量到中间向量，其权重值逐渐递增。根据这些权重值对应的向量计算子阵列A的方向性加权向量，方向性加权向量B的计算公式为：B＝α1B1+α2B2+…+αnB3n，其中，B1、B2、Bn为子阵列A的向量，α1、α2、αn分别为向量B1、B2、Bn的权重。这样计算得到的方向性加权向量即为子阵列A的中心指向性向量。其他子阵列的方向性加权向量也按照此方法计算得到。

步骤S203，以每一所述方向性加权向量的指向为分割依据，将所述原始语音信号分割成N个子空间语音信号。

本步骤中，以每一所述方向性加权向量的指向为分割依据，在360度的空间中将原始语音信号分割成N个子空间语音信号。比如，假设每个方向性加权向量的有效覆盖范围为45度，360度的空间被平均划分为八个子空间，八个固定波束麦克风子阵列的中心指向分别为45度、90度、135度、180度、225度、270度、315度、360度。

本实施例，以方向性加权向量的指向为分割依据，将原始语音信号分割成N个子空间语音信号，使分割具有针对性和依据，提高了分割的效率。

在一个实施例中，图4为本发明实施例中的一种基于语音处理的语音增强方法中的唤醒词提取过程的示意图，如图3所示，所述步骤S3，从每一子空间语音信号中提取若干唤醒词，并对所述唤醒词分别进行分帧加窗处理，包括：

步骤S301，将所述子空间语音信号按照预设的语音分析时长分割成若干语音子片段，对每一语音子片段进行傅里叶变换，得到每一语音子片段的声音频谱，其中，傅里叶变换的公式为：

上式中，Y(n)表示经过傅里叶变换后的声音频谱，y(n)表示原声音频谱，f表示频率分辨率，n表示声波波长，N表示汉宁窗长度。

本步骤中，唤醒词是指语音信号中的一些音比较高的关键词的发音。在提取唤醒词之前，将子空间语音信号按照预设的语音分析时长分割成若干语音子片段，分割规则为每一语音子片段的时长相等。

其中，傅立叶变换是一种分析信号的方法，它可分析信号的成分，也可用这些成分合成信号。许多波形可作为信号的成分，比如正弦波、方波、锯齿波等，傅立叶变换用正弦波作为信号的成分。例如在信号处理中，傅里叶变换的典型用途是将信号分解成频率谱，显示与频率对应的幅值大小。

步骤S302，将每一语音子片段的声音频谱放在同一个坐标系下，所述坐标系以频率为横坐标，以振幅为纵坐标。

本步骤执行时，以频率为横坐标，以振幅为纵坐标建立一个声音频谱坐标系，在该声音频谱坐标系下，将每个语音子片段放进来进行唤醒词的提取。

步骤S303，提取纵坐标大于预设阈值的所述声音频谱对应的语音子片段作为所述唤醒词，并对所述唤醒词分别进行分帧加窗处理。

本实施例，将子空间语音信号按照预设的语音分析时长分割成若干语音子片段，从而提取唤醒词，减少误差的出现，提高了唤醒词提取的准确度。

在一个实施例中，图5为本发明实施例中的一种基于语音处理的语音增强方法中的置信度计算过程的示意图，如图5所示，所述步骤S4，根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词，计算对应子空间语音信号的置信度，包括：

步骤S401，分别将每一子空间语音信号中的所述唤醒词输入到训练好的神经网络模型中，计算每一子空间语音信号的后验概率，计算公式为：

hsmooth＝max{1,j-wsmooth+1}

上式中，P为唤醒词的后验概率，j为唤醒词的帧，k为隐藏层，i为唤醒词，wsmooth为滑动窗口，hsmooth为滑动窗口内帧的索引；

本步骤中，神经网络包括n个隐藏层，每个隐藏层有若干个节点，在最后一层输出每个子空间语音信号的后验概率P。神经网络可以采用卷积神经网络、BP神经网络、记忆神经网络中的一种或多种，优选地采用卷积神经网络，卷积神经网络仿造生物的视知觉机制构建，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征，例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程。

步骤S402，根据每一子空间语音信号的后验概率，计算对应子空间语音信号的置信度，计算公式为：

hmax＝max{1,j-wmax+1}

上式中，S为置信度，i为唤醒词，j为唤醒词的帧，P为唤醒词的后验概率，wmax为滑动窗口，hsmooth为滑动窗口内帧的索引。

本实施例，通过将唤醒词入参至神经网络模型中计算后验概率，提高了后续置信度计算的准确性和高效性，从而更好的达到了语音增强的目的。

在一个实施例中，提出一种基于语音处理的语音增强装置，如图6所示，包括预处理模块10、分割模块20、提取模块30、计算模块40、输出模块50，具体的：

预处理模块10，用于获取带有方向性噪音的原始语音信号，将所述原始语音信号依次输入滤波器和麦克风阵列，得到所述原始语音信号的固定波束麦克风阵列；

分割模块20，用于根据所述固定波束麦克风阵列，将所述原始语音信号分割成N个子空间语音信号；

提取模块30，用于从每一子空间语音信号中提取若干唤醒词，并对所述唤醒词分别进行分帧加窗处理；

计算模块40，用于根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词，计算对应子空间语音信号的置信度；

输出模块50，用于根据计算得到的每一子空间语音信号的置信度，选取所述置信度最高的所述子空间语音信号作为最终输出语音信号。

在一个实施例中，所述预处理模块10还用于：

获取带有方向性噪音的原始语音信号；

将所述原始语音信号输入所述滤波器，进行固定波束形成计算；

将经过固定波速形成计算的所述原始语音信号输入所述麦克风阵列，得到所述原始语音信号的固定波束麦克风阵列。

在一个实施例中，所述分割模块20还用于：

将所述固定波束麦克风阵列划分为N个子阵列；

以每一所述方向性加权向量的指向为分割依据，将所述原始语音信号分割成N个子空间语音信号。

在一个实施例中，提出一种计算机设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行计算机可读指令时实现上述各实施例中所述的基于语音处理的语音增强方法的步骤。

在一个实施例中，提出一种存储介质，所述存储介质可被处理器读写，所述存储介质存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例中所述的基于语音处理的语音增强方法的步骤。其中，所述存储介质可以为非易失性存储介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明一些示例性实施例，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

技术特征：

1.一种基于语音处理的语音增强方法，其特征在于，包括：

获取带有方向性噪音的原始语音信号，将所述原始语音信号依次输入滤波器和麦克风阵列，得到所述原始语音信号的固定波束麦克风阵列；

根据所述固定波束麦克风阵列，将所述原始语音信号分割成N个子空间语音信号；

从每一子空间语音信号中提取若干唤醒词，并对所述唤醒词分别进行分帧加窗处理；

根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词，计算对应子空间语音信号的置信度；

根据计算得到的每一子空间语音信号的置信度，选取所述置信度最高的所述子空间语音信号作为最终输出语音信号。

2.根据权利要求1所述的基于语音处理的语音增强方法，其特征在于，所述获取带有方向性噪音的原始语音信号，将所述原始语音信号依次输入滤波器和麦克风阵列，得到所述原始语音信号的固定波束麦克风阵列，包括：

获取带有方向性噪音的原始语音信号；

将所述原始语音信号输入所述滤波器，进行固定波束形成计算，所述固定波束形成计算公式如下：

其中，k为频点，c为原始语音信号的帧编号，Zc(k)为c的固定波速，为原始语音信号，为滤波器的系数，每帧的滤波器的系数为预设的不同常数，H为帧的数量；

将经过固定波速形成计算的所述原始语音信号输入所述麦克风阵列，得到所述原始语音信号的固定波束麦克风阵列。

3.根据权利要求1所述的基于语音处理的语音增强方法，其特征在于，所述根据所述固定波束麦克风阵列，将所述原始语音信号分割成N个子空间语音信号，包括：

将所述固定波束麦克风阵列划分为N个子阵列；

以每一所述方向性加权向量的指向为分割依据，将所述原始语音信号分割成N个子空间语音信号。

4.根据权利要求1所述的基于语音处理的语音增强方法，其特征在于，所述从每一子空间语音信号中提取若干唤醒词，并对所述唤醒词分别进行分帧加窗处理，包括：

上式中，Y(n)表示经过傅里叶变换后的声音频谱，y(n)表示原声音频谱，f表示频率分辨率，n表示声波波长，N表示汉宁窗长度；

将每一语音子片段的声音频谱放在同一个坐标系下，所述坐标系以频率为横坐标，以振幅为纵坐标；

提取纵坐标大于预设阈值的所述声音频谱对应的语音子片段作为所述唤醒词，并对所述唤醒词分别进行分帧加窗处理。

5.根据权利要求1所述的基于语音处理的语音增强方法，其特征在于，所述根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词，计算对应子空间语音信号的置信度，包括：

分别将每一子空间语音信号中的所述唤醒词输入到训练好的神经网络模型中，计算每一子空间语音信号的后验概率，计算公式为：

hsmooth＝max{1,j-wsmooth+1}

上式中，P为唤醒词的后验概率，j为唤醒词的帧，k为隐藏层，i为唤醒词，wsmooth为滑动窗口，hsmooth为滑动窗口内帧的索引；

根据每一子空间语音信号的后验概率，计算对应子空间语音信号的置信度，计算公式为：

hmax＝max{1,j-wmax+1}

上式中，S为置信度，i为唤醒词，j为唤醒词的帧，P为唤醒词的后验概率，wmax为滑动窗口，hsmooth为滑动窗口内帧的索引。

6.一种基于语音处理的语音增强装置，其特征在于，包括如下模块：

分割模块，用于根据所述固定波束麦克风阵列，将所述原始语音信号分割成N个子空间语音信号；

提取模块，用于从每一子空间语音信号中提取若干唤醒词，并对所述唤醒词分别进行分帧加窗处理；

计算模块，用于根据每一子空间语音信号对应的分帧加窗处理后的所述唤醒词，计算对应子空间语音信号的置信度；

输出模块，用于根据计算得到的每一子空间语音信号的置信度，选取所述置信度最高的所述子空间语音信号作为最终输出语音信号。

7.根据权利要求6所述的基于语音处理的语音增强装置，其特征在于，所述预处理模块还用于：

获取带有方向性噪音的原始语音信号；

将所述原始语音信号输入所述滤波器，进行固定波束形成计算；

将经过固定波速形成计算的所述原始语音信号输入所述麦克风阵列，得到所述原始语音信号的固定波束麦克风阵列。

8.根据权利要求6所述的基于语音处理的语音增强装置，其特征在于，所述分割模块还用于：

将所述固定波束麦克风阵列划分为N个子阵列；

以每一所述方向性加权向量的指向为分割依据，将所述原始语音信号分割成N个子空间语音信号。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行如权利要求1至5中任一项所述的基于语音处理的语音增强方法的步骤。

10.一种存储介质，其特征在于，所述存储介质可被处理器读写，所述存储介质上存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个所述处理器执行如权利要求1至5中任一项所述的基于语音处理的语音增强方法的步骤。

技术总结

本发明涉及人工智能领域，尤其涉及一种基于语音处理的语音增强方法及相关设备，基于语音处理的语音增强方法包括：获取原始语音信号，将原始语音信号依次输入滤波器和麦克风阵列，得到原始语音信号的固定波束麦克风阵列；根据固定波束麦克风阵列，将原始语音信号分割成N个子空间语音信号；从每一子空间语音信号中提取若干唤醒词，并进行分帧加窗处理；根据每一子空间语音信号对应的分帧加窗处理后的唤醒词，计算对应子空间语音信号的置信度；根据置信度的计算结果，选取置信度最高的子空间语音信号作为最终输出语音信号。本发明分散了噪音的方向性，减少了噪音的方向数量，提取有效语音较强且噪音较弱的子空间语音信号，从而达到语音增强的效果。

技术研发人员：赵建平;马骏;王少军

受保护的技术使用者：平安科技（深圳）有限公司

技术研发日：.05.07

技术公布日：.09.10

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。