1、单声道信号源分离最大似然方法4 评价现在,我们目前使用语音的人工混合物的单声道分离的一些例子信号和音乐信号。与ICA 的教训的基础上过滤器的分离性能相比与其他传统的基地,傅立叶,固定小波函数和数据驱动主成分分析(PCA )的基础上过滤器。为了评估我们的方法的限制,我们比较我们的方法维纳滤波与真实频谱图。然后,我们目前的分离结果在真实的环境噪声和语音记录。图 5:仿真系统设置。(A)训练阶段:两套训练数据用来获取基础的过滤器和广义高斯参数。(B)测试阶段:两个源信号 x1 和 x2 是混合成单声道信号 Y。建议的信号分离算法恢复原始信号源的基础上过滤器和广义高斯 PDF 参数集。4.1 仿真设置
2、我们已经测试的两种不同的声音类型的单通道混合物的建议方法表现。仿真系统设置如图 5 所示。模拟分为两个阶段。在第一阶段,我们准备培训资料,并运行 ICA 学习算法获得的基础上过滤器 WIK,并建模系数的广义高斯的参数(IK)(stik)PDFS。基础的过滤器和 PDF 参数估计分别为源 1 和源 2。在测试阶段,两个源信号 XT1 和 XT2,这是不包括在训练数据集,混合成一个单一的通道混合的,我们申请建议分离算法和恢复原始来源。我们采取了四种不同类型的声音,我们的模拟实验。他们是摇滚和爵士音乐的单声道信号,男性和女性的讲话。我们用于学习功能的基础上产生的混合物两套不同的声音信号。对于混合发电
3、,两个句子的目标扬声器“mcpm0” 和“fdaw0”,为每个扬声器,从TIMIT 语音库选择。训练集设计,每个性别, 37 个随机选择的男性和 7 个随机选择的女性,每年有 21 句。2 目标扬声器的话是不包括在训练集。摇滚音乐,主要是由吉他和鼓声,和爵士乐风仪器产生。两个音乐响起的声乐部分被排除在外。用于培训,一半一半的音乐声中产生的混合物。所有信号缩减像素采样到 8kHz,从原来的 44.1(音乐)和16kHz 的(讲话)。 图 6:4 个声源的波形,从训练集。信号源的音频文件http:/speech.kaist.ac.kr/jangbal/ch1bss/.图 7:4 声源的平均功率谱。
4、频率刻度范围在 04kHz 的(X 轴),因为所有的信号都在 8kHz 采样。平均的功率谱和 Y 轴代表。在 64 个样品,每个样品开始(8 毫秒)分段。所有实验的音频文件在 http:/speech.kaist.ac.kr/ jangbal/ch1bss 访问。图 6 显示了四个声源用于培训学习的基础上过滤器和估算的广义高斯模型参数的波形。我们使用不同的数据分离实验。图 7 比较平均光谱上述四个资料来源。每个涵盖了所有的频段,虽然幅度不同。人们所预料的那么简单过滤或屏蔽,不能分开的混合来源清楚。图 8:由 ICA 的教训的基础上过滤器。选择只有 7 的基础上筛选出 64 个成套。全套的基础上
5、筛选 http:/speech.kaist.ac.kr/jangbal/ ch1bss/。他们得到的广义高斯 ICA 学习算法在 2.2 节所述。4.2 教训的基础过滤器图 8 教训的基础上过滤器的四个类型的声音(WIK)的子集。广义高斯 ICA 学习适应从一个 64 64 平方米的单位矩阵,基函数的梯度计算了 1000 个波形段块。每个PG(stik)的参数 QIK 更新每 10 梯度步骤。教训的基础上过滤器一般为代表的不同程度,其中一些只局限在时域范围的波形叠加。语音基础的过滤器在时间和频率域化和本地化,轴承相似 Gabor 小波(高斯调制叠加)。更多关于男性和女性的基础过滤器之间的差异的
6、分析中可以找到工作,李某和张某(2001 年)。爵士乐的基础上过滤器大多是固定的,但经常幅度的变化显示在时间轴的非平稳行为。岩石基础的过滤器是少固定,振幅突然变化的特点和摇滚音乐的“鼓声”。 要实现高阶概率超过一阶独立性(去相关)独立显示的优势,我们进行了对比实验获得的基础上筛选通过 PCA 的输出系数之间的相关性,从而消除。去相关定义是一个零均值向量 x 的转化与矩阵 W,使蜡质有身份的协方差矩阵。PCA 的基础滤波器正交,可从协方差矩阵,W P= D -2 等,其中 E 是一个矩阵特征向量的EXXT列的特征向量获得。图 9:显示四个声源中的每一个主成分分析的基础上过滤器的例子的基础是彼此不
7、同的,因为从不同的训练数据集的协方差矩阵,但差异并不在 ICA的基地所产生的显著。对于语音基地,PCA 的基础滤波器振幅稳定得多,像傅立叶的基础上涵盖了整个时间范围,虽然在时间和类似于 Gabor 小波本地化 ICA 的基础上过滤器。对比数据驱动的 ICA 和 PCA 基地,我们也执行与两个固定声源的基础上筛选实验:傅立叶和小波的基础上。了解到的讲话的基础上,通过 ICA 的过滤器像 Gabor 小波,和其他数据驱动的基础上过滤器,除了一些先验基础过滤器,叠加类似的行为。因此,这是图 9:PCA 获得的基础上过滤器。选择只有 7 的基础上筛选出 64 个成套。他们通过学习 ICA 的基础上过滤
8、器使用相同的训练数据计算协方差矩阵的特征值分解。宝贵的是,以评估真正傅立叶和真正 Gabor 小波滤波器建议的分离方法的有效性。公式(2)我们假设的基础上筛选,实值,因此,我们通过一个离散余弦变换(DCT)的基础上,只给出了实系数:其中 k1,N 是一个指标的基础上过滤器的中心频率。一个实值的 1- D Gabor 小波是一个具有高斯信封的平面正弦波,由洛伊(2002 年)。 和 f 分别确定的位置和宽度的高斯信封,并是正弦波的频率。f 的值和 u 频率逐渐增多所有过滤器的设置,增长到跨越整个时频空间,因为它可以在普通的小波基。除了规模,只有波长和宽度之间的比例高斯信封可以使不同的两个 Gab
9、or 小波。图 10 显示了 DCT 和 Gabor 小波基地的一些例子。DCT 的基础上过滤器分布在时间轴是完全固定的,也就是说,每个 DCT 的过滤器是一个独特的频率的正弦波组成。Gabor小波也固定的,但只局限在时域范围驻留在。在图 8 和 9,ICA 和 PCA 的基础上过滤器表现出较少的规律性。PCA 的基础上过滤器和傅立叶的基础上过滤器显示出类似的特点,和两个语音信号和 Gabor 小波 ICA 基础上过滤器也表现出很大的相似之处。4.3 模拟混合物的分离结果我们所产生的四个选择两个来源,只需添加合成的混合物。在 3.4 节的建议分离算法用于恢复原始来源渠道单一的混合物。混合物的值
10、初始化为源信号的估计。图 10:DCT 的基础上过滤器(第一行)和 Gabor 小波的基础上过滤器(第二行)。选择只有 7 的基础上筛选出 64 个成套。同一套基础的过滤器可用于所有的四个声源。信号:XT1= XT2= YT。 电流源估计所有的样品,同时在每一次迭代更新,在每 10 次迭代更新和缩放因素。大约 100 次迭代后,根据分离的融合学习率和其他各种系统参数。分离的程序算法遍历所有的数据和计算梯度,类似的学习算法的基础上,因此他们的时间复杂性是同样的顺序相同。一个 1.0 GHz 的奔腾电脑上测得的分离时间为 8 秒长的混合物约 10 分钟。信号噪声比(SNR),是指由测量的原始信号源
11、和估计源之间的相似性。其中 s 是原始的源和 S 估计。要限定一个分离的结果,我们使用两个恢复源信号信噪比的总和:snrx1(X1)+ snrx2 (X2)。表 1 四种不同基地的 SNR 结果报告。在平均信噪比,数据驱动两个基地的表现优于表 1:建议的方法的 SNR 结果。(R ,J,M ,F),摇滚,爵士音乐,男,女性讲话。“组合”一栏中列出的来源是混合到 Y 的符号,和其他列的值是信噪比的款项,snrx1(X1)+ snrx2(X2 ),以 dB 为单位。每列的第一行表明所使用的方法获得的基础过滤器。“毛重”代表 Gabor 小波。所有结果的音频文件访问 http:/speech.- k
12、aist.ac.kr/jangbal/ch1bss/。图 11:爵士音乐的男性和讲话的分离结果。在垂直的顺序为:原始来源(x 1 和X2),混合信号(X1 + X2 ),并恢复信号。两个固定基地,和 ICA 的基础显示性能最好的。此外, ICA 的基础上保证一定程度上的所有案件的信噪比性能,而表演的两个固定基地和主成分分析的基础上有很大不同的混合声源。爵士乐女性混合物的分离和 PCA 的基础信噪比优于 ICA 的基础,虽然其他的混合物被严重分离。DCT 和 Gabor 小波的基础上显示很好的信噪比为爵士音乐的混合物相比,其他混合物。这可能的解释是,爵士音乐是非常接近固定,并因此 PCA 和 I
13、CA 诱导爵士音乐类似特征的基础上过滤器(图 8 和 9),而这些基础的过滤器类似于 DCT 的基础上过滤器。虽然 Gabor 小波滤波器在时间上是局部性的,他们也从血窦,所以他们代表与其他信号源相比,爵士音乐。一般来说,含有爵士音乐的混合物被回收比较干净,和男女混合至少收回。关于摇滚音乐的混合物,ICA 的基础和其他基地之间的信噪比差异远远比其他混合物。这是因为鼓声(突然变化幅度),以及只有在 ICA 的基础上过滤器表示。图 11 说明原始来源和回收的结果为他们的爵士音乐和男性讲话的混合物,和图 12 的男性和女性的言论的混合物显示的波形。他们的信噪比款项分别为 10.3 和 5.9。讲话,讲话的混合物的分离比音乐讲话混合物的差。从实验结果,我们得出结论,分层性能高度依赖的基础上功能。预计每个基地台的信号源,混合和单一通道中观察到的。