1、 单通道盲信号分离的概率方法概要当只有单声道录音时,我们提出了一种新的技术实现源分离。其主要思想是基于利用声源的内在时间结构,通过学习在时域,在统计学上有效的方式进行编码的源代码的基础上筛选先验集。我们得出一个学习算法采用最大似然方法给出了观察单通道数据和基础的过滤器。每个时间点,我们可以推断信号源和他们的贡献因素。这一推断可能是由于先前知识的基础的过滤器和相关系数密度。建模的观察和实验结果表现出两个信号的混合物的分离性能高的水平,以及两个语音信号分离的高水平。1 介绍在计算听觉场景分析和独立成分分析,提取个人从不同的信号添加剂混合声源已吸引许多研究者。为了确切的阐述这个问题,我们假设所观察到
2、的信号 是 P 的所增加的独立源信号其中 是 信号源的 采样值, 是每个源的增益是固定时间的推移 。请注意,上标表示样本指数随时间变化的信号和源识别。增益常数是受多种因素影响,如力量,位置,方向和许多其他的特性来源的发电机以及敏感的传感器。可以很方便地假设所有的来源,具有零均值和单位方差。我们的目标是恢复所有的 只有一个传感器输入 。对于易处理的数学问题来说这个问题太糟糕了因为对于未知数额 PT+T 只有 T 可以观测到。基于个人的声音在频域的推定,几个较早尝试 对这个问题已经提出。ICA 是一种数据驱动的方法 2,这种方法是放宽强烈的特征频率结构假设。然而,ICA 算法执行时所观察到的数量。
3、图1:所观察到的混合信号和原始信号源的生成模型。A 单通道观察所产生的加权求和的两个信号源的不同特点。B 个别信号源产生加权的信号 的基函数的线性叠加 。C 实际系数分布的例子。他们通常比高斯分布有更尖锐的顶点和较长的尾巴,并将被分类为超高斯。是广义高斯密度函数的分布模型的一种形式,它提供了良好的匹配的高斯分布的不同指数。由左到右,指数下降,且分布变得更加超高斯。 信号是大于或等于源的数量。虽然最近的一些完备的陈述可能放宽这一假设,分离从一个单一的通道源观察的问题仍然很困难。ICA 已十分有效地在其他方面证明,如语音信号的编码和自然的声音。基函数和 ICA 的系数构成一个声源的有效的表示给定的
4、时间序列的估计的最大似然的密度,从而反映的统计结构的来源。本文提出的方法的目的是利用国际合作社联盟的基础职能分离混合来源从单一渠道观察。集合的基础功能学的先验从训练数据集,这些集合是用来单独的测试未知的生源。该算法恢复原始听觉流在多个梯度上升适应措施的最大似然信号的分离,利用基函数和概率密度函数的系数 ICA 的基础上过滤器的输出。目标函数作为一个强有力的前源的特点不仅能利用国际合作社联盟的基础职能,而且它们的相关系数 PDF 的模型是广义高斯分布 1。实验显示两个不同来源的模拟混合物的分离是相当成功的摇滚乐和爵士乐的音乐,男性和女性的语音信号。2 混合信号源生成模型该算法首先涉及到的声源的时
5、域基函数的学习,这个声源是我们从一个给定的训练数据库中分离出来的。这相当于现有的信息是非常有必要成功地分离信号。我们假设有两个不同类型的生成模型中观察到的单通道混合物以及原始来源。第一个是描绘在图1 - A。如公式1中所述,在每个 所观察到的实例被假定为不同来源的加权总和。只有 P = 2的情况下,在我们的做法被认为是这样的。这对应的情况在1节中定义的,不同的信号混合和观察在一个单一的传感器。对单个的信号源,我们采用一种分解方法的另一个生成模型。以前采用这种方法在分析声源 7,从一个时变信号的线性叠加的一些基本模式,表示一个固定长度的部分,称为基函数,标量倍数(图一)。连续样本长度 N 是信号
6、源的一段,且 N=T,从 t 到 t+N-1,而且和随后的部分是在黑体字母表示为 N 维列向量, 。建造的列向量则表示为基础的线性组合功能,例如,其中 M 为基函数的数目,在 N 维列向量的形式中, 是第 个源中的第 个基础功能, 。该 r.h.s.是矩阵向量记号。第二个下标 k 跟在源索引中的 代表的系数向量 的组件数量。我们假设 M = N 和 A 是满秩,所以 和 在两个方向上的转换是可逆的。基础的逆矩阵, 是指产生系数向量的 ICA 滤波器:。这种分解的目的,在 模型的多变量分布统计学上是有效的方式。ICA 学习算法相当于线性变换,使组件统计学尽可能独立,以及最大限度地为给定的训练数据
7、 10转换后的坐标的边际密度。其中 表示一个变量 的值的概率。在组成部分和随着时间的推移样品的因式分解的产品系数的联合概率是独立的。重要的是如何很好地匹配模型的分布是真正的 的基本分布。真实数据的系数直方图显示,分布在一条长长的尾巴(图1 - C)的峰值高度激化。因此,我们使用广义高斯之前 9,可提供对称非高斯分布拟合指数秦在其最简单的形式的参数设置准确的估计。其中, ,和 是一个变量 的实现 PDF,并应特别注意 。随着广义高斯 ICA 学习算法 9,基础功能及其各个参数的设置 事先得到以下源分离算法的先验信息。3 分离算法该方法是出于 ICA 变换(公式 3)PDF 逼近性质。计算源信号的
8、概率是通过广义高斯变换域的信号源变化的步骤的参数 8,以最大限度地提高数据的可能性最大后验(MAP )的估计。这样就可以有比例因子的生成模型。3.1 MAP 估计源信号我们已经证明,学习的基础过滤器使给定的数据的可能性最大化。假设我们知道声源有好有坏,从集合中给了我们一套的基础过滤器。我们推断的学习资料吗?答案是一般是“否定”,当 n T 而且没有任何其他信息。在单声道信号分离的问题上,我们的解决方案的一半是已经给定的约束 , 构成 数据(图 1 - B)的基础上进行学习。从本质上讲,源推断本文提出的算法的目标是与一套系数密度参数 的统计资料,以补充剩余的一半。如果给定的模型参数,我们可以进行
9、简单的优化模型参数计算的数据的可能性最大后验(MAP)的估计。在每一个时间点段 生成独立的系数向量 和 。的可能性是其中 P( .)是广义高斯密度函数,而且 ,系数的参数组: .元素的有序集假设的独立性随着时间的推移,整个信号 的概率从所有可能的领域边际的获得,其中,为方便起见, 。最大化的目标函数是两个声源的数据似然的乘法,我们用 表示其日志:我们感兴趣的是在适应 和 走向 属最大 ,我们引入一个新的变量的贡献系数换算值。适应 值,同时以推断出声音的来源和他们的贡献因素。学习规则是派生总结样本所在的所有段的梯度渐变上升的方式:和 这是派生的事实,当而且 。注意梯度 为 , ,总是满足条件 。
10、所以,学习 或 归入对口的规则。整体过程中所提出的方法是归纳为 4 图 2 中的步骤。该图显示了一个迭代适应每个样品。图 2:建议的方法的整体结构。我们给出了单通道数据 ,和我们的信号源, 适应在每一步,估计。(一) :在每一个时间点,目前的估计源信号的传递通过基础过滤器无线网络,产生 稀疏编码 是统计独立的。 (二) :每个代码的随机梯度获得衍生日志的可能性。 (三) :渐变转化为源域。 (四)个人梯度相结合,要添加到目前的估计源信号的。3.2 估算 和更新的贡献因素可以通过简单地寻找最大后验值来完成。为了简化推断步骤,我们假设因素的总和是恒定的。比如 。所以 是完全依赖于 因为 ,这样我们
11、只需考虑 。给了一个基函数和目前估计的源信号 , 的后验概率是其中 是 的密度函数。 的价值使增大了后面的概率,也增大了其原始值。其中 是公式 7 中估计来源的似然对数。假设 是均匀分布的,可以计算成由以下规则规定解方程 ,把 和 带入其中,得这些值保证 是目前最大值 w.rt 目前估计的信号源。在学习的过程中,该算法定期更新的贡献因素。图 3:四个声源的波形,是学习基础函数的例子。(5 人选择了 64 个),以及由广义高斯分布做出相应的系数建模。所有的基础功能也可以在网站上找到。图 4:4 个声源的平均功率谱。频率刻度范围是 0 到 4KHz(X 轴),因为所有的信号的采样频率为 8KHz。
12、平均的功率谱用 Y 轴代表。4 实验与讨论我们已经测试了四种不同类型的声音单通道混合物所提出的方法的性能。他们是摇滚和爵士乐,男性和女性的讲话单声道信号。我们用两套不同的语音信号来学习基础函数和他们产生的混合函数。对于混合函数,两个句子的目标扬声器“mcpm0和fdaw0”,他们每一个,都是从 TIMIT 语音库选择出来的。这个集合包括每个性别 21 句话,从相同的数据库不包括 2 目标扬声器,每 3 个随机选择 7 男性(或女性)。摇滚音乐,主要是由吉他和鼓声,而爵士乐由类似风的乐器产生。两个音乐响起的声乐部分被排除在外。所有信号得采样频率下降,从原来的 44.1KHZ(音乐)和 16KHz
13、 的(讲话)到 8KHz。集合的数据在 64 个样品,每个样品开始(8 毫秒)分段。所有实验的音频文件访问网站 1。图 3显示的是实际来源,适应的基础函数,和其系数分布。音乐的基础函数表现与谐波的幅度一致,讲话的基础函数是类似伽柏小波的。图 4 通过平均光谱来比较 4 个来源。每个涵盖了所有的频段,虽然幅度不同。人们很期待简单的过滤和屏蔽不能清楚的分开混合信号源。在实际的分离之前,通过信号源的初始化来得到混合信号的值: ,和 组均为 0.5,以满足公式 1。适应是每个例子重复了 300 多个步骤,而且比例因子每 10 个步骤进行了更新。表 1 报告的混合信号的信号噪声比(信噪比) 和恢复的结果
14、 与原始来源 。在总信噪比方面增加包含音乐的混合信号的复原比男女混合信号更干净。爵士音乐和男性讲话的分离是最好的,和波形说明这点。图 5:爵士音乐和男性讲话的混合声音分离的结果。在垂直的顺序:原始来源(Z1和 Z2),混合信号(Z1+ Z2),和恢复的信号。在图 5。我们假设在平均光谱源的图 4中,虽然存在着大量的爵士乐和言语之间的重叠,结构是不一样的的,即爵士乐变化的频率成分较少,所以我们能够取得比较好的信噪比结果。然而摇滚音乐展示出分散的频谱和较少的特色结构。这就解释了摇滚混合音乐的相对贫乏的操作。这种分离方法与其他卡莎技术比较是非常困难的,因为他们的方法在许多方面,其参数的优化调整是如此
15、不同。但是,如果给出真正的频谱,我们比较我们的方法与维纳滤波4,就可以在频域提供最佳的屏蔽过滤器。因此,我们假设是完全已知的其他来源。该过滤器计算每块 8 毫秒(64 个样本),0.5 秒和 1.0 秒。在这种情况下,我们盲目的结果是可比的 SNR 获得的结果时,维纳滤波器在 0.5 秒计算的结果是这样的。总之,我们的方法比传统的方法信号分离有几个优点。它们要么涉及光谱技术 5或时域非线性滤波技术 3。光谱技术假设来源是相交的频谱,这个频谱是经常在所在地区的假设不匹配的信号声响扭曲的结果。最近的时域滤波技术是基于整个信号分裂成若干不相交的子空间的信号空间。虽然他们克服了限制谱表示,但他们考虑了
16、二阶统计,如自相关,制约可分的情况下,正交子空间 4。我们的方法利用事先设置的基础函数避免了这些强有力的假设,这种函数捕捉信号源固有的统计结构。因此,这种生成模型在同一时间使用光谱和时间结构。由 ICA 算法的基础功能决定;,约束力的基本函数,导致一个有效率的代表性,即线性独立的源系数。表 1:信噪比结果。R,J,M,F 是摇滚,爵士音乐,男,女性讲话的代表。所有数值以 dB 为单位计量。Mix列混合到 Y 的来源,并 计算混合信号信噪比(y)和恢复源 与原始来源 。和其相应的 PDF 获得一个诚实的基于路径的推理算法是关键。一个重要的问题是如何做好实验数据相匹配的测试数据。我们还进行实验与测
17、试的基本函数测试出声音和信噪比平均下降增加 1dB。5 结论我们提出了一个利用时域 ICA 基函数对单声道信号源进行分离的技术。而不是传统的先验知识的来源,我们利用来源的统计结构,这个来源本质上是被基础和它的系数从训练集中捕获的。该算法通过梯度上升适应步骤来追求最大似然估计,来恢复原有的声音流,油基础过滤器和滤波器系数的广义高斯分布的参数来约束。随着分离的结果,我们证明,该方法适用于现实世界的问题,如盲源分离,去噪,并修复损坏或丢失的数据 9。我们目前的研究包括在此组织内的延伸来对模型进行比较,以估计的基础功能的使用可以达到基础功能的字典设置。这是通过应用变分贝叶斯方法来比较不同的基函数模型,
18、选择最可能的来源。这种方法还使我们能够应付作为源的数量与其他未知参数。未来的工作将实行对实时的学习规则的处理和评价进行优化,这在嘈杂的环境,如极光数据库,语音识别任务的方法。参考文献1 G. J. Brown 和 M. Cooke,,“计算听觉场景分析”计算机语音和语言,第一卷。297-336 页。1994 年。2 P. COMON,“独立成分分析的新概念, ”信号处理, 36卷。 第287-314页,1994年。3 E. Wan 和 A. T. Nelson,“神经双扩展卡尔曼滤波:在应用程序语音增强和单声道的盲信号分 离”。IEEE 的神经网络与信号处理研讨会,1997年。 4 J. Ho
19、pgood 和 P.雷纳,“单通道信号分离采用线性的时间不同的过滤器:非平稳随机信号的可分性,”PROC。 ICASSP,第一卷。(美国亚利桑那州凤凰城)第1449至1452页,1999年3月。5 ST Roweis,“一个麦克风源分离”,在神经信息处理系统的进展,第13卷。第793-799页,2001年。6 Rickard,R.巴兰,J.罗什卡,“实时基于时间频率的盲源分离,”在 PROC。独立成分分析和信号分离(ICA2001),(圣迭戈,CA),第651-656页,2001年12月的国际会议。7 T.-W.李和 G.-J.张,男性和女性的语音信号的统计结构,“在 PROC。ICASSP(盐湖城,犹他州),2001年5月。8 AJ 贝尔和 TJ Sejnowski,“学习的自然高阶结构的声音,“网络计算在神经系统,第7卷。 261-266页,1996年7月。9 T.-W.李和 MS Lewicki,“广义高斯混合模型使用 ICA”国际研讨会上独立分量分析(ICA00),(赫尔辛基,芬兰),第239-244页,2000年6月。10浦大卫 L.帕拉,“文章灵敏度高的 ICA 概括,”在 PROC。 ICONIP,(香港),第151-157页,1996年9月。