毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战贝壳第三季度营收226亿元 经调净利润17.8 亿元 同比下降17.46%AI营销,让科技巨头尝到了大模型商业化的甜头安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购
  • 首页 > 产经新闻频道 > 业界新闻

    Facebook研究为空间音频进行更好的信号增强

    2021年11月04日 11:48:18   来源:映维网

      近年来,使用空间处理算法从干扰扬声器、混响和/或环境噪声所造成的噪点环境中提取清晰语音的能力一直备受追捧。从仅提取感兴趣信号中获益的常见用例包括自动语音识别、助听器信号增强、在线语音聊天、视频会议及其他众多应用,例如在嘈杂的餐厅中实时增强语音。

      业内认为,跨数据方法是降低信号噪点的稳健解决方案。例如,在空间信号增强领域,人们已经广泛研究了波束形成器的算法(如延迟和求和算法)和超定向算法(如最大方向性和差分麦克风阵列)。

      其他更为优化的方法需要源和非期望噪点的统计知识。最小方差无失真响应(MVDR)和线性约束最小方差(LCMV)等方法提供了分离两种类型信号的最佳滤波器系数,同时不会使所需信号失真。LCMV公式允许对多个传递函数(如果可用)进行线性约束。仅依赖于期望或非期望的推断以及两者的混合信息的替代公式称为最小功率无失真响应(MPDR)和线性约束最小功率(LCMP)方法。

      尽管上述方法能够在已知信号参数的情况下提供最佳解决方案,但仅从信号估计参数依然具有挑战性。业内存在几种空间滤波器参数估计方法,但它们通常假设语音源信号,并通常考虑是否已经发生语音的时间活动和概率。它们通常分类为语音活动检测器或流行的单通道语音存在概率(SPP)。

      SPP同时有用于多通道阵列研究,以利用空间域确定不同空间位置的语音概率。所述方法基于这样一个假设:语音要么是感兴趣的目标信号,要么两者兼而有之。这种假设限制了语音方法的能力,特别是当干扰源可能是音乐、交通工具、动物或在时间或频谱上与语音不相似的其他来源时。

      其他技术使用长时间历史记录和统计数据来分离数据源,这可能导致实时应用程序中的长延迟。鉴于仅依赖语音信号的局限性,已改名为Meta的Facebook在名为《Adaptive Multi-Channel Signal Enhancement Based on Multi-Source Contribution Estimation》的论文中提出了一种空间信号增强方法。

      所述方法独立于期望和非期望源信号的频谱和时间统计,仅利用空间域处理技术进行自适应参数估计。当存在非语音的空间噪声源时,算法对源信号类型的独立性尤为重要。团队假设每个源向接收样本贡献一部分信号,并且相对贡献与样本在估计空间源参数中的有用性相关。在所述假设下,研究人员从初始到达方向(DOA)估计开始,并跟踪以确定源的位置。所述位置用于播种LCMV过程,然后用于确定每个源对当前接收信号的相对源贡献估计(SCE)。SCE值用作自适应学习噪声混响环境中声源统计参数的权重,而所述统计参数同时用于计算最终一组MVDR滤波器的参数。最终滤波器用于执行空间信号增强,从而增强选定的期望声源。用于最终MVDR的参数反馈到第一个LCMV中,因此能够随着时间的推移自适应地细化。

      在实验,团队模拟了在不同混响时间内记录语音。房间尺寸为6 m×7 m×3 m,使用Eyring公式调整墙壁吸收系数,使混响时间在0.15 s到0.9 s之间变化。总共有6个不同的RT60值。所述信号是用343ms −1的声速来模拟,采样频率16 kHz。带有6个等间距话筒的圆形话筒阵列的中心位置为(2,3.5,1.5)。在30 dB SPL的水平上,将高斯白噪声传感器噪声添加到所有接收信号中。三个语音源N=3随机放置在麦克风阵列周围,距离为1米到2米,角度间隔大于20度,方位角和仰角在±10度以内 。然后,团队从20组随机位置分析性能,处理接收到的信号。

      当有清晰的语音片段时,空间自适应返回与真实活动密切相关的SCE。算法在混合源信号段中保持稳定性能。特定场景为算法确定正确的参数提供了明确的机会,从而使其能够实现与理想MVDR的紧密匹配。在更困难的场景中,只有一个源处于活动状态,从而限制了算法学习正确参数的能力。所述算法在阵列增益增加的情况下自适应地提高了性能。阵列增益的增加速度如图2所示,当L=8时,在不到2秒的时间内与性能匹配。值得注意的是,在图3中,无论L如何,30s后的值收敛于类似性能。阵列增益都在大约1s内超过“Max Directivity”波束形成器。

      图4分析了阵列增益性能。对20组随机位置使用并重复与图2中的方法类似的方法。自适应在12秒后暂停,以确保分析反映了最大性能。所述方法的阵列增益略低于Oracle性能,但明显高于“Max Directivity”情况。所述方法的峰值性能平均达到17 dB,比“Oracle”方法的18 dB低1 dB。对于宽带语音范围,所述方法的平均性能仍比“Oracle”方法低1 dB至2 dB,且始终比“Max Directivity”方法的阵列增益高4 dB至9 dB。另外,作为RT60函数的性能显示了阵列增益和混响的反向相关性。对于所有混响级别,所述方法的最大性能与“Oracle”MVDR相似,因为它暴露于部分时间分离的源信号中。这一方法比等效的“Max Directivity”波束形成器(900毫秒的RT60)的阵列增益高7 dB以上。

      总的来说,团队在这项研究中提出了一种方法来自动估计统计参数的空间滤波过程。所述方法估计环境中被跟踪源的空间能量贡献,并使用所述贡献乖离环境的统计表示。然后,研究人员从自适应行为、自适应速度和阵列增益收敛性能等方面对所述方法进行了分析。

      相关论文:Adaptive Multi-Channel Signal Enhancement Based on Multi-Source Contribution Estimation

      结果表明,所述方法能够正确地适应给定的一般初始化条件和噪点环境。自适应可以匹配理想空间滤波器的性能,并且当使用较小的缓冲区大小时,可以在不到两秒钟的时间内产生优于最大方向性波束形成器的阵列增益。由此产生的空间滤波器具有无失真约束,并且所述方法不限于语音源。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。