法安网

法安网内容检索

当前位置:首页 > 专题报道 > 语音识别 >

针对不同语言环境下的降噪模块设计方法

时间:2019-04-18 15:35:16   来源:江苏警官学院、江苏省公安厅物证鉴定中心

[法安导读]    随着语聊软件平台、 智能手机的普及与广泛应用, 案件情报收集过程中, 可以获得大量具有破案价值的语音材料。 环境声是指在交通运输

  随着语聊软件平台、 智能手机的普及与广泛应用, 案件情报收集过程中, 可以获得大量具有破案价值的语音材料。 环境声是指在交通运输、 工业生产与社会生活过程中产生的具有代表性的背景声音, 其中包括在娱乐场所、 运动场地、 交通运输、 电声系统等各种社会活动中产生的喧闹声, 以及机械高速运转带来的嘈杂声。 目前通过各种技术手段获取的录音文件往往是正常语音与环境背景声相叠加而形成, 办案民警既可以从正常语音信息中直接得到犯罪嫌疑人的身份信息与社会属性信息, 也可以通过分辨例如酒 吧、 街道、 电影院等环境背景声推断第一现场的具体信息。 但正常语音与环境背景声的相互干涉干扰, 会对软件的自动语音识别与人工听觉鉴别带来不良的影响,影响着侦查与检验鉴定的工作效率。

针对不同语言环境下的降噪模块设计方法

  为从语音文件中获取提升破案效率的线索与证据, 需通过语音降噪技术提升语音检材的信噪比, 同时也利用反向滤波等技术滤除正常说话声得到清晰的环境背景声。 本文首先对环境背景噪声的降噪方法加以总结论述,并进一步论述验证如何从说话声与环境背景声混音中提取有用信息的方法, 对公安实战工作具有一定的借鉴意义。

  一、降噪算法理论基础

  降噪又称为噪声抑制, 如需要通过滤除环境背景声达到提升说话人信号信噪比时, 背景声即为噪声。 反之, 需要通过滤除说话声、 歌声等信息达到提升环境背景声信噪比时, 说话声即为噪声。 降噪方法从应用上主要分为采样去噪法、 滤波降噪法和噪声门限降噪法等类"。 其中噪音门限降噪法是通过设置电平门限, 去除低于该门限的信号电平部分; 滤波降噪法利用滤波器将噪音出现的频段进行阻隔; 采样降噪法则通过对噪音的样本特征进行采样提取, 将与该噪音信号相近似部分的噪音从原音频中加以滤除。以上三种音频降噪的处理方法各有优缺点。 滤波降噪与噪声门限降噪能彻底除去噪音, 但对原音频音质带来较大损失, 原音频的信噪比越低音质损失越大, 经过降噪后的音频电子化现象严重。采样降噪是目前较为常用的音频降噪法,尽量保留了原音频音质的同时, 却不 能完全滤除背景噪声。因为采样噪声频谱是变化的, 需要在降噪过程中不断被修正。 为解决这个问题,可反复利用端点检测判断音频中的静音段,重复使用频谱提取算法得到新的噪声采样”。 在此理论基础上陆续提出了自适应滤波器降噪、自适应陷波降噪、基本谱减法、维纳滤波降噪等降噪算法。

  上述传统降噪算法的理论设计都是围绕抑制背景噪声,提高语音信号信噪比开展相关研究。而公安侦查工作中往往需要多渠道信息的数据碰撞进行综合研判。例如通过对语音背景环境声的研判可推断诸如酒吧、街道、电影院等第一现场的具体信息。同时,目前公安队伍中从事技术员工作的人员多为刑事科学技术专业,不具备数字信号处理的专业知识背景,对各降噪算法进行Matlab仿真实现缺乏一定的理论基础。近些年随着公安现代化建设的步伐加快,各公安院校与具备一定条件的刑事科学技术实战部门已采购或计划采购建设语音降噪系统。 本文拟以江苏警官学院实验室已有智能语音工作站语音降噪系统为例, 利用各封装降噪模块进行实验,并设计讨论对特定的说话声或环境背景噪声具有一定的抑制作用、 简单可行的降噪方法。

  二 实验条件

  (一)实验设备

  硬件: Gnome-p专业录音器, 研华科技610H工控机(CPU i7-4790 3.60G双核,内存16GB).

  软件: Adobe Audition语音编辑软件、 法庭语音分析系统OT-Expert5.1,STC降噪语音工作站。其中降噪语音工作站可设计调参的模块主要包括脉冲滤波器:对脉冲冲激信号进行抑制; 宽带滤波器: 主要用于消除白噪声; 均衡器: 通过自适应滤波对语音频域各波段进行反向抑制;动态处理:抑制强背景噪声,同时可增强微弱语音信息;混响:主要用于消除回音。

  (二)实验样本与方法

  本文选用含汽车噪声的同一认定案件检材与绑架勒索案例中在电视空调背景声下的电话录音作为实验样本, 同时使用Gnome-p录音设备采录五种不同的环境背景声:街道、酒 吧、 电影院、 机 舱与无线电干扰噪声“。 选用身体健康的男生与女生各1人, 分别使用普通话阅读对话, 在语音采集室中使用Gnome-p录音设备采录10段正常说话声, 之后利用Adobe Audition软件对上述5段环境声与10段对话式说话声进行混音与剪辑,可得到50段待测试混音语音H。

  使用语音工作站中的宽带滤波、 脉冲滤波、 反向滤波、动态处理等模块进行系统设计,并适当调节各模块参数,对待测试混音语音进行背景声降噪与说话声抑制实验, 最后 利用听觉检验与法庭语音分析系统对测试音频降噪前后的时域图与频域图进行分析比较,评价STC降噪模块组合的降噪效果。

  三、实例与验证

  无论是滤除人声还是滤除环境背景声音, 使用语音工作站的传统做法是利用均衡器模块检测混响环境声的声谱以确定噪声频谱, 在频域或时域范围降低噪声强度; 设置脉冲滤波器、 宽带滤波器的合适参数, 使其频率响应近似于输入信号的逆功率谱, 最后利用预测算法使它对周期分量衰减系数最小。当混响环境声通过语音工作站各降噪模块时, 噪声分量衰减, 而周期分量只有极小的减弱, 从而达 到降噪音的目的。 本次实验过程中对上述50段混音后分别进行了滤除环境背景声保留人声与滤除人声保留环境背景声的验证,期望能够通过降噪提升语音信号信噪比,达到人声、 环境背景声均可有效辨识的效果。

  (一)滤除环境背景声保留人声

  由于各环境背景声产生的机理各有不同, 按频域分布来划分可分为脉冲信号、 白噪声、 粉红噪声、 褐色 噪声等。图1所使用的实验样本为无锡市一起财产 纠纷案的语音检材。 通过听觉检验可判别语音检材电话录音的环境为街道, 其中夹杂着汽车经过的轰鸣声。 通过宽带语谱图(如图1(b))分析发现存在噪声能量集中在低频区域,对待鉴定人语音的第一共振峰图谱产生了干扰, 需进行降噪处理。 在设计噪声降噪模块时, 优先使用宽带滤波模块,再配合使用动态处理模块与放大模块, 可以获得听觉效果较好的降噪输出。 图1(a)是降噪前后时域中的对比, 上面的是含噪语音信号, 从图中可以看到噪声还是 很明显的。图中的下半部为降噪后的语音信号,可以看出背景噪声被大大的抑制了。 图1(b)频域图中横轴表示时间轴, 纵轴表示频率, 噪声在各种频率处都有分布, 而降噪后各频域分量中的噪声部分抑制效果明显。 为进一步对降噪效果进行量化分析, 从降噪后纯说话声与原说话声音的F1-F4各共振峰(如表1所示)进行成对T检验得出:T均值为1.16,显著概率P值为0.670(大于0.05),即差异不显著,也表明降噪效果良好。

混音降噪后与说话声纯音的共振峰均值对比(部分元音)

  表1 混音降噪后与说话声纯音的共振峰均值对比(部分元音)

       酒吧环境下产生的音乐噪声的频率分量主要集中在低频段, 高频段能量较少, 更接近于粉红 噪声。 优先使用均衡器对低频波段噪声进行反向抑制, 再配合使用宽带滤波器模块滤除其中的白噪声部分, 最后辅助使用放大模块,可以获得信噪比较高、 听觉效果较好的降噪输出。 图2(a)时域图中可以看到降噪前噪音信号几乎覆盖各时间段, 且降噪后效果明显。 图2(b)频域图中噪声主要为集中在低频域信号。 降噪过程中抑制低频噪声的同时, 信号强度被明显放大。 同样我们也对酒 吧环境声的降噪效果进行了量化评估:T均值为0.79,显著概率P值为0.571(大于0.05), 表明降噪效果良好。

 图2(b)频域图中噪声主要为集中在低频域信号

  (二)滤除人声保留环境背景声

  为提升各环境背景下混音中有效信息的信噪比,除可将说话声进行抑制以外, 与待提取环境背景声无关的信息也可对其进行有效滤除。 宾馆、 电影院、 酒 吧、 无线电干扰等环境背景声的频域范围与说话声的频域存在重叠。 人耳可通过掩蔽效应(也称鸡尾酒效应)选择性接收有用的语音信号, 但目前计算机模拟条件下对数字语音信号还未完全解决此类问题6。

  图3中为某绑架勒索案的电话录音, 受害者被挟持带至当地某宾馆后, 威胁其给朋友打电话勒索100万赎金。录音中除通话双方的言语交流信息外, 还存在复杂难以分辨的背景环境声信息。 我们首先观察各测试混音的频谱图构成分布, 通过中置声道提取并结合使用均衡器模块对各频域段进行了精细抑制增强, 如图3(a)所示。图3(b)为酒吧环境声下抑制说话声前后频域对比, 可以看到大部分的说话声信息 得到了抑制, 但环境背景声也得到一定程度的衰减。 从听觉检验效果上进行对比, 环境声的大部分信息得到了保留, 达到了 抑制人声的实验目的。 对滤波降噪后的背景环境声进行分析研判, 发现背景环境声是由电视声、空调声与一定的回声叠加而成, 可推断被胁持地点为宾馆概率较高。

图3(b)为酒吧环境声下抑制说话声前后频域对比

  机舱环境背景声为有规律的低频噪声,因此使用均衡器对500Hz~3000Hz范围的人声进行抑制,同时对低频部分进行了增强。 如图4所示, 从机舱环境声提取的效果对比频域图,可以看到机舱声音能量集中分布在300Hz以下. 因此经过均衡器模块的类似于低通滤波的调节后, 说话声音可得 到有效抑制。 本文将待测试混音语音依次滤除说话声,由于环境背景声不存在共振峰无法进行量化T检验分析,我们分别进行了频域能量分析与听觉测试,实验结果表明取得了不错的滤除效果。

 从机舱环境声提取的效果对比频域图

  四、 结论

  语音素材相比较视频图片等多媒体, 信息来源较为单ー,且背后所隐藏的环境声等信息容易被忽略。通过上述的实验测试可以确 认, 针对不同的环境背景声通过不同的降噪方法,可对环境声后隐藏的说话声和被说话声所覆盖的环境声进行有效抑制,滤除非可用语音信息,得到有价值的语音内容。

  对于频域结构简单, 存在周期波动规律的环境背景声, 可设计使用门限降噪与滤波降噪进行有效滤除; 但针对复杂多变的环境背景声和说话声, 则需要设计使用采样降噪法进行有效抑制。总之,降噪各模块的设计需要根据具体噪声条件进行定制化设计,设定与之相匹配的调节带宽、增益、衰减范围、FFT函数类型、窗函数尺寸等参数,才能达到音质条件好、人耳可辨的效果,为侦查破案获取有效线索信息并提供强有力的技术支撑。

作者:申小虎、金恬、张长珍、万荣春

编辑:广翰楼

声明:

本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。

征稿启事

  • 投稿信箱:195024562@qq.com

品牌推荐更多>>