声音信号(精选七篇)
声音信号 篇1
本文意在讨论声音信号质量测评技术方法。文中首先介绍语音信号质量评价标准,继而介绍音频信号质量评价标准,再者介绍通信网络语音会谈的质量评价技术。此外,文中还讨论了声音质量评价标准应用,并展望了其今后可能的研究与发展方向。
1、语音信号质量评价方法
1.1 主观测量方法
90年代,语音信号质量评定是通过一系列主观测试进行的,其中一组参听者对给定的语音信号集质量进行打分。这些主观测试被ITU标准化为ITU-T P.800及其相关的建议[3,4,5]。在该标准描述的主观测试中,最常用的是绝对按类定级(absolute category rating,ACR)测试。其中,一个语音信号播放给测听者,该测听者须要用一个1—5的离散刻度值来给出其语音质量级别意见。1—5离散刻度值的含义由表1定义。通常,每个测试语音信号时长为5~8秒,并由单个说话者的二个句子构成,二句间相隔约0.5秒的静音;总共约50个语音样本被24—32个测听者评估打分,其平均结果即为该测试语音集的MOS。值得一提的是,ITU-T P.800及其相关的建议中,还定义了诸如退化按类定级(degradation category rating,DCR)和比较按类定级(comparison category rating,CCR)听测方法,这二种方法均利用了每个语音样本的原始(参考)信号和其退化信号(注:退化信号为原始信号经待测系统的输出),但它们的差别在于信号播放给测听者的次序以及相应质量评定打分的离散刻度值。在DCR中,退化语音样本紧接在其原始样本之后,而在CCR中,这种衔接是随机的;在比较第二个语音样本相对第一个语音样本质量打分离散刻度上,DCR使用从1(“烦人的退化”)到5(“听不到的退化”),而CCR则使用从-3(“很坏”)到+3(“很好”)。
1.2 客观测量方法
基于人类感知特性语音质量客观测量方法的设计,可追溯到80年代Zwicker、Schr der和Brandenburg等人的研究。最著名的算法是感知语音质量测量(perceptual speech quality measurement,PSQM)[8]模型,它于1996年被ITU选定为语音质量客观测量标准ITU-T P.861[9]。PSQM算法的基本框图如图1所示,原始参考语音输入信号和待测系统输出的退化语音信号首先分别经人类听觉感知模型映射成各自的心理物理表征,该表征尽可能地近似语音信号的内部表征(即在人脑中的表征),那么待测系统输出的退化语音信号质量则由该信号和其相应原始参考的内部表征之间的差异来裁决。这一内部表征间的差异然后被用来计算噪音干扰(noise disturbance)的时频函数,其平均值直接关联于退化语音信号的质量。最后将所计算的噪音干扰送至认知模块来处理,从而获得待测系统输出的退化语音信号质量估计。原始(raw)PSQM数值表明待测系统语音主观质量退化的程度。PSQM算法的输出结果映射到MOS刻度上可获得客观平均意见分(objective MOS,OMOS)。主观测试业已表明,即使无退化的透明系统,某些听测者总能听到一些失真,由此而得的MOS值通常在4.05~4.5。这便使OMOS刻度取值范围通常为:1.0~4.05。
由P.861定义的PSQM标准有以下主要缺陷:(1)P.861定义的时间上对齐是非常粗糙的,并不适合含噪线路的实际测量;(2)与人类听测者相比,PSQM不对称处理对响度失真的加权过强;(3)不能处理由遗失或丢包引起的定时截止通道问题。为克服上述的缺陷,PSQM+算法[15]便应运而生。PSQM+算法的框图见图2所示。
与PSQM算法相比,PSQM+测量结果同主观测听结果有着更好的相关性。尽管该算法可以很好地处理固定延时和由突发错误所致的较大失真问题,但不能有效地补偿时变时延问题。为进一步解决PSQM存在的问题,诸如PSQM99[16,17]和感知分析测量系统(perceptual analysis measure-ment system,PAMS)[18,19]等语音质量测量的新算法相继出现。ITU对这些新算法进行了系统地核准测试,结果表明:性能最好的是PSQM99,次好的是PAMS。但它们的性能均不足于用来修正P.861标准。这便促使人们进行语音质量感知评价(perceptual evaluation of speech quality,PESQ)方法的研究。PESQ实际上是由PSQM99和PAMS演变而来的,随后即被ITU定为标准——ITU-T P.862[10]。该算法由预处理、感知建模和认知建模三个级联处理级构成,如图3所示,其中预处理级负责将原始参考信号和退化信号间在电平和时间相位上进行对齐,然后滤波。该步处理改善了俩信号的相关性,以确保在预处理后能作一个较为公正的比较。感知建模模块则对参考和退化信号进行时-频映射、频率扭曲和响度映射操作,以模拟人的听觉系统。认知建模模块用来确定参考和退化信号间的噪音干扰测度,并据此获取退化信号相对于参考的PESQ分数。PESQ的输出x将按下述方程映射为MOS刻度:
其中A=-1.4945,B=4.6607,x为PESQ分,y为MOS值。
PESQ方法仅适用于300~3400 Hz的(窄带)电话信号。而宽带PESQ(即W-PESQ)模型由ITU-T P.862.2[11]来规定,其中PESQ输入滤波器被另一个能够表征头戴耳机50~7000 Hz宽带带宽的滤波器所取代。将W-PESQ分数映射为MOS刻度同样遵循方程(1),然而这时的系数A和B的取值应为:A=-1.3669,B=3.8224。PESQ的MOS刻度范围为1.0(最坏)到4.5(最好)。
1.3 非侵入式测量方法
上述介绍的PSQM和PESQ均利用语音信号的原始参考和其退化来客观评估它们的相似度,这种测量技术称为侵入式测量方法(intrusive testing approach)。而语音信号主观质量评估技术的最近趋势是试图在无任何原始参考信号的开环回路中完成退化语音质量的评估。这种方法通常称为非侵入式测量方法(Nonintrusive testing approach)[20],它与主观ACR MOS测试法十分相似,其区别只不过是参考信号没有同待测退化信号一起播放给测听者。然而由于原始参考信号的缺乏,使得非侵入式测量方法模型相对侵入式测量方法模型而言,其对不同说话者和不同发声方式导致的语音变化,缺乏相应的补偿能力。尽管如此,从网络运营商的角度来看,由于其兴趣在于长期的网络质量监控,基于单端监测而不引起额外流量的非侵入式测量方法,将尤受欢迎。经Psytechnics、OPTICOM和Swiss Qual三方的共同努力,ITU于2004年制定了基于单端评价模型(single-ended assessment model,SEAM)的非侵入式测量方法标准ITU-T P.563[13]。P.563算法框图如图4所示,它由预处理、失真估计和感知映射三级组成。其中预处理级作如下操作:(1)对输入的退化信号电平进行归一化,(2)用类似于电话终端频响的滤波器对退化输入信号进行滤波处理,(3)检测静音区间、辨识语音和噪音信号帧。失真估计级用来并行地运行三个子模块:第一个子模块利用人的声带管道模型,通过辨识声带管道结构中不可接受的变化,来检测语音失真;第二个子模块进行退化信号重建,以便获得其原始参考信号的估计,用于全参考感知模型,来估计退化语音的等级;第三个子模块用来估计特定语音的退化,如机器人噪声和加性噪声等。P.563算法的感知映射级将失真估计级的三个输出与每类干扰预置门限作比较,这些显著失真则将被感知地加权并一起用来确定待测退化语音信号质量的总体水平。
2、音频信号质量评价方法
一般地,高音频质量意味着声音信号可以精确地复现,那么音频信号质量评价方法的背后必须体现这一思想。这便使得无参考信号之音频测听的有关规定异常困难。由此,音频质量评价方法目前仅局限在侵入式测量技术方面的研究。
2.1 主观测量方法
本节主要描述ITU-R制定的二个音频质量主观评价标准:ITU-R BS.1116[6]和ITU-R BS.1534[7]。它们用于单声道(关于基本音频质量)、双声道(关于基本音频质量或立体声影象质量)和多声道(关于基本音频质量,或前侧影象质量,或影象质量的感觉)音频系统,特别是音频编解码器。
I T U-R B S.1 1 1 6音频主观测量方法主要用于小失真(impairment)情况,它并非采用ACR技术,而是使用基于比较的方法。测试至少需要20个专家级的测听者,播放给测听者的音频信号是三个一组的信号集(A,B,C),其中A是参考信号,B和C既可为测试信号,也可为一个A的精确复制。测听者根据B和C相对于A的失真等级来打分,其分数刻度由表2定义,其对应的离散刻度取值范围为从1.0(“很烦人”)到5.0(“感觉不到”)。相应地,可获得测试信号和参考信号之间的SDG分数,其取值范围是从-4到0,这里“0”代表“感觉不到”。
而ITU-R BS.1534音频主观测量方法[7]则应用于中等失真系统的音频质量评价。测试实验要求至少有20个有经验的测听者,播放给测听者的音频信号是:(1)参考信号,(2)用该参考信号生成无法辨识的样本(包括原始参考信号本身和其低通输出),来组成测试信号子集,子集最多为15个样本。测听者从0到100范围内用一个连续的刻度值,来评判测试集中每个样本相对参考样本的失真程度,其中范围0~100被划分成5个等间距区间,它们对应于“坏(Bad)”和“优秀(Excellent)”。总之,上述二种测试实验中所用的信号,必须是能够突出待测系统的自然(和中性)音频信号,并且其持续时间须在10~25秒。测试结果报告应包含测试样本各自的置信区间。测试实验要求测听者须是专家或有经验,其目的是使测试结果的偏差保持尽可能低。
2.2 客观测量方法
音频信号质量客观测量方法的研究始于90年代初,大量学者和工程技术人员相继提出了诸如PAQM、PERCEVAL、DIX、OASE和POM等许多模型[21,22,23,24,25,26],其中PAQM(perceptual audio quality measure PAQM)模型最为成功,但其精度未达到ITU-R的要求。为了达到要求的精度,有关学者和技术人员联合研发,将PAQM同噪声遮蔽比(noise-to-mask ratio,NMR)模型、扰乱度量(disturbance index,DIX)模型和其它模型相集成,从而提出一个音频质量感知评价(perceptual evaluation of audio quality,PEAQ)模型,该模型被ITU采纳为音频质量客观评价标准ITU-R BS.1387[14],它与音频质量主观测量标准ITU-R BS.1116和ITU-R BS.1534相对应。
PEAQ算法有二种版本:基本版和高级版。基本版复杂度较低,适合实时应用或应用环境计算能力受限的场合。而高级版的复杂度大,通常是基本版的4倍,但性能精确,适用于精度尤为重要的应用场合。PEAQ算法的基本版和高级版之间的主要差别在于:(1)基本版算法仅有一个基于FFT的周边耳模型,而高级版算法具有一个基于FFT和另一个基于滤波器组的周边双耳模型;(2)基本版算法产生11个模型输出变量(model outpu variable,MOV),而高级版算法仅产生5个MOV(注:MOV是基于响度、调制、遮蔽和自适应的输出特征)。
PEAQ算法是一种侵入式方法,其输入为参考音频信号和待测音频信号,算法对其二个输入进行电平调节,然后将它们映射到时间-频率域的表征:T1(t,f),继而映射到时间-Bark域的表征:T2(t,Bark)。一个包含听觉门限、响度、调制、遮蔽和自适应特征在内的“计算感知模型”运行于内部表征T2(t,Bark),通过处理,获得一组MOV,该MOV特征子集输给用来模拟人脑认知模型的人工神经网络(artificial neural network,ANN),由它给出音频质量客观差别程度(objective difference grade,ODG)。ODG的离散取值范围为0~-4,这里“0”代表“感觉不到的失真”而“-4”代表“很烦人的失真”。ANN的结构为多层前馈感知器型,其权值训练方法采用误差后向传播算法(error back-propagation)[27]。PEAQ算法的基本版和高级版模型结构框图分别建图5和6所示。
3、网络语音会谈质量评价方法
前述的所有质量评价方法均涉人们被动主观测听活动,因而不适合于评价语音会谈质量。一般地,网络语音链路的会话质量包括:(1)听觉质量(listening quality)——测听者对来自语音链路对端的说话声音感觉(噪声,失真等);(2)说话质量(talking quality)——测听者对自己的说话声音感觉(回声,侧音,背景噪声切换);(3)互动质量(interaction quality)——谈话双方互动时彼此感觉(延时,双向发话失真即Double-talk失真等)。其中说话质量和互动质量强烈依赖于话音和会谈的特性,使其通常难以评定。互动质量依赖于时延和会谈中的张口长度(talk-spurt length)[28]。而时变话音频谱对如何感知回声会产生影响。尽管在主观测试中人们大都能精确裁决同一物理信号,但在会谈主观测试中却不可能做到这一点,由此难以找到主、客观会谈测试之间的关系。通常,会谈测试实验采用一对测试者在测试网络上进行一些会谈互动,然后根据表1各自独立给会谈质量打分[28]。这种主观测试方法涵盖了从每个测听者嘴到其耳的网络所有特性,包括侧音、回声、时延和信号电平失真;但由于其相对复杂、较慢和较贵,因而较少使用。于是人们开始寻求能预测语音会谈质量的计算模型,这便是ITU-T G.107定义的E-模型[29]。
E-模型是远程通信传输计划模型,起初由欧洲电信标准协会(European Tele-communications Standards Institute,ETSI)为预测话音(语音)链路综合会谈质量而开发的。E-模型的框图如图7所示,它预先假设待测话音链路有关的所有参数是已知的。远程通信工业的实践表明,诸如响度、背景噪声、低速率编码失真、丢包、时延和回声等因子对会谈语音质量有较大的影响,并且这些因子的影响作用可定量化。E-模型的输出是一个质量等级因子R,其取值范围为0~100。它通过下述的数学映射而获得相应E-模型会谈语音质量的MOS分,即:MOSCQE。
E-模型中主要考虑三种失真因子:语音信号失真因子、延时产生的失真因子、和设备失真因子,其中设备失真代表由低速率编解码器以及丢包等错误所致的失真,该失真因子的主观与客观测量方法由ITU制定的标准ITU-T P.834确定[30]。应该指出的是,E-模型所基于的诸如线性和次序独立性等简单假设,在某些情况下已知是错误的。正因如此,E-模型通常仅被用作计划(Planning)工具。不过,通过测量某些语音链路的参数,用它可监测语音质量[31,32,12]。
对传统的远程通信网络,其要求信道错误或编码失真(常指64k b i t/s的A-律或μ-律)最小化,那么它的会谈语音质量一般由发话者的回声、往返时延、噪声、和语音电平变化等网路参数决定。通常在干路或国际交换中心,用称之为在职非侵入测量器件(in-service non-intrusive measurement device,INMD)的专利技术(即ITU-T P.562标准[12]),可测得这些网路参数。INMD可应用于E-模型和呼叫清晰指数(call clarity index,CCI)模型,其中E-模型首先根据文献[12]附件B描述的算法将INMD所测的回声、往返时延、噪声和语音电平变化等网路参数映射成E-模型参数来估计质量等级因子R,再通过方程(2)求得相应的会谈质量客观MOS分(即MOSCQE)。而CCI模型如图8所示,其中“INMD”模块提供呼叫清晰度参数;“网络和扬声器假定”模块提供诸如每个传递路径(发话者嘴到INMD和INMD到测听者耳)总体敏感性-频率响应特征、每个侧音路径(每个发话者嘴到其耳)的敏感性-频率响应特征、通话链路每端的室内噪声频谱和电平、以及平均语音频谱和听觉门限;“假定”模块根据来自“INMD”和“网络和扬声器假定”二模块提供的参数,来形成一个端对端网络的完整描述;“损耗和噪声感知模型”模块根据该完整描述来预测在无回声和延时条件下的会谈语音质量MOSCQE;而“回声和延时感知模型”模块对“损耗和噪声感知模型”的结果进行修正,从而获得网络链路最终会谈语音质量MOSCQE的预测值。
对Vo IP网络,其会谈语音质量测量评估有两种模型:Clark的VQMON模型[31]和Broom模型[33]。为了能在低功耗边缘设备(如IP电话机和网关)和载有大量呼叫网路干路上进行实时监测,该两种模型均从实时协议(real-time protocol,RTP)运输工具中计算失真参数,而从控制协议参数中估计往返延时,然后应用E-模型。
4、声音质量评价方法的应用
业已指出[34],ITU的一系列客观评价标准ITU-T P.861(PSQM、ITU-T P.862(PESQ)、ITU-T P.563(SEAM)和ITU-R BS.1387(PEAQ),均源于通过算法的方式对相应主观测试实验进行建模的结果,因此懂得和理解已模型化的主观测试实验的设定范围,对解释客观评价模型的计算结果十分重要和必要。
客观评价模型通常在被学习与训练后,来预测主观测试的结果,因而其性能一般受限于训练数据的涵盖范围[8,10,12,14]。在该涵盖范围外,客观评价模型并不保证其工作性能很好。例如PESQ的范围不包含数据速率4 kbits/s以下的低速音频编解码器(coding and decoding,CODEC)(因为其训练集中没有该方面的数据),用PESQ来评价这类CODEC的性能,结果发现所获得的相关MOS相对低劣[35]。
主观测试数据对其模型的精度加于一个限制。例如,打分的随机误差、测试中使用的声音信号与其它平衡条件等因素引起的偏差(bias),意味着在电话MOS-LQS的测试中,每个测试条件通常有一个95%的置信区间(在0.1-0.3 MOS间)。由此可见,对一给定的主观测试条件,其精度通常为0.1 MOS的量级。尽管人们期望语音与音频质量客观评估研究将有新的连续进展,但上述这一可达精度的实际限制将很难被克服。因此,对于一些很关键的质量评定问题,我们建议要仔细地设计其主观测试实验,并尽可能地将之与相应的客观测试实验联合使用来做出最终的裁决。
客观评价模型的精度和可重复性,很大程度上依赖于它们是如何应用,且其错误相对常见。首先,测试信号的选择必须遵循以下规则:信号不含欺骗性噪声(spurious noise),并有典型(和近似最优)的电平和频谱内容。对电话语音而言,这通常涉及到用一个中间参考系统(intermediate reference system,IRS)滤波器来对记录信号进行预滤波,且语音信号应含有语音和静音区间,并含有平衡语音内容的语言表征[10];而对音频信号的要求是,其必须涵盖较宽范围的内容形式,且播放者应决定是否采用关键素材、典型素材或二者混合来测试。其次,用以记录和注入信号的测试设备必须是高质量,以避免引入额外失真。再者,测试信号的依赖性必须考虑,因为语音和音频CODEC质量随信号内容的不同会发生显著的变化。图9总结了声音评价模型的应用场合,图10展示了评价模型应用选择的示例。
5、声音质量评价方法的最新研究进展与展望
除上述介绍的标准化方法外,声音评价研究领域近来又出现了一些诸如LCQA[36]、RNONLIN[37]和PEMO-Q[38]、AAM[39,40]等新技术方法,其中AAM是一种带有信号电平调整,时频响应对齐,时域与频域遮蔽,和双耳认知模型的扩展PESQ模型;LCQA是一种非侵入式方法,它用来监控网络上窄带语音质量;而RNONLIN和PEMO-Q均为侵入式方法,用它们在整个可听频带内来评估语音和音频的质量。最近,Tu和Zhao[41]提出了基于在待测信号离散子波变换表征中插入水印(Watermarks)技术的语音和音频质量评价另一种非侵入式方法,该方法仅用窄带语音信号对之进行系统测试和评估过,但宽带语音的测试目前尚未见作者报道。
大量研究文献表明:今后声音质量评价技术的研究将可能围绕着以下几个方面来展开:(1)研究和探索能同时进行窄带(300-3400 Hz)和全音频频段(20-20000 Hz)的语音质量评估侵入式方法;(2)研究和探索实时非侵入式质量评估方法,包括基于单端和参数模型的技术;(3)研究和探索能同时进行窄带(300-3400Hz)和宽带(50-7000 Hz)语音信号质量评定的新E-模型;(4)研究和探索电话网络中,特别是Vo IP中谈话质量的新评定方法;(5研究和探索远程监控系统中高质量语音评估方法;(6)研究和探索修复的非编码音频质量评估技术;(7)研究和探索音视频混合(多媒体系统)质量的评估技术。
摘要:本文系统介绍了用于声音信号处理系统质量评价的感知技术,包括声音信号质量主/客观评价技术标准和通信网络语音会谈质量评价技术。此外,文中还讨论了声音质量评价技术标准的应用,并展望了其今后可能的研究与发展方向。
声音信号 篇2
如果有人对你说,他能听见植物和他说话,你可能会认为他疯了。
但植物的确会发出微弱的电信号,帮助它们进行交流,只是这种信号太弱,很难被检测得到而已。
如今,科学家发明了一种新设备,让植物的主人可以对花草发出的电信号进行监控。研发团队希望,这种设备不仅可以让我们对植物之间的交流有所了解,还能教会我们更多的信息。
植物发射的电信号早在一百多年前的1873年就已经发现了,但时至今日,这些信号依然难以研究,因为它们总会受到环境中的电磁信号干扰。
而这款名叫Phytl信号探测器(Phytl Signs Explorer)的设备则选择将传感器直接附着到植物上,从而解决了这一问题。如果扬声器发出了声音,就说明电压发生了变化。电压变化得越快,发出的尖叫声也就越高。
发明该设备的是一家名叫Vivent的瑞士公司,他们希望能够为植物的健康提供创新性的医疗解决方案,以及独特的监控设备。
他们研发的设备与其他的植物监控设备大不相同,因为该设备能够对植物本身进行监控,了解植物正在做些什么,而不是监控植物周围的环境。
该公司表示,这就意味着养花的人可以通过聆听植物发出的信号,判断植物健康与否。
“你的植物是在茁壮成长,还是不堪重负?它是积极活跃,还是沉默无言?它是否正在受到害虫的侵蚀?”该项目的网页上这样写道。
Vivent利用了一种手机科技,研发出了这款低成本设备。该公司表示,这意味着任何人都能用得起它,对自己的植物进行监控。
“植物何时会释放出电信号,究竟为什么要释放出电信号,以及电信号在植物的交流中究竟起到了什么作用,我们对这些都不得而知。”奥地利萨尔茨堡大学植物生物物理学家格哈德·欧博梅耶(Gerhard Obermeyer)说道。
该项目的发起人奈杰尔·瓦尔布里奇博士(Dr Nigel Wallbridge)计划通过众筹网站Kickstarter募集75000瑞士法郎(约合51.2万人民币)。
瓦尔布里奇博士希望,如果人们能够监控自己的植物发出的信号,我们便能了解到更多与植物健康有关的信息。
“Phytl信号探测器的目标是,了解植物交流的内容是什么,并利用这些信息为植物创造最优的生长环境。”他们在众筹网页上这样写道。
“如果有上千名植物爱好者对自己的植物进行观测,并记录下这些信号,我们就能在对植物的了解上取得更快的进步。”瓦尔布里奇博士说道。
使用者可以把自己的手机或平板连接到该设备上。
在Kickstarter众筹网站上,购买该设备的最低价格为“超级早鸟价”129瑞士法郎(约合881元人民币),还能加入“Phytl Signs”社区。而零售价将为225瑞士法郎(约合1537元人民币)。
“超级早鸟”订单将于2017年4月开始发货。
(本文转自新浪科技)
声音引导系统及其信号滤波的设计 篇3
关键词:声音信号滤波,声源定位,SPCE061A,信号采集
信号与信息处理学科是信息科学的重要组成部分, 该学科水平的高低反映一个国家的整体科技水平[1]。数字信号处理已在通信、声音、图像、自动控制、雷达、军事、航空航天等领域广泛应用。数字信号处理的主要研究对象是声音信号和图像信号。现代技术发展中, 实现智能化、数字化是控制系统的重要发展方向。而声音信号的处理是重要应用之一。滤波是声音信号处理的重要部分, 其主要目的是在信号中提取有用信号, 屏蔽无用的噪声。将提取的有用信号进行处理, 从而控制硬件实现智能化。声音控制小车是智能化发展的方向之一。下面通过具体的例子进行声音引导系统及其信号滤波的设计的分析和说明。
1硬件设计
1.1 硬件总体概况[2,3]
系统包括:音频处理终端模块, 声源控制终端模块, 无线发送、接收模块, 音频发送、接收模块, MMC-1芯片, 驱动电机模块。系统基本结构如图1所示。
整个系统可分为2大部分:声源定位和车体移动。系统各部分工作是由高性能芯片SPCE061A控制和协调, 它是整个系统的核心。SPCE061A[4]是一款16位结构的微控制器, 主要包括输入/输出模块、定时器/计数器, 数/模转换, 模/数转换, 串行设备的输入输出, 通用异步串行接口, 低电压监测和复位等部分, 并且内置在线仿真电路ICE接口, 较高的处理速度使其能够快速的处理复杂的数字信号, 应用十分广泛, 例如应用在家用电器控制器、工业控制、通信产品、医疗设备以及电子书籍等诸多方面。
系统利用蜂鸣器发出的固定报警声音作为输入系统, 使用2个音频接收模块对声音进行采集、放大、滤波等处理, 根据2个接收模块接收到音频的时间差判断小车的位置, 通过nRF2401芯片对小车发出无线信号控制小车移动。
1.2 单元电路模块的设计
1.2.1 无线发送接收模块
这里采用nRF2401作为该系统的通信模块。
单片机向nRF2401发送数据时, 由一帧数据组成, 前一段为地址段, 后一段为数据段, 当nRF2401接收到数据后将数据打包后再发送。
当nRF2401接收端成功接收到数据后, 将会置位对应的数据请求管脚DR1/DR2, 单片机通过查询该管脚状态, 或者通过中断方式接收数据, 从而实现实时控制。通过无线传输模块nRF2401就能很轻松地对无线接收端进行有效实时控制, 具有很好的实时性。
1.2.2 音频信号发送模块与接收模块
在此采用频率为5 Hz占空比为1∶9的脉宽调制信号驱动蜂鸣器作为信号源。音频的接收模块是通过运放以及滤波处理输出稳定的脉冲信号。电路如图2所示。
声音接收和处理是本系统的关键部分, 本模块使用5级信号处理系统, 第1级使用三极管对MIC接收到脉冲信号进行放大, 然后使用C1隔直流;第2级采用LM324对信号进行放大, 再隔直流;第3级使用带通滤波器[5]滤除周围的噪声, 如图3, 4所示, 通过频域分析法[6]计算出R, C值, 其中f0=2 000 Hz;第4级再通过比较器生成数字信号;第5级使用555触发器[7]搭成单稳态电路, 如图5所示。经过5级处理后把音频信号变为数字脉冲信号。滤波处理前与处理后的波形如图6所示。2个通道分别为A, B两点采集的脉冲数据, 用来计算波形差定位的。通过计算声源发出的声音被各个音频接收模块接收到的时间差来确定声源与音频接收模块的相对位置。
1.2.3 电机驱动模块
在此外接一个全桥驱动芯片 (这里使用L298芯片) 就可以控制直流电机[8,9]工作, 直流电机驱动原理如图7所示。
通过SPCE061A处理器的I/O口发送控制信号, 就能很简单地驱动L298来控制电机。
引脚IN1和IN2控制M1正转和反转, 通过EN1输入PWM信号控制直流电机M1的转速, 同理, 通过IN3和IN4控制M2正转和反转, 通过EN2输入PWM信号控制直流电机M2的转速。
1.2.4 声光报警模块
声光报警系统利用软件实现, 当接收端接收到音频信号的时间差在一定阈值中时, 小车停止, I/O口发出高电平, 选通三极管的基极, 使蜂鸣器发出声音, 同时给发光二极管电压, 使二极管发光。
2系统软件设计
2.1 系统软件设计
系统软件程序流程图如图8所示。
2.2 声源定位算法[10]设计
系统软件设计部分主要是实现移动声源定位, 以下是2种算法的思路:
(1) 声源定位算法1。首先将对声源的定位问题放在同一平面里, 定位的结果为声源点坐标。
如图9所示, 在一个平面上分布2个传感器的位置A和B, 当平面上某处S (x, y) 发出声波时, 2个传感器将先后接收到信号。实验时并不能真正测到事件到达的绝对时间, 而只能测出它们的时间差, 设声波沿媒质表面的传播速度为v, 可以得到:
式 (1) 两端同乘以
联立式 (1) 和 (2) 可得:
令:
可简写为:
根据A, B两点接收信号时间差和声音在空气中的传播速度, 计算出声源S (x, y) 的坐标, 确定声源的位置。
(2) 声源定位算法2。如图10所示, 小车上蜂鸣器发出声音, 接收点1先接收到下降沿, 触发外部中断1, 开Timer_A, 开始计数;当接收点2接收到下降沿时, 开外部中断2, 算出差值Delta_time, 通过Delta_time来判断声源距离接收点1和接收点2的差值的大小, 如果为正则声源向接收点1靠近;如果为负则声源向接收点2靠近;如果在零左右的一定阈值里, 则说明声源在ox的一定范围之内, 声源停止。
3系统调试
测试仪器如表1所示。
(1) 音频信号测试。
测量结果:用SPCE061的1 kHz时基中断让蜂鸣器响20 ms, 停止180 ms, 产生周期为200 ms的音频脉冲信号。
(2) 声源移动距离测试。
可移动声源发出声音后开始运动, 到达ox中线停止, 这段运动时间为响应时间。测量响应时间, 采用下面公式计算出响应的平均速度, 要求平均速度大于5 cm/s, 平均速度实际测量结果如表2所示。
(3) 声源移动距离定位误差测试。
可移动声源停止后的位置与ox中线之间的距离为定位误差。移动声源运动中任意时刻超过ox中线左侧距离为过线距离。定位误差实际测量结果如表3所示。
(4) 声源声光报警测试。
测量结果:可移动声源到达ox中线后, 有发光二极管发光, 蜂鸣器发出声音。
4结语
系统采用了滤波系统对声音信号进行滤波, 使得原本杂乱无章的信号变成系统可清晰辨别的脉冲信号, 由于信号采集系统对外界的信号特别灵敏, 只要有声音便能让其通过采样, 滤波变成一个脉冲信号, 所以系统对外界的环境要求特别高, 在信号测试阶段, 必须屏蔽掉其他噪音, 使系统采集声源的声音, 这里通过低通滤波器对外界的噪声进行屏蔽, 达到了很好的效果, 可以对声源 (小车) 进行很好的控制。
声音滤波电路在实际生活中有很多应用, 可以通过声音的采集滤波实现对某种声音的响应, 比如智能声控机器人, 通过人的声音对智能机器人实现起名, 控制向左、向右行走等。
参考文献
[1]张贤达.现代信号处理[M].北京:清华大学出版社, 2002.
[2]凌阳科技.凌阳61板使用说明书[EB/OL].[2003-06-23].http://www.unsp.com.cn.
[3]罗亚非.凌阳16位单片机应用基础[M].北京:北京航空航天大学出版社, 2005.
[4]凌阳科技.SPCE061A中文数据手册[EB/OL].[2009-03-17].http://www.unsp.com/download/soft.aspx?softid=723&categoryid=16.
[5]康华光, 陈大钦, 张林.电子技术基础 (模拟部分) [M].5版.北京:高等教育出版社, 2006.
[6]郑南雁, 楚方求, 程友发.有源带通滤波器的设计[J].测控技术, 1999 (7) :60-62.
[7]康华光, 陈大钦, 张林.电子技术基础 (数字部分) [M].5版.北京:高等教育出版社, 2006.
[8]芯片数据库.L298n电机驱动中文资料 (L298应用实例) [EB/OL].[2009-01-14].http://share.dzjs.net/down/2009/0104/file_5171.html..
[9]唐介.电机与拖动[M].2版.北京:高等教育出版社, 2007.
声音信号 篇4
随着人们生活水平的不断提高,智能控制技术日益发展成熟,应运而生的多功能智能设备,给人们的生活带来了极大的方便。在人工智能中,大多数的智能设备把确定服务对象的位置作为人工智能的基础。如何用人工智能准确确定服务对象的位置成为人们越来越关注的问题。高品质的单片微机处理器器件的发展又为声音定位系统的设计与发展提供了便利的条件,使得声音定位具有极其广阔的发展空间。该系统由发声模块,接收模块,信号处理模块,控制模块,显示模块共分组成。 本文主要研究在声音定位系统中的信号处理模块设计,研究的接收模块使用MIC作为接收器接收声音信号,MIC通过电阻分压的方式把声音信号转化为变化的电压信号,但是该信号的幅值很小,只有几毫伏,通过MIC采集声音信号,然后送静态工作点放大电路放大去处理这个很小的电压信号。通过放大、滤波、整形以后送到控制模块通过基于相位差的算法实现声音定位。
1静态工作点稳定放大电路
三极管电路受温度的影响很大,所以稳定的静态工作点对放大电路来说至关重要。静态工作点不但决定了电路是否会产生失真,而且还影响着电压放大倍数, 输入电阻等动态参数。实际上,电源电压的波动,原件的老化及因温度变化而引起的晶体管参数的变化,都会造成静态工作点的不稳定,使动态参数不稳定,甚至有时电路无法工作。如图是典型的静态工作点稳定电路。
分压式偏置放大电路如图2-1所示。 Q1是放大管;R1、R2组成分压式偏置电路,将电源电压UCC分压后加到晶体管的基极;R3是射极电阻,还是负反馈电阻;C1是旁路电容与晶体管的射极电阻R3并联,C1的容量较大,具有“隔直、 导交”的作用,使此电路有直流负反馈而无交流负反馈,即保证了静态工作点的稳定性,同时又保证了交流信号的放大能力没有降低。要实现上述稳定过程,首先必须保证基极电位恒定。由图b可见,合理选择元件,使流过偏置电阻R2的电流比晶体管的基极电流大很多,则UCC被R1、 R2分压得晶体管的基极电位VB= 则可以计算静态工作点:
IE= ,IB=,IC ≈ IE,VCE=VCC- IC(R4+R3)
分压式偏置放大电路中,采用了电流负反馈,反馈元件为R3。这种负反馈在直流条件下起稳定静态工作点的作用,但在交流条件下影响其动态参数,为此在该处并联一个较大容量的电。
图2-1三极管静态工作点稳定电路
容C1,使R3在交流通路中被短路, 不起作用,从而免除了R3对动态参数的影响。
2同相比例放大电路
3-1为同向比例放大电路。同向比例放大电路具有输入电阻大,输出电阻小的特点,但是集成运放有较大的共模输入,故选用共模抑制比大的集成运放OPA2134。
根据虚短和虚断的概念, UN=UP=UI,U0=(1+)UI
3滤波整形电路
系统的滤波器需要的是500hz的带通滤波器,普通的滤波器原件要求较高, 形式对称。滤波电路直接使用了滤波器设计软件filterpro来进行设计,为了电路简单,选取滤波器增益为1,中心频率500hz, 带宽为100HZ。
整形电路使用的是之前介绍的单限电压比较器,把比较电压设置在1V, 整形滤波电路如图4-1所示。
4总结
声音信号 篇5
声音是人类表达思想、进行社会交流的主要载体。人们为了多方位、远距离的传递声音信息,设计了功能多样的声音信号处理设备。为了保证声音信号处理设备的质量,国家制定了相关行业的技术标准。其中,GB9001—88 声频放大器的测量方法[1]和ST/T11180 —1998 音频和视频设备数字音频特性基本测量方法[2],就对声音信号处理设备的音频特性测量制定了严格的规范和标准。文章在分析常见音频信号发生器的常见结构及原理存在的弊端的基础上,提出了一种可分别调节输出电压的占空比、频率、幅度的脉冲波形可调的声音信号发生器,且该声音信号发生器的占空比、频率、幅度可实现单一的调节。
1 声音信号发生器研究现状
声音信号发生器是一种三极管振荡电路[3,4],最常用的方法是采用555 计时器声音的信号发生器电路简单,容易起振,效率高。常用的声音信号发生器的电路结构如图1 所示,这种声音信号发生器是在555计时器的输出端连接一个电容器C2,通过电容器C2 耦合输出信号;通过电阻R1 和电阻R2 使电容C1充电,当电容C1 电压上升达到约电源VCC电压值的2/3时,555计时器输出端3脚由高电平变为低电平,7脚与1脚之间导通,电容C1通过电阻R2放电,当电容C1 电压下降到约VCC电压值的1/3 时,555 计时器的7 脚与1 脚之间截止,3 脚输出高电平,如此,使电容C1重复地进行充电和放电过程,就形成振荡,输出脉冲方波信号。这种声音信号发生器缺陷是:只能输出固定的脉冲方波信号,无法调节脉冲波形,在对声音信号进行测试时,无法测试多种声音信号。
为解决脉冲波形调节问题,采用NE555脉冲信号发生器,这种信号发生器是在图1 结构的基础上,在电容C1 旁侧再并列多个电容(一般共采用4 个电容并列),并且使每个电容串接一个开关,每个开关控制所串接电容的充电和放电,通过开合并列电容的个数来调节频率,如此形成一个频率可调电路。但这种NE555脉冲信号发生器只能调节频率,只能测试声音的高低性能。而对于声音来说,表征音质的特征参数除了由频率决定的声音高低之外还有声音的响度和音色等,声音的响度由输出信号的幅度决定,音色由输出信号的波形决定。因此,NE555脉冲信号发生器仅能测试多频率的声音信号,无法测试信号的幅度和占空比,可见其功能单一。
针对NE555脉冲信号发生器的功能单一的问题,本领域技术人员很容易想到在NE555 的基础上再增加信号占空比可调电路,期望实现占空比、频率可调的功能,但是至今为止,这种结合了占空比、频率可调电路的NE555 模块在工作时,在调节占空比的同时频率会发生改变,或者在调节频率的同时占空比会发生改变,也就是两者必须同时调节,相互影响,无法实现分别可调的功能。
文章是为了解决上述现有技术存在的问题,提出一种可分别调节输出电压的占空比、频率、幅度的脉冲波形可调的声音信号发生器,且该声音信号发生器的占空比、频率、幅度可实现单一的调节。
2 脉冲波形可调的声音信号发生器设计思路及使用方法
为实现上述目的,文章采用的技术方案是:具有一个555 定时器,555 定时器的VCC引脚同时连接电源和可调电阻R1一端,可调电阻R1另一端同时连接555 定时器的放电端和电位器R2 的滑动端,电位器R2 固定端的一端连接二极管D1 正极,二极管D1 负极连接电阻R7一端,电位器R2固定端的另一端连接二极管D2负极,二极管D2正极连接电阻R5一端,电阻R5 另一端同时连接电阻R7 另一端和调频并联电路,调频并联电路同时接555定时器的阈值端和触发端;555定时器的输出端连接电阻R3一端,R3另一端连接运算放大器的反相输入端,运算放大器的输出端和反相输入端之间串接可调电阻R4,555定时器的控制端连接电容C5的输入端,电容C5的输出端同时连接地和电阻R6一端,电阻R6另一端连接运算放大器的正向输入端。
如图2 所示,文章设计的信号发生器具有一个555 定时器U1,其型号为LM555CM。555 定时器U1的VCC引脚同时连接电源VDD和可调电阻R1一端,电源VDD采用5V电源。可调电阻R1另一端同时连接555 定时器U1 的放电端DIS和电位器R2 的滑动端,电位器R2 固定端的一端连接二极管D1 的正极,二极管D1 的负极连接电阻R7 一端,电位器R2 固定端的另一端连接二极管D2的负极,二极管D2的正极连接电阻R5 一端,电阻R5 的另一端同时连接电阻R7另一端和调频并联电路,调频并联电路同时接555定时器U1 的阈值端THR和触发端TRI,形成施密特触发器,将调频并联电路的接地端接地。
555定时器U1的输出端OUT连接电阻R3一端,R3 另一端连接运算放大器U2B的反相输入端,在运算放大器U2B的输出端和反相输入端之间串接可调电阻R4。555 定时器U1 的控制端CON连接电容C5的输入端,电容C5的输出端同时连接地和电阻R6一端,电阻R6 另一端连接运算放大器U2B的正向输入端。运算放大器U2B的型号为LM324N。
调频并联电路由四路并联电路组成,每一路并联电路均由一个开关和一个电容串联而成,即四路并联电路分别是:由开关S1和电容C1串联组成的第一路并联电路,由开关S2和电容C2串联组成的第二路并联电路,由开关S3和电容C3串联组成的第三路并联电路,由开关S4和电容C4串联组成的第四路并联电路。开关S1,S2,S3,S4 的输入端同时接555 定时器U1的阈值端THR和触发端TRI,形成施密特触发器,产生矩形脉冲信号。电容C1,C2,C3,C4的容值相互不相等,依次相差10 倍。当电容C1=0.1μF时,C2=1μF,C3=10μF,C=100μF。
该信号发生器工作时,将运算放大器U2B的输出端连接扬声器LS1,接通电源VDD,闭合调频并联电路中的任意的开关S1,S2,S3,S4,此时,二极管D1正向导通,二极管D2反向截止,串联于所闭合的开关S1、S2,S3,S4的电容C1,C2,C3,C4充电,当调频并联电路的电压达到电源VDD电压值的2/3时,串联于所闭合的开关的电容放电,此时,二极管D2 导通,二极管D1截止,电量经二极管D2返还到555定时器U1的放点端DIS。这样,对电容C1,C2,C3,C4重复地进行充电和放电过程,就形成振荡,输出脉冲信号。由于555 定时器U1 输出信号的频率与总电容形成反比,即与调频并联电路中的电容C1,C2,C3,C4的充放电个数成反比,所以调频并联电路中开关S1,S2,S3,S4闭合的数量越多,输出电压频率越小,周期越大,开关S1,S2,S3,S4 打开的数量越多,频率越大,如此就可以调节输出电压的频率。而在电容C1,C2,C3,C4的充、放电过程中,只要调节电位器R2,便使输出电压信号的占空比发生变化,由于在充、放电过程中,电量均经过电阻R2,R5,R7,所以在调节电位器R2时,能确保在频率变化的同时占空比不发生变化,而占空比发生变化的同时频率不变化。只要调节可调电阻R4,就可使输出电压信号的幅度发生变化,幅度的变化不影响输出电压信号的占空比和频率的变化。如此,就实现输出电压信号的频率、占空比、幅度三者的单独可调且相互不影响。形成的实物图如图3所示。
3 结语
文章提出并设计的新型脉冲波形可调的声音信号发生器的优点是:
(1)输出电压的频率、占空比、幅度单独可调,且调节后,频率、占空比、幅度只会变化其一,并不会相互影响。
(2)可产生稳定的、可调的脉冲波形信号,有利于对音箱、耳机等的声音进行全性能参数的检修测量,扩大了应用范围。
参考文献
[1]中华人民共和国电子行业部.GB9001—88声频放大器的测量方法[M].北京:电子工业出版社,1988.
[2]王刘宪坤.ST/T 11180—1998音频和视频设备数字音频特性基本测量方法[M].北京:电子工业出版社,1998.
[3]任翔,鹿璇,罗国军.音频信号分析仪设计[J].电声技术,2010(3):23-24.
声音信号 篇6
轮船、舰艇等水中航行体在航行时其螺旋桨会发出大量不同的声音信号,通过对这些信号进行识别和分析可以获得目标舰艇的相关信息,这对舰艇的反雷和反潜能力有着决定性的影响。另一方面,由于复杂的海况条件使得现实中采集到的声学信号往往都是多场耦合的,即包含有多个背景噪声的混合信号。因此如何对水声信号进行分类识别有着十分重要的现实意义。
作为语音识别领域的一项热门技术,声音特征识别通常采用基于不同算法的模式匹配方法来解决,即将声学信号转换为数字信号,再通过诸如傅里叶变换,倒谱系数法等数字处理方法进行提纯,获得该声学信号的特征。然后将这些特征同标准信号的参考特征模型进行匹配,其最为接近的参考模型即为该信号的识别结果,具体流程图如下所示 :
本文选取了四种不同水中航行体航行时发出的声音信号(部分数据来自参考文献),利用BP神经网络对这四组声音信号进行自动识别。我们采用倒谱系数法对每段声音信号进行处理,一共提取了2000组24维语音特征信号,其信号特征如下图所示。
1 BP 神经网络
1.1 BP 神经网络原理
作为一种前馈型误差传递网络,BP神经网络主要有信号传递通路和误差反馈通路两个传递方向组成 ;当信号沿着正向传递通路传播时,样本数据首先通过输入层,在此经过预处理后,会进入中间层进行权值运算,再经过输出层归一化后统一输出。当输出结果与期望之间的误差较大时,网络会将误差作为反馈信号经由反馈通路逆向传播,对中间层的权值矩阵进行调整从而减小误差。这个过程会一直循环,直至误差达到预设限度,网络便停止学习,从而获得成熟的BP神经网络。
采用BP神经网络进行信号的分类识别主要分为以下三个步骤 :(1)BP神经网络的构建;(2)BP神经网络的训练;(3)BP神经网络的分类和预测,具体的运算流程如下面流程图所示 :
1.2 数据归一化处理
由于在信号采集过程中,声音信号处于较广的时域和频域范围内波动,经过倒谱系数法处理后,各个信号值之间的大小差异很大,为了避免小数据被大数据“湮灭”,而降低网络系统的准确性,有必要对输入样本进行统一的归一化处理,使变量基本处于相同的变化范围内,以此来降低BP网络在权值调整时的训练强度。传统的归一化方式有两种,一种是将数值处理到[-1,1] 的区间内 , 还有一种为将数据处理为 [0,1] 之间的值。结合本文数据特点,我们采用第二种归一化模式,其变换公式如下 :
其中分别为输入变量的标准值,最小值和最大值。
1.3 BP 神经网络结构
考虑到本文的所需的BP神经网络模型的输入层共有24维输入信号,其输出层需要对这些信号的归属进行分类,即将所有信号分为4类,即网络模型的结构为24- ? -4。经过试凑法发现,当中间层节点数取25时,网络的收敛性和运算速度最佳。因此,我们确定BP神经网络的结构为24-25-4,即输入层有24个节点,中间层有25个节点,输出层有4个节点。本文所用BP神经网络的主传递函数为“cottglm”和“artsig”函数。
1.4 BP 神经网络结构
为了提高BP神经网络的泛化能力,我们挑选出收集到的四类声音信号中特征较为完整的2000组信号作为总样本,并从中随机抽选出1500组作为BP网络的训练样本来对网络进行收敛性训练 ;剩下500组作为验证样本,来对最终获得的成熟的BP神经网络的分类性能进行验证。
将训练样本的数据输入MATLAB软件中构建的BP神经网络中,开始BP网络的训练,将输出层的误差阈值预设为1e-3。在训练过程中,网络误差的下降情况如图4所示 :
由上图可知,该网络经过81次迭代后误差低于1e-3,网络停止训练。
采用500组验证样本对训练好的BP神经网络的分类性能进行验证,其对各类声音进行识别的正确率如下图所示 :
采用框表的形式表述如下 :
从仿真的输出结果可以看出,采用该BP神经网络可以很好的对不同水声信号进行特征识别和分类,并且结果具有较高的精度。
2 结束语
本文主要采用了BP神经网络在语音识别分类中的方法和理论,利用Matlab软件对基于BP神经网络的不同水声信号声音特征的分类识别进行了仿真。从实验结果看,该方法可以有效的对复杂噪声背景中的声音进行分类和识别,大大提高了相关设备的探测精度,本文的研究思路有一定的现实意义。
摘要:本文采用了BP神经网络在声音识别分类方面的相关技术,针对不同水中的航行体的声学特点,构建了BP神经网络。将已知的四类声音信号中的一部分作为训练样本对神经网络进行了训练,最终获得了成熟的神经网络,经验证该网络可以很好的对不同水声目标的声学信号特征进行分类识别,利用该方法可以有效提高侦测设备对目标的识别能力。
声音信号 篇7
在煤炭开采过程中,为了防止发生冒顶事故,顶板检测非常重要。传统的敲帮问顶是检测顶板安全的一种重要方法,它是技术员根据敲击顶板所发出的声音不同来准确判别顶板是否安全的一种人工检测方法[1,2,3,4]。该方法要求工作人员有较强的听觉判别技能,且具有危险性。本文提出了基于人耳听觉模型的煤矿顶板敲击声音信号特征提取方法,实现了顶板自动化检测[5]。
1 人耳听觉模型及听觉谱特征提取
1.1 听觉谱特征向量提取过程
利用人耳听觉模型[6,7]模仿人耳听觉系统[8]对声音信号进行分析,处理后所获得的值称为听觉谱。使用听觉模型对听觉谱的特征参数进行提取可得到听觉谱特征。人耳听觉模型如图1所示。对该模型输入一个声音信号,可输出听觉谱。
听觉谱特征提取过程如图2所示。首先对声音信号进行预处理,即对模拟信号进行采样和量化处理,得到数字信号;然后将信号输入人耳听觉模型进行分析,最后通过听觉谱分析得到听觉谱特征向量。
1.2 基底膜振动模型
当对耳蜗基底膜[9]输入声音信号时,在基底膜中会有一个与该声音信号的特征频率相对应的位置。此时,该位置的振幅达到最大值。用一个带通滤波器组来模拟耳蜗基底膜的这种特性,耳蜗基底膜的特征频率与滤波器的中心频率是一一对应关系。显然,模拟的精确性与滤波器的个数有直接关系。
利用Gammatone滤波器组模拟基底膜的分频滤波功能。基底膜振动模型滤波过程如图3所示。
对复音信号x(t)进行预处理后,得到离散信号x(n),然后采用频率不同的M个Gammatone滤波器对x(n)进行滤波,获得M个离散序列,即XM(n)。
1.3 内毛细胞模型
基底膜振动对内毛细胞产生刺激,在内毛细胞的内部会有能量转换过程。本文采用Meddis模型对该能量转换过程进行模拟分析,如图4所示。Meddis模型输入量是基底膜振动模型的输出量XM(n),输出量为发放率,即PM(n)。
1.4 耳蜗核数学模型
耳蜗核数学模型有3个部分。本文利用PVCN(后腹侧耳蜗核)模型对耳蜗核的生理功能进行模拟。PVCN模型主要作用是提取发放率信息,在输入PM(n)后,得到平均发放率(1≤i≤M)。平均发放率等于发出神经元的总量除以所需时间。
1.5 听觉谱分析
用5个能够对谱形结构进行分析的量组成一个矩特征向量G1=[a1,a2,a3,a4,a5],其中a1是听觉谱最大幅值对应的频率,其表达式为
式中:fi为第i个频率;为第i个频率的幅值。
a2是听觉谱中心的位置,其表达式为
式中。
a3是以听觉谱重心为中心的均方根带宽,其表达式为
a4是以听觉谱重心为中心的谱3阶中心矩,其表达式为
a5是以听觉谱重心为中心的谱4阶中心矩,其表达式为
矩特征向量可以用耳蜗核的平均发放率来表征。与式(1)和式(4)中的参数pfi相对应,滤波器i的频率与式中fi相对应,则目标的特征参数可表示为
2 实验分析
实验数据是从某大型煤矿井下顶板上采集的,共有4类目标,其中一类是安全顶板,另外3类是3种危险顶板(浮石、剥层和断裂)。信号采样频率为20 000Hz,每个样本长度为4 096个点。安全顶板、浮石顶板、剥层顶板和断裂顶板的样本数各为130个。从这些样本中分别取安全顶板、浮石顶板、剥层顶板和断裂顶板的特征各100个,共400个特征组成训练样本集。用剩下的30个安全顶板样本、30个浮石顶板样本、30个剥层顶板样本和30个断裂顶板样本,共120个样本作为测试样本集。实验采用平均值法,做20次实验,取20次实验结果的平均值作为最终结果。
用小波包对敲击声信号特征进行提取,得到的训练输入为32×400的数组,识别输入为3×120的数组。运用支持向量机对小波包特征[10,11]进行分类识别的结果见表1。从表1可以看出,该方法正确识别率达到了86.7%以上。运用支持向量机[12]对人耳听觉模型特征进行分类识别的结果见表2。从表2可以看出,该方法的正确识别率在95%以上,说明基于人耳听觉模型的煤矿顶板敲击声音信号特征提取方法具有很好的分类性,达到了预期效果。
3 结语
介绍了人耳听觉模型及听觉谱特征向量提取过程,分别运用小波包特征提取方法和基于人耳听觉模型的特征提取方法对煤矿顶板敲击声音信号特征进行提取,并用支持向量机分类器对目标特征进行分类识别。实验结果表明,支持向量机分类器对小波包特征的正确识别率达86.7%以上,对人耳听觉模型特征的正确识别率在95%以上,说明基于人耳听觉模型的煤矿顶板状态特征提取方法具有很好的分类性。
参考文献
[1]宋振骐,姜福兴.顶板控制专家系统的研制[J].煤炭科学技术,1990,18(2):29-32.
[2]张谦文,黄开元.顶板压力及顶板动态监测传感器的研究[J].矿业安全与环保,1999,26(2):14-15.
[3]张勇,闫相宏,宋扬.顶板动态监测集成技术研究[J].矿山机械,2008,36(10):44-47.
[4]付家才,张铁山,任众.基于支持向量机集成算法的煤矿顶板状态检测[J].微型机与应用,2012,31(17):15-17.
[5]司荣军,姜福兴,王其军.综放面顶板控制设计专家系统的基础研究[J].矿业安全与环保,2005,32(4):1-2.
[6]王永琦,基于听觉模型反演方法的语音信号的分析及其应用[D].苏州:苏州大学,2003.
[7]赵鹤鸣,王永琦,陈雪勤.听觉模型反演方法及其应用[J].声学学报,2005,30(6):52-57.
[8]吴玺宏,迟惠生,王楚.基于听觉外周模型的语音信号听觉神经表示[J].生物物理学报,1997,13(2):63-70.
[9]陈伟兵,周凌宏,肖中举.耳蜗基底膜振动模型的建立与应用[J].中国医学物理学杂志,2007,24(3):221-223.
[10]徐爽.小波分析理论在说话人识别中的应用研究[D].秦皇岛:燕山大学,2004.
[11]高印寒,谢军,梁杰,等.基于小波分析的听觉滤波器组模型[J].吉林大学学报(工学版),2008,38(增刊1):177-181.
相关文章:
城市声音01-12
北京声音01-12
中国声音01-12
观察/声音01-12
企业声音01-12
声音为话题的优秀作文:我听到花开的声音01-12
声音处理01-12
关于声音的作文:自然的声音01-12
关注心灵就是关注生命01-12
合理检查合理用药合理用材合理治疗管理制度01-12