音频处理软件

音频处理软件（精选七篇）

音频处理软件篇1

多媒体课件是教师用来辅助教学的工具，教师可以根据自己的创意，通过文字、图形、图像、声音、动画、影像等多种多媒体素材有效地表达知识。多媒体课件具有丰富的表现力，良好的交互性及强大的共享性，因此能促进课堂教学内容、教学方法和教学过程的全面优化，提高教学效果。我国教育部明确指出教师应顺应时代的发展，采用先进的信息技进行教学，这在教学实践中多体现为运用多媒体进行教学。然而，在实践过程中，多媒体课件常变成黑板的替代品，失去了其本该有的活力。究其原因，往往与计算机辅助教学采用的软件有关。这些软件大部分由商业机构开发，而开发人员通常对教学理论和学生的学习理论研究得不够透彻，因此所开发的教学软件很难满足实际的教学需要。针对在多媒体课件制作中可能遇到的诸多问题之一———音频文件的编辑，本文应用Goldwave Digital Audio Editor软件(以下简称Goldwave)加以解决。

2. 软件介绍

本文应用的是Goldwave5.22汉化版软件，它是一个集声音编辑、播放、录制和转换的音频工具，体积小巧，功能强大。它支持的音频文件相当多，包括WAV、OGG、VOC、IFF、AIF、AFC、AU、SND、MP3、MAT、DWD、SMP、VOX、SDS、AVI、MOV、APE、还允许从CD、DVD、VCD，收音机、卡带机或者是网络视频文件中提取声音。该软件的音频特效处理内容丰富，除了常见的多普勒、回声、降噪之外，还可以调整音速、音调，淡入、淡出音效，在理论上可以制作出任何想要的声音。

3. 实例操作

在多媒体课件中的Flash中，常需要将背景音乐与话语信息相合并成一个音频文件，本文将详解如何利用Goldwave将两个不同的音频文件融合成一个新的立体声文件(两个要编辑的音频文件分别为音频A———背景音乐，格式为.mp3;音频B———会话材料，格式为.wav;合成的文件为音频C，要求格式为.mp3)。

(1）转换音频格式

在进行两个音频的编辑前，必须先确认所要编辑的两个音频文件格式是否一致，倘若一致则可直接用Goldwave进行编辑;倘若不一致则须先将两个音频文件转化成相同的格式，否则编辑完的文件仍只能播一个音频。从上面命题的提示来看，编辑前须先将音频B的格式转化成.mp3。音频文件格式的转化方法有很多，本文用的是Audio Converter 3.2进行转换。具体操作如下：

(1) 打开Audio Converter中的amc.exe运行软件，按提示进行安装、注册。

(2) 点击工具栏(tools)下的选项(options)，设置转换完的文件所要保存的路径，再点击确定(ok)，这样文件转换完会自动存到指定的目录下。

(3) 点击面板上WAV→MP3按钮，接着点击下面的添加按钮(Add...)，找到音频B的保存位置，单击音频B，然后点击“打开”，这时可以看到音频B被放在列表里。

(4) 单击列表中音频B前面的小方框，它将变成打钩的符号，表示选中该文件，然后点击转换按钮(Convert)，文件就开始自动转换;待提示转换完成便可以直接使用Goldwave对音频A和音频B’(转换成.mp3格式的音频B)进行编辑。

(2）处理音频A

由于音频A将被设为背景音乐，其原声音量太大不能与音频B’形成明显对比，再者，其播放时间长度也很可能与音频B’不一样，因此须先在Goldwave里对音频A做处理。

(1) 在下载成功的软件包里打开Goldwave.exe就可以直接进入Goldwave的主界面。界面如下：

从界面中的“打开”里打开音频A，如果打开的音频A是双声道(红、绿两条音波同时出现为双声道，只有绿波为单声道)，则须先将其编为单声道音频(即步骤 (2) );若音频A是单声道，则可跳过步骤 (2) 直接进入步骤 (3) 。

(2) 点击“新建”，在弹出的“新建声音”下的声道数设置为1，点击确定，这时出现一个无标题窗口;接着点击音频A窗口(只有音频A窗口边框颜色比无标题窗口亮才说明成功选中)，然后点击工具栏中的“复制”，再点击无标题窗口(确定这时无标题窗口边框比音频A亮)，最后点击工具栏中的“粘贴”;无标题窗口里将出现一道“绿波”，这说明已成功将双声道改变成单声道。先关掉音频A窗口，点击文件下的“另存为”，将其放在指定的目录并重新命名，保存完后原来窗口上的“无标题”已更新为重命名的标题(为避免矛盾，接下来将编辑后的单声道文件和假设原本就是单声道的音频A都称为单声音频A)。

(3) 先对单声道音频A的播放时间进行调整。一般来说，背景音乐要比会话时间多几秒，所以要先算好要剪掉多长时间的声音才能进一步操作。将鼠标放到“00:00:00”的位置会出现一条白竖线旁边带有两个小白三角形，点鼠标左键往右拉到要剪掉部分的起始处然后放开鼠标，接着以同样的方法从音乐未尾处把白竖线往左拉直到要剪掉部分的终止处放开鼠标，这时文件的中间为亮区，两边为暗区，图片如下：

这时，点击上面工具栏中的“删除”可以把亮的部分删除(如果点“剪裁”则是保留亮区，删除暗区)，可以多次删除，直到符合要播放的时间为止。当然，有时是要在音乐中添加而不是删除，那么操做方法则有所不同：新建一个窗口，将单声道音频A复制到新窗口中，操作方法同 (2) ，可以暂不保存;然后用 (3) 中选中亮区域的办法在单声道音频A中选出要复制的部分，再点击新窗口，将鼠标点到新窗口中要插入音乐的时间点上，最后点击“粘贴”便可成功。若要插入的是空白音，先选好要插入的位置，然后从“编辑”下的“插入静音”项设好时间即可。

(4) 音乐的删除、粘贴其实不是简单的时间计算问题，它还涉及编完的音乐要保持连续性、可听性。因此，要删或要粘的部分往往需要斟酌再三。通过删或粘拼成的音乐如果没有细致处理，在接缝处常常令听众觉得很突兀，因此可以把经过编辑部分的起点和终点分别选中，点击“选示”做进一步删除;其实在背景音乐中，有时很难做到保持流畅，因此作者建议在必要的又无法令人满意的衔接处前一秒的内容全选中，点击“淡出”(图标为)，然后对下一秒的内容选中并点击与“淡出”相邻的“淡入”，这样可以让声音听起来自然一些。

(5) 做为背景音乐通常要比较低调，因此有必要调整正常播放时声音的大小。要更改整体音量最简洁的办法是用“改变音量”(图标为)，用“+”、“-”进行调整，一直调到最佳状态为止。

(6) 最后，将文件保存，单声道音频A就编辑完毕。

(3）合成音频C

(1) 在单声道音频A打开的状态下，从“文件”或者快捷“打开”中打开音频B。如果音频B是双声道，则按处理音频A中 (2) 的处理方法将音频B转变成单成道音频B。若音频B是单声道则可直接进行下一步处理。

(2) 新建一个窗口，这时新建的声道数选择“2”，确定后点击该窗口(同上，边框亮则选中成功)，再点击Goldwave的“编辑”下的“声道”，然后选择“左声道”，接着点击单声道音频A，将其复制、粘贴到新建窗口中，则显示如下：

从上图可以看到窗口中两个声道上一半有内容，而下一半则为黑屏，这说明左声道已编辑成功;接着，点击新建窗口，到“编辑”下选择右声道，将单声道音频B中的内容复制、粘贴到新建窗口中，则可以看到红、绿两条声波，图片如下：

这时可以关闭单声道音频A和单声道音频B，保存编辑完的新窗口(以下称为双声道AB)。

(3) 此时在双声道AB音乐播放效果是左声道为单声道音频A，右声道为单声道音频B，听起并不和谐。因此，在双声道AB开着的状态下，新建一个窗口，声道数设置为“1”，将双声道AB的内容复制到新建窗口中，最后保存并命名为音频C。这样，音频C文件就被成功编辑结束。在多媒体课件中做一个超链接连到音频C所在的位置便可播放。

4. 结语

多媒体课件中的音频处理形式多样，以上这一实例只是其中较为典型的一种。但通过以上的实例分析，相信读者已能对Goldwave软件的基本使用有初步的了解。从以上利用Goldwave合成音频的过程来看，该软件实用性强，操作程序稍繁琐却不难理解，为避免窗口过多造成混淆，笔者建议在编辑声音文件的过程中要培养良好的习惯，即关掉不需要的窗口，对有用的新窗口进行阶段性的保存。同时，教师应多加强实践锻炼，在具备硬件的前提下，多掌握计算机辅助教学的相关软件知识，合理利用多媒体课件的优势提高教学效率，更好地为教育服务。

参考文献

[1]常咏梅.简单实用的音频编辑软件Goldwave[J].中国电化教育, 2003, (3) .

[2]尹振江, 袁伟.声音编辑软件Goldwave在课件制作中的应用[J].吉林工程技术师范学院学报, 2003, (12) .

[3]余胜泉, 吴娟.信息技术与课程整合[M].上海:上海教育出版社, 2005.

音频处理软件篇2

1 音频信号处理基本概念

1.1 模拟音频与数字化音频

自然的声音是连续变化的,它是一种模拟量。比如当人们对麦克风讲话时,麦克风能根据它周围空气压力的不同变化而输出相应连续变化的电压值,这种变化的电压值是对人讲话声音的一种模拟,称为模拟音频。要将模拟音频变为计算机能存储和处理的对象,必须将模拟音频数字化。

数字化音频的获得是通过每隔一定的时间测一次模拟音频的值并将其数字化,通常包括采样、量化和编码。每秒钟采样的次数称为采样频率。根据采样定理,只要采样频率等于或大于模拟音频信号中最高频率成分的两倍,信息量就不会丢失,即可以由采样后的离散信号不失真地重建原始连续的模拟音频信号,否则就会产生不同程度的失真。采样定律用公式表示为:fs≥2f或Ts≤T/2,其中f为被采样信号的最高频率。

我们将由模拟量转变为数字量的过程称为模-数转换。计算机要利用数字音频信息驱动扬声器发声,还需要将离散的数字量再转变为连续的模拟量,该过程称之为数-模转换。在大多数计算机中,这些功能是通过声卡来完成的。音频信号的一般处理如图1所示。

1.2 数字化音频信号的压缩编码

1.2.1 数字化音频信号压缩编码简介

数字化的音频信号必须经过压缩编码处理才能适应存储和传输要求,才能在再生时得到最好音质的声音听觉。音频信号压缩编码主要依据人耳的听觉特性。人的听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号人耳听不到,可以不必保留这部分信号;当几个强弱不同的声音同时存在时,强声使弱声难以听到,当声音在不同时间先后发生时,强声使其周围弱声难以听见。声音编码算法就是通过这些特性来去掉冗余数据,从而达到压缩数据的目的。

1.2.2 常见音频压缩编码方式

常见的音频压缩编码有MPEG-1音频压缩编码、MPEG-2音频压缩编码、杜比数字AC-3音频压缩编码等。

1)MPEG-1音频压缩编码

ISO/IEC的MPEG音频编码的标准化采用了2种编码算法:MUSICAM和ASPEC。以这两种算法为基础形成了三个不同层次的音频压缩算法,对应不同的应用要求并具有不同的编码复杂度。在MPEG-1的音频编码标准中,按复杂度规定了三种模式:层1、层2、层3。层1采用MUSICAM算法,典型码流为384kbps,典型码流为256kbps～192kbps。层3是综合了层2和ASPEC的优点提出的混合压缩技术,它的复杂度相对较高,编码不利于实时。如今流行的MP3音乐就是一种采用MPEG-1层3编码的高质量的数字音乐,它能以10倍左右的压缩比降低高保真数字声音的存储量,使一张普通的CD光盘上可以存储大约100首MP3歌曲。层3是MUSICA和ASPEC两个算法的结合,典型码流为64kbps。

MPEG压缩等级与压缩比率如表1所示。

ISO/MPEG音频编码(层3)结构图如图2所示。

MPEG-1层3中采用改进余弦变换MDCT。MDCT的表达式为:,其中(固定时间偏移量)。余弦变换在边界处存在固有的不连续性,导致在块边界处产生较大噪声,MDCT采用时域混叠抵消TDAC技术,有利于消除这种噪声。做MDCT前要进行加窗处理:ω(n)是窗函数,它的长度等于变换块N的长度),从而降低边界效应对谱分析的影响,提高频率选择性。窗函数ω(n)的选择必须满足窗函数越长,编码效率就越高,但是过长会使时域分辨率下降,选择窗函数应该兼顾编码效率和时域分辨率。

PCM数据输入经过分析滤波组被分割成若干子频带信号,同时数据流经过FFT变换模块,动态求出每个编码频带的掩码阈值。MDCT对滤波器组的不足作了一定的补偿,把子带的输出在频域里进一步细分以达到更高的频域分辨率。比例设置和量化器模块根据掩码阈值对子频带信号进行量化,量化后得到的数据分别经过Huffman编码模块和边信号编码器模块进行编码,再经过多路复用器MUX得到码流。

2)MPEG-2音频压缩编码

MPEG-2的音频压缩编码采用与MPEG-1相同的编译码器,层1、层2、层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声。

MPEG-2 BC是一种类似MP3的音频压缩算法。MPEG-2 BC压缩编码主要是在MPEG-1和CCIR Rec.755的基础上发展起来的。与MPEG-1相比较,MPEG-2主要在两方面做了重大改进,一是支持多声道声音形式;二是为某些低码率应用场合,进行低采样率扩展。同时,标准规定的码流形式还可与MPEG-1的第1和第2层前、后向兼容,并可依据CCIR Rec.755与双声道、单声道形式的向下兼容,还能够与Dolby Surround形式兼容。

3)杜比数字AC-3音频压缩编码

杜比数字AC-3是美国杜比实验室开发的多声道全频带声音编码系统,采用第三代ATC技术,被称为感觉编码系统,它将特殊的心理音响知识、人耳效应的最新研究成果与先进的数码信号处理技术很好地结合起来,形成了这种数字多声道音频处理技术。它提供的环绕立体声系统由5个(或7个)全频带声道加一个超低音声道组成,所有声道的信息在制作和还原过程中全部数字化,信息损失很少,细节十分丰富,具有真正的立体声效果,在数字电视、DVD和家庭影院中被广泛使用。

AC-3编码原理结构图如图3所示。

1.3 声音的重构

模拟音频要经过采样、量化和编码,就能得到便于计算机处理的数字语音信息,如果要重新播放数字化语音,必须经过解码、D/A转换和插值,其中解码是编码的逆过程,又称解压缩。以ISO/MPEG音频解码(层3)为例,结构图如图4所示。D/A转换是将数字量再转换为模拟量便于驱动扬声器发声;而插值是为了弥补在采样过程中引起的语音信2音频播放器简介:

本文中介绍的音频播放器如图6所示,该音频播放器能实现mp3、wav、mid、wma等格式音频文件的播放。

2 音频播放器制作过程简介

2.1 音频播放器制作中所需控件及变量设置介绍

1)所需控件:

TMediaPlayer控件(可以通过MCI播放多种多媒体文件,如MID、MP3、WAV、CD音乐文件和AVI、WMV文件等)、三个TEdit控件(分别显示正在播放文件的时间进度、正在播放文件的信息、重复播放区域的设置)、若干TBitBtn控件(用于对文件进行操作)、TListBox控件(用于显示播放列表)、TTrackBar控件(用于控制播放的音量和播放的进度)、以及TTimer控件和TOpenDialog控件。

2)设置变量(说明:在程序代码中出现的其它变量为控件中的局部变量):

在Form中设置全局变量:

SongDir:array[0..999]of Variant;//播放的文件的路径(不包括播放的文件名)

mode:integer;//播放的模式,是正常播放还是重复播放指定区域

sound_sign:integer;//静音的标志

startpos,endpos:integer;//正常播放时播放的起始位置和结束位置

startpos1,endpos1:integer;//重复播放指定区域的起始位置和结束位置

flag:integer;//暂停的标志

addfileflag:integer;//是否第一次添加播放文件的标志

2.2 音频播放器各功能模块介绍(在此仅介绍较为复杂的功能)

1)文件打开功能模块:该模块的功能是打开若干需要播放的文件,并把这些文件加载到ListBox当中,形成播放列表。若列表框中无任何文件,则直接将打开的文件加载到列表框中;若列表框中已有文件,则将打开的文件与列表框中已有的文件逐个进行比对,判断文件是否已经加载过,若已经加载过,则不加载。在此功能模块中,需要利用数组变量SongDir记录加载进去的文件的路径(不包括文件名),并利用变量addfileflag判断是否为第一次添加播放文件,如果是则自动选中播放列表中的第一首歌曲并显示该文件的信息,同时改变变量addfileflag的值,保证以后添加进去的播放文件不影响正在播放的文件。文件打开功能模块处理流程如图7所示。

2)静音功能模块:该模块的功能是在播放文件时,按下此按钮,则产生静音效果,再次按下时,声音恢复。从而实现静音的功能。实现此功能需要在该模块程序中控制变量sound_sign的变化。该功能是通过Windows API函数waveoutsetvolume来实现,在使用该函数之前,必须引用mmsystem单元。并且为该按钮在静音和非静音时加载不同的图片,从而清楚地显示声音处于何种状态。

3)设置重复播放的开始位置功能,设置重复播放的结束位置功能,清除重复播放区域,播放重复区域功能:

(1)设置重复播放的开始位置主要需要将TrackBar2.Position即播放的当前位置记录在变量startpos1中,并将开始时间点显示在Edit3当中。部分程序代码及说明如下:

startpos1:=TrackBar2.Position;//记录开始位置

Edit3.Text:='重复播放:'+calculate(startpos1)+'->'+'结束点'+'请设置';//显示开始时间点

设置重复播放的结束位置主要需要将TrackBar2.Position即播放的当前位置记录在变量endpos1中,并将结束时间点显示在Edit3当中。部分程序代码及说明如下:

endpos1:=TrackBar2.Position;//记录结束位置

Edit3.Text:='重复播放:'+calculate(startpos1)+'->'+calculate(endpos1);//显示结束时间点

运行时设置好的重复播放区域如图1中A所示。

(2)在显示设置的开始时间点和结束时间点时,需要用到自定义函数calculate(),该函数的功能主要是根据提供的播放进度,将其转换为时间格式的字符串,以方便显示。播放进度是以毫秒(Milliseconds)为计数单位的。输入播放进度,返回字符串类型的时间数。该自定义函数calculate()在后面讲述的歌曲信息的显示以及文件播放时间进度的显示中也有重要的应用。

(3)清除重复播放区域主要需要将变量startpos1、endpos1设置为0,并将播放模式变量mode设置为0,即正常播放模式。

(4)播放重复区域主要用到TMediaPlayer控件的StartPos、EndPos、Position属性以及Play方法。StartPos属性设置为StartPos1,EndPos属性设置为EndPos1,Position属性设置为StartPos1,并将播放模式变量mode设置为1,即重复播放指定区域模式。

3)逐个删除歌曲播放列表中歌曲的功能,全部删除歌曲播放列表中歌曲的功能:

实现逐个删除功能需要判断ListBox1中的歌曲条目是否处于选中状态,如处于选中状态,则调用ListBox1的Delete方法来完成选中歌曲的删除。实现全部删除功能只需要利用ListBox1.Clear即可。

4)歌曲信息的显示功能:

歌曲信息的显示主要是通过调用自定义过程ShowInfo(Sender)来实现的。自定义过程ShowInfo(Sender)主要需要设置TMediaPlayer控件的FileName属性、调用TMediaPlayer控件的Open方法、在窗体的标题栏上显示完整的文件路径、调用自定义函数calculate()在Edit2中显示文件的时间长度及文件名、设置全局变量startpos和endpos的值、设置TrackBar2的min和max属性。歌曲信息的显示如图1中B所示。

5)自动加载历史播放记录功能:

在实际情况中,媒体播放器都是应该有记忆功能的,即保存文件播放列表,在下次打开播放器的时候自动加载该列表。要想实现这一功能,需要在退出程序的时候,将文件播放列表保存到INI文件当中,当再次运行程序时,从INI文件中读取信息即可。在Delphi中提供了TIniFile类用于操作INI文件,该类在inifiles单元文件中,在使用该类文件时,需要引用inifiles单元。

在窗体关闭过程FormClose(FormClose过程需要映射为OnClose)中,需要在该项目生成的可执行文件目录下创建名为———recentplay.ini的文件,用于存放播放列表。并将每首歌曲的文件路径(不包括文件名)、每首歌曲的文件名、播放列表中文件的总数记录在recentplay.ini文件中。保存文件播放列表处理流程如图8所示。

3 结束语

随着经济与科技的飞速发展,促使计算机技术和电子技术的发展突飞猛进。音频信号的处理做为多媒体处理的一个重要分支,已经深入到人们的工作、学习、生活当中。我们根据不同的应用场合或者不同的技术要求,可以采用不同的数字音频压缩编码技术。我们在音频信号处理方面的研究仍待继续深入,提出新的数字音频压缩编码方法或者改进现行的压缩编码方法以适应实际应用的需求。本文中利用应用软件Delphi设计的音频播放器,经过调试和测试,实现各种音频文件的播放和文中所述的各种功能,具有一定实际应用价值。

参考文献

[1]陈洪光,林嘉宇,易波.数字音频压缩技术研究[J].通信技术,2000(2):68-71.

音频文件处理方法篇3

一、Gold Wave软件界面介绍

这一款软件的安装过程很简单。安装时直接运行安装文件,下面介绍Gold Wave的界面。

1、软件主界面

安装完成后,双击快捷图标,打开Gold Wave界面,如图1所示。

进入Gold Wave时,窗口是空白的,而且Gold Wave窗口上的大多数按钮、菜单均不能使用,需要先建立一个新的声音文件或打开一个声音文件。Gold Wave窗口右下方的小窗口是设备控制窗口。

2、设备控制窗口

设备控制窗口的作用是播放声音以及录制声音,窗口各部分的作用如图2所示。

二、使用Gold Wave剪切音频

在办公活动中,比如在PPT演示文稿中经常需要插入音频文件,有时不需要整个音频,而是需要歌曲或乐曲的一个片断;再比如手机铃声的制作,只需要一首歌曲的高潮部分,此类情形用Gold Wave来操作非常方便。

步骤1:启动Gold Wave,在如图1中点击“打开”按钮,选择需要编辑的mp3格式的音乐文件,将选择的mp3文件载入到Gold Wave中。

步骤2:载入mp3文件后的Gold Wave,在图3中可以看到,中间(绿色和红色)波形代表mp3文件,几个工具按钮功能说明如下:

●撤消:当编辑mp3文件时,不小心操作失误,按这个可以返回上一步操作。

●重复:如果执行了“撤消”操作后,发现刚才做的操作是正确的,无须撤消,就可以用这个操作。

●删除:将选中的部分删除掉。

●剪裁:这个操作将是本例重点要用到的操作。

●选示:显示mp3所有波形。

●全选:同上选示。

●绿色播放按钮:从mp3最开始播放。

●黄色播放按钮:从选择区域播放。

步骤3:按住鼠标左键,在mp3波形区域选择歌曲的高潮部分(按绿色播放按钮听一遍记下高潮部分位置),然后按黄色的播放按钮试听一下所选区域是否满意。如果不满意,可以将鼠标试到所选区域边上的青色线上调整一下所选区域(参考图4、图5)。

步骤4:选择好所剪裁的区域后,然后点击“剪裁”即可将刚才选择的区域剪裁下来。然后点击菜单“文件”-“另存为…”给音频文件取个名字。这样一首只包括片断的mp3音乐就剪切好了。

三、使用Gold Wave合并音频

1、启动Gold Wave;

2、在图6中执行“工具”—“文件合并器”命令,在图7中依次添加需要合并的文件,若需要改变文件的顺序,可以通过直接拖动文件名的方式进行调整。右侧的采样率可以选择,也可以使用默认,它影响文件的大小和音质;

3、单击“合并”按钮,在弹出的对话框中输入保存的新文件名即可。

四、使用Gold Wave调整音量

用Gold Wave修改mp3格式的声音大小有几种方法可以达到相同效果。

方法1:

步骤1:用Gold Wave打开需要修改音量的mp3文件

步骤2;点击菜单“效果”-“音量”-“更改音量…”用鼠标拖动音量上面的滑动块就可以修改音量。建议后面的数值不要超过10,如图8。修改过程中可以按上面的绿色播放按钮试听。修改好后点确定就完成了mp3音量的增大。

方法2:

步骤1:用Gold Wave打开需要增加音量的mp3文件

步骤2:点击菜单“效果”-“动态”在“预置”里选择“巨响”即可很快修改mp3音量大小。推荐使用“放大明亮度”,如图9。

方法3:

步骤1:用Gold Wave打开需要修改音量的mp3文件

步骤2:选择菜单“效果”-“滤波器”-“均衡器…”移动滑动块,数值越高代表调整的音量越高,如图10。

摘要：在现代化数字化办公事务中,办公人员经常会使用音频文件。本文介绍用GoldWave软件进行音频剪切、合并及调整音频音量方法。

关键词：办公自动化,音频处理,剪切,合并,音量调整

参考文献

[1]缪亮.计算机常用工具软件[M].北京:清华大学出版社,2009.

[2]庄洪林等.常用工具软件应用[M].北京:清华大家出版社,2011.

嵌入式音频处理基础(3) 篇4

音频处理方法

把数据送入处理器内核

把数据送入处理器内核有若干种方法。例如，一个前台程序可以对一个串行端口中的新数据进行查询，但这种传输方式在嵌入式媒体处理器中是不常用的，因为这样会降低内核的使用效率。

取而代之的是，与音频编解码器相连的处理器一般用D M A引擎把数据从编解码器的数据口(就像一个串行口)传输到处理器可用的某个存储空间内。这种数据传输是以后台操作的形式完成的，无需处理器内核的干预。这里的唯一开销是对DMA序列的设定以及一旦数据缓冲区的接收或发送完成之后对中断的处理。

块处理与样点处理

样点处理和块处理是处理数字音频数据的两种方法。在样点处理的方法中，只要样点一出现，处理器就处理这个样点。这里，在每个采样周期中的处理操作都会有开销。许多滤波器(例如FIR和IIR，将在下面叙述)是以这样的方式实现的，因为这种方式的有效延迟会很低。

另一方面，块处理是基于把数据传送到处理函数之前对特定长度缓冲区的填充。有些滤波器是用块处理的方式实现的，因为这样比样点处理方式更有效。其中要说明的一点是，块处理方法大大降低了针对每个样点而调用处理函数的开销。而且，许多嵌入式处理器包含有多个ALU，可以对数据块进行并行操作。另外，有些算法从本质上就是以块处理方式操作的。其中一个大家都知道的是傅里叶变换(以及它的实际使用的形式，快速傅里叶变换，或称FFT)，这种算法接受时域数据块或空间域(spatial)数据块，然后把这些数据块转换成频域表示。

双缓冲

在基于块处理的、使用DMA与处理器内核进行数据传递的系统中，必须使用双缓冲，以便在DMA传输和内核之间进行仲裁。这会使处理器内核和独立于内核的D M A引擎不会在同一时间对同一数据进行访问，避免了数据一致性问题。为了对长度为N的缓冲区的处理进行改进，我们简单地产生一个长度为2×N的缓冲区。对于一个双向系统，必须生成两个长度为2×N的缓冲区。如图1a中所示，处理器内核正在对in1缓冲区进行处理，并将结果存储在out1缓冲区中，而DMA引擎此时正在对in0进行填充，并对out0中的数据进行传输。图1 b指出，一旦D M A引擎完成对双缓冲区左边半个的操作之后，它就开始把数据传送到in1，并从out1取出数据，而此时的处理器内核正在处理来自in0的数据，并填入out0。这个结构有时被称为“乒乓式缓冲”，因为处理器内核来回地对双缓冲区的左右两半进行处理。

应该注意到，在实时系统中，串行端口的D M A(或者另一个与音频采样率关联的外围设备的D M A)规定了时序预算。基于这个原因，块处理算法必须以这样的方式进行优化，即它的执行时间要小于或等于D M A对双缓冲区的一半进行数据传输所需的时间。

二维(2D)DMA

当数据通过像I 2 S这样的数据链路传输时，它可能会包含多个声道。这些声道可以全是从一条数据线上通过复用而输入到同一个串行端口的。在这种情况下，2D DMA可以用来对数据进行解交织，从而使每个声道在存储器中是线性分配的。可以看一下图2中对这一安排的图示，其中从左右声道来的样点被解复用到两个分离的数据块。这个自动数据安排对于那些使用块处理的系统是极其有用的。

基本操作

在音频处理中有三个基本的构建模块。它们是加法操作、乘法操作和时间延迟。许多更复杂的效果和算法可以用这三个基本操作来实现。加法器显而易见的任务是把两个信号加在一起。乘法可以用于提升或衰减音频信号。在大多数媒体处理器中，可以在一个周期内完成多次加法和乘法操作。

时间延迟有点复杂。在许多音频算法中，当前的输出取决于过去的输入和输出之间的组合。这种延迟效果是用延迟线实现的，而延迟线只不过是存储器中用来保持过去数据的一个数组。例如，一个回声算法可以对每个声道保持500 mS的输入样点。当前输出值可以用当前输入值与稍微衰减的过去样点进行相加后得到。如果音频系统是基于样点的处理方式，那么程序设计人员可以简单地跟踪一个输入指针和一个输出指针(两者之间保持500 mS样点数的间隔)，并且在每个采样周期之后增加这两个指针。

由于延迟线要被随后的各组数据重复使用，因此，输入与输出指针将需要从延迟线缓冲区的末尾回绕到起始端。在C/C++中，这通常是在指针增加操作时再附带一次求模操作(%)完成的。

对于那些支持循环缓冲(见图3)的处理器来说，这个回绕操作不会增加额外的处理周期。在这种情况下，一个循环缓冲区的起始位置和长度必须只提供一次。在处理过程中，软件增加或减少缓冲区内的当前指针，如果当前的指针位置落在缓冲区的两个端点之外，则由硬件使指针回绕到缓冲区的起始位置。如果没有这个自动地址生成功能，程序设计人员就必须手动地保持对缓冲区的跟踪，因而会浪费有用的处理周期。

由延迟线结构可以引出一个叫做梳状滤波器的重要的音频构建模块，它本质上是一个带有反馈的延迟线。当多个梳状滤波器同时使用的时候，可以产生混响的效果。

信号的产生

在有些音频系统中，也许需要合成一个信号(例如一个正弦波)。泰勒级数的函数近似法可以用来对三角函数进行仿真。而且，用均匀随机数发生器来产生白噪声是很容易的。

但是，合成的方法也许并不适用于某些给定系统的处理预算。在具有充足存储器的定点系统中，您可以取而代之地使用查表的方法来产生信号。这样做的负面效应是占用了宝贵的存储器资源，所以，作为一种折衷考虑，可以使用混合的方法。例如，您可以存储一个不太精细的函数表，以节省存储器。在运行时，准确的值可以用插值的方法从函数表中提取出来，而插值操作比使用泰勒级数近似法的时间大为缩短。这个混合法提供了在计算时间和存储器资源之间的很好的平衡。

滤波与算法

音频系统中的数字滤波器被用来对指定频带内的声波能量进行衰减或提升。最常用的滤波器形式是高通、低通、带通和点阻。这些滤波器中的任何一种都有两种实现方法。这就是有限冲击响应(FIR)滤波器和无限冲击响应(IIR)滤波器，而且它们组成了搭建像参数均衡器和图示均衡器那样更复杂的滤波算法的构建模块。

有限冲击响应(FIR)滤波器

FIR滤波器的输出是由当前和过去输入之和确定的，而其中的每个输入样点首先要乘以一个滤波器系数。示于图4a中的FIR求和公式，也叫做“卷积”，是信号处理中最重要的操作之一。在这个公式的句法中，x为输入向量，y为输出向量，而h为滤波器系数。图4a表示了FIR的实现结构图。

卷积是在媒体处理中非常常用的操作，因而许多处理器都可以在一个周期内完成一条乘累加(MAC)指令，同时还可以完成多个数据的访问操作(读或写)。

无限冲击响应(IIR)滤波器

与输出仅仅取决于输入的FIR滤波器不同，IIR滤波器则依靠输入和过去的输出。IIR滤波器的基本公式是一个差分方程，如图4b所示。由于当前输出对于过去输出的依从关系，IIR滤波器经常被称为“递归式滤波器”。图4b也给出了IIR滤波器结构的图示。

快速傅里叶变换

我们往往可以更好地描述音频信号的特性，那就是用频率组成。傅里叶变换以时域信号作为输入，并把信号重新安排到频域里，而傅里叶反变换则完成逆向的工作，把频域表示变换回时域。从数学上看，时域中的操作与频域中的操作之间存在一些很妙的特性关系。特别是，时域卷积(或者FIR滤波器)等效于频域的相乘。如果没有傅里叶变换这个特别的优化方法，即快速傅里叶变换(FFT)，那么这个信号处理中的珍品就不可能变为实用。事实上，F I R滤波器往往有更高效的实现方法，那就是把输入信号和滤波器系数用F F T变换到频域，然后将两个变换式相乘，最后再用傅里叶反变换把乘积变换回时域。

音频处理软件篇5

基于ID200芯片和MicroSD卡的DAB音频解码部分的软件设计[1]总体上是按照操作性强、可视化、稳健性等特点出发, 进行了整体设计, 尽可能让结构更加灵活, 以便于移植和扩展。

2 软件设计流程

本软件程序设计采用按键中断, 信息显示, 确认选择, 调用操作函数的流程进行。

首先, 用户按下回放启动按键给MCU产生中断信息, MCU识别该按键信息后转入执行回放启动程序, 同时显示进入回放进程。此时MCU将配置基带解码芯片 (ID200) 为回放模式;启动SPI总线并设置供给Micro SD卡启动的时钟 (250kHz) , 然后上电Micro SD卡并进行初始化, 使其进入SPI模式, 紧接着就是获取卡的配置参数, 计算出当前接入系统的Micro SD卡的基本结构扇区。然后重新配置Micro SD卡工作的时钟, 提高其工作频率, 此时需要的工作频率为8MHz。自此Micro SD卡将开始正常工作, MCU先驱动SPI总线通道选择Micro SD卡, 根据已经读取并计算出的各种参数信息, 直接读取根目录表 (FDT表) 的第一个文件登记项, 并提取文件名称、文件存储的首簇号、文件长度等信息, 然后关闭选择Micro SD卡的SPI总线通道。当MCU获得的文件名称, 文件编号后, 通过ASCII码转换, 再打开SPI通道选择液晶模块, 驱动液晶将这些信息显示出来供用户查看, 此时液晶屏上会将显示文件名称、文件编号、按键指南等信息供用户查看和操作。然后MCU将再次关闭SPI总线通道。

接着, MCU将等待用户的选择命令——按键选择操作。如果用户在查看文件名称等信息后需要回放DAB音频文件, 那么就按键操作“确认播放”;如果用户在查阅文件名称等信息后想继续查看下一个文件信息, 那么用户可以按键选择“NEXT”, 选择下一曲, MCU将再次打开SPI通道选择Micro SD卡, 开始访问Micro SD卡的根目录表 (FDT表) , 读取下一个文件的登记信息, 同时提取相应的文件名称、文件存储的首簇号、文件长度等信息, 并驱动液晶显示这些信息, 以供用户查阅。此时用户可以根据自己的喜好进行“前一曲”或者“下一曲”的选择, 然后进行按键“确认回放”。

在确认回放之后, MCU开始根据文件存储的首簇号计算获取该文件在数据区中存储的起始扇区, 同时根据文件长度计算该文件所占的扇区数, 然后启动SPI总线通道选择Micro SD卡, 根据文件存储的起始扇区从Micro SD卡中读取第一个扇区的信息 (512个字节) , 存入MCU的专用缓存器中, 提取DAB音频帧的帧头信息, 用来识别采样率、比特率、声音模式等信息, 同时驱动液晶并将这些信息显示在液晶上供用户查阅。在识别了采样率之后, 如果采样率为48kHz的节目, MCU将每隔24ms向基带的SRAM相应地址空间存储一帧数据, 供基带在此段时间里完成一帧数据的解码。48kHz采样率节目的一帧数据长度如式 (1) 所示。

在这24ms中, 基带将对这一帧数据进行MPEG L2的音频解码, 但是此时SPI总线已经释放, 未进行任何操作。MCU将检测片内缓冲区中的数据是否还能够保证下一帧的发送数据量, 如果该数据量 (Bytes) 能够满足下一帧的发送量, SPI将继续等待启用;但是如果该数据量 (Bytes) 不能够满足下一帧的发送量时, MCU将立即启动SPI总线通道, 选择Micro SD卡, 再次读取下一个扇区的数据, 按顺序保存到MCU的片内缓冲区内, 以供下一个24ms发送给基带芯片。

对于基带解码部分, 当DAB音频数据帧的帧头被解码后, 其内部时钟均已配置完成, 通过它将配置通往Audio DAC芯片的I2S通道的时钟。此时MCLK为12.5MHz, LRCK为48kHz, SCLK为3MHz。采用RIGOL DS5102CA示波器测得的时钟频率分别为12.49MHz、48.08kHz、3.0 28MHz。基带解码芯片完成一帧解码后输出PCM采样点给Audio DAC芯片, 经其转换后通过耳机或者通过功放芯片驱动喇叭就可以听到美妙的DAB节目的声音了。

如果识别的采样率为24kHz, 那么MCU将每隔24ms向基带的SRAM相应地址空间存储半帧 (1/2) 数据, 供基带在此段时间里完成1/2帧数据的解码。24kHz采样率节目的半帧数据长度如式 (2) 所示。

在这24ms中, 基带将对这半帧数据进行MPEG L2的音频解码, 此时SPI总线已经释放, 等待被启动。MCU将检测片内缓冲区中的数据是否还能够保证下一帧的发送数据量, 如果该数据量 (Bytes) 能够满足下一帧的发送量, SPI将继续等待启用;但是如果该数据量 (Bytes) 不能够满足下一帧的发送量时, MCU将立即启动SPI总线通道选择Micro SD卡, 读取下一个扇区的数据, 按顺序保存到MCU的片内缓冲区内, 以供下一个24ms发送给基带芯片。对于基带解码部分, 当24kHz采样率节目的数据帧的帧头被解码后, 其内部时钟也已配置完成, 通过它将配置通往Audio DAC芯片的I2S通道的时钟, 此时MCLK为6.25MHz, LRCK为24kHz, SCLK为1.5MHz。采用RIGOL DS5102CA示波器测得的时钟频率分别为6.16MHz、23.98kHz、1.528MHz。基带解码芯片完成半帧解码后输出PCM采样点给Audio DAC芯片 (MAX9850) , 经其转换后通过耳机或者通过功放芯片驱动喇叭就可以听到美妙的DAB节目的声音了。

如此逐帧逐帧 (或者半帧) 连续的解码和DAC转换, 就能在时间上连续的回放出原来存储在Micro SD卡里的DAB音频文件了。

在音频文件的回放期间, 如果用户觉得当前的文件不好听, 或者想提前结束该段音频, 可以通过按键操作使MCU响应中断停止文件数据的传输回到选择节目。如果用户在文件的回放期间, MCU将会根据文件长度计算出该文件存储的扇区总数, 当基带解码完成这个总数的数据量之后, MCU将停止从Micro SD卡读取数据, 同时也停止向基带解码芯片 (ID200) 发送解码数据。此时标志着当前用户选择的DAB音频节目回放结束。此时MCU将启动SPI总线通道选择液晶, 并驱动液晶显示“节目结束”和“前一曲, 后一曲”, 以供用户选择。

如果用户想结束回放模式, 回到DAB正常接收状态, 只需按键确认退出回放模式即可, MCU将设置基带解码芯片的相应模式寄存器, 使其退出回放模式, 进入正常接收解码模式。

参考文献

广播电视音频处理器应用探究篇6

1 音频处理器的原理

音频处理器是一种进行信号转换和处理的设备,主要针对的是声音的音色、响度和音调三个参数进行处理,使声音信号能够达到播出质量要求,去除多余的噪音,稳定声音信号。人耳能够听到的声音是处于20Hz～20kHz频率范围内的声音,只要是处于这一频段的声音信息都可能被听到,因此必须用音频处理器来对声音信号进行处理。音频处理器的工作过程首先是进行信号的转换,也就是将声音信号转换成电信号,然后在电能的调节原理上,改变信号的信噪比、频率响应及振幅等因素,使其达到某种标准,然后再将电信号转化为声音信号输出。音频处理器的工作原理见图1。

音频信号输入后由门限控制、放大流量和压控放大器对信号进行处理,处理后的音频信号通过门限控制可以得到音频信号的AGC控制电压信息(自动发电控制),最后再通过压控放大器根据AGC信息进行增益,然后在输出音频信号即可。例如,目前应用比较广泛的一种音频处理器INOVONICS 255就是类似的原理。

2 提高音频处理器应用效果的有效措施

2.1 进行设备调制

音频处理器在应用过程中并不是安装设置好之后就可以了,而是应该在进行音频处理之前先进行设备调制。音频处理器在处理一些中波、短波广播节目的音频信号后,在信号传输的发射前端通常会带有许多平顶波形信号,这些信号对于传输幅度有较高的要求,如果幅度和群时延发生了偏差,就会使平坦信号发生顶部倾斜的情况,这意味着该通路的平均电平会变小,也就是声音的响度会变小。因此,为了保证音频波形的一致性,必须先对音频处理器进行调制,并且质量更好的无氧铜芯传输电缆来保障传输质量。此外,为了扩大节目信号的覆盖范围,需要对信号进行动态范围压缩,但如果压缩比过大,会影响节目的播出质量。因此,必须提前对设备进行压缩比的合理设置。为了达到以上一些信号传输要求,都要涉及到音频处理器的设备调制问题,在进行广播电视节目音频信号处理前,都应该根据实际要求对设备进行调制或者检查确认。

2.2 遵守音频处理原则

对广播电视节目的音频信号进行处理是为了提高其质量,保证其稳定性,去掉信号中的干扰,使节目音频信号音调、音色和响度能够统一,当然,有时候为了取得一些节目艺术效果,会对信号进行一些处理,但使用音频处理器处理信号必须遵守处理原则,即保持信号原有的基础信息内容和特征,也就是不能造成信号失真的现象,为观众提供更加真实、高质量的声音感受。

3 结语

音频处理器在广播电视节目信号的处理过程中应用得十分广泛,使用音频处理器能够更好地保证声音信息的一致性,但是在应用过程中也要注意正确地进行设备的摆放调制、设置好处理器的各种参数,声音处理要遵守音频处理原则,为观众提供真实、稳定的高质量音频服务,进而提高广播电视节目的整体质量。

参考文献

[1]崔文冲.应用于广播电视音频监测系统的技术分析[J].电视技术,2011(22).

数字音频处理器的设计与实现篇7

在中短波调幅广播中, 采用音频处理器提高发射机的平均调幅度, 可以增加边带功率, 扩大广播覆盖, 改善收听效果。调幅广播发射机的发射功率P包括如式 (1) 所示的两部分功率:

式中:

pc为载波功率,

pn为边带功率,

m为调幅度。

只有在100%调幅, 即m=1时, 边带功率pn才能达到载波功率的二分之一。但是在一般的语言和音乐节目信号中, 幅度和频率的变化都是随机的, 衡量调幅度必须采用平均调幅度的概念。其定义是在一定的时间内, 节目信号调制载波所产生的平均边带功率与同一时间内用单音信号调制同一载波所产生的边带功率相同, 则该单音调幅度即为此时的平均调幅度。显然节目信号中只有少数电平的幅值能够达到100%调幅, 绝大多数电平的调幅度均处于低调幅。试验证明, 一般录制的广播节目, 若不经过音频加工, 所能达到的平均调幅度很低, 我国男女声新闻节目为18%, 一般音乐节目为25%, 相应的平均边带功率仅为载波功率的2%-3%。这意味着虽然载波功率很大, 而传递信息的边带功率却很小, 能量的利用率很低。

在一定的发射和接收条件下, 平均边带功率的大小关系到广播的有效覆盖范围, 决定着广播节目的收听响度, 在这里, 瞬时的100%调幅是不起决定作用的。平均调幅度取决于节目的动态范围, 动态范围指的是节目中最大电平与最小电平的比值, 常用dB来表示。显然, 不同节目内容有不同的动态范围, 一般地说, 动态范围愈大, 发射机所能达到的平均调幅度愈小。语言节目动态范围为30-40dB, 音乐节目为70-80dB, 甚至更高。但经过录音复制后的广播节目, 动态范围一般只能达到50-60dB。音频处理器就是在录制广播节目的基础上, 进一步压缩其动态范围, 用以提高边带功率, 改善广播的播出效果, 这正是调幅广播中采用音频处理器的主要目的。但是, 音频处理一般要以牺牲节目的音质为代价, 如何在收听响度和收听音质之间做出均衡折中是音频处理的主要问题所在。本文所设计的音频处理器, 可以智能判别出语言类和音乐类节目, 并根据音乐类节目动态范围要比语言类节目动态范围更大, 才有更好的收听效果这一特点, 自动选择不同的折中方案, 执行不同的处理方法, 较之传统音频处理器用手动模式调节来适应不同的节目类型, 更能显现出数字音频处理的智能化和自动化。

2 数字音频处理器的系统设计

数字音频处理器系统可以分为音频接口模块、人机接口模块和数字信号处理模块三大部分, 如图1所示。其中, 音频接口模块由数字、模拟音频输入, 数字、模拟音频输出以及音频A/D转换和音频D/A转换等电路组成;人机接口模块由单片机、控制按键、液晶显示屏、串口和网口等电路组成;数字信号处理模块是系统的核心模块, 完成所有音频处理算法, 由四块DSP配合用于通路设计的CPLD组成, 之所以用四块DSP, 是由系统内部音频处理算法的复杂度决定的。

现代音频处理器的功能已经不再是单纯提高调幅广播的收听响度和防止发射机过调福, 还有提高音质效果的功能, 经过音频处理后, 可以使原有节目更加清晰动听。因此, 对音频信号的处理算法除了最简单的压缩和限幅处理之外, 还有高频预加重、多频段限幅、自动调整节目电平, 以及根据人声/音乐判别算法的结果, 自动修改其它算法参数的功能, 如图2所示。这些算法对系统硬件平台的数据处理能力提出了更高的要求。本设计使用四块ADI公司的音频专用sharc系列DSP芯片21364, 不仅可以出色地完成上述算法提出的要求, 而且还为系统的升级预留了足够的处理空间。

3 数字音频处理器的功能设计

由图2可知, 音频处理器的主要功能包括低通滤波器、高频预加重、AGC (自动增益控制) 、多段限幅、安全限幅以及人声/音乐判别等六大部分。下面将主要介绍自动增益控制和人声/音乐判别两个算法的实现方法。

3.1 自动增益控制算法

自动增益控制算法框图如图3所示, 其主要功能是用来进行自适应信号电平的调节。通过测量输入信号的电平XdB (n) , 参照静态曲线和跟踪释放时间计算出的增益值GdB (n) , 则其输出电平为:

3.1.1 静态曲线

静态曲线用于定义增益电平与输入电平之间的关系, 即:

4中, 左图为输入电平与输出电平间的关系, 右图为输电平与增益电平之间关系, 由图4可知, 输电平和增益电平均为入电平的函数。其中:LT为限幅门限, CT为压缩门限, ET为扩展门限、NT为噪声门限, CS为压缩斜率, ES为扩展斜率。

静态曲线的压缩比率R的定义为, 输入电平变化△pt与输出电平变化△p0之比, 其对数关系表达式为:

典型的压缩比率R的取值为:

R>1, 压缩器;

0<R<1, 扩展器;

R=0, 噪声门限。

以压缩器的对数关系式为例, 压缩比的表达式为:

那么压缩器的输出与输入之间的关系:

将对数表达式 (4) 转换为线性表达式为:

其中:x (n) 和y (n) 为线性电平;CT为线性压缩门限。

式 (6) 可变形为:

则增益因子可表示为:

(8)

同理, 可以得出限幅器和扩展器的关系式。

3.1.2 动态特性

动态特性主要是指影响自动增益控制延时和速度的跟踪和释放时间。图3中的电平测量和跟踪/释放时间两个模块都受跟踪和释放时间的影响。

电平测量包括峰值检测 (如图5) 和均方根值检测 (如图6) 两部分。其中, AT为跟踪时间, RT为释放时间, TAV为均方根检测的跟踪时间。峰值检测主要用于限幅器的门限比较;均方根值检测用于压缩器、扩展器和噪声门限的比较。

跟踪和释放时间模块的结构如图7所示, 该模块用于平滑系统的控制, 对应的差分方程为:

其中:k=AT或者k=RT。

对应的传递函数可推导为:

3.1.3 静态特性与动态特性的关系

自动增益控制系统的静态特性定义为增益电平与输入电平之间的关系, 动态特性是指影响自动增益控制的延时和速度的跟踪和释放时间。

静态特性表征输入电平与输出电平的关系, 不受系统时间因素影响, 因而是静态的;而动态特征表征了输出电平与时间因素的关系, 受系统时间参量影响, 因而是动态的。

两者相辅相成, 共同构成自动增益控制算法的核心。

3.2 人声/音乐判别算法

本设计采用一种基于灰关联分析的人声/音乐判别方法, 利用人声和音乐信号的短时能量均方根的概率统计特征值建立了目标的参考数据和比较数据, 进行了不同人声和音乐信号的灰关联分析, 确立了目标分类的判据, 并对两类信号的音频信号进行了分类。在进行序列关联分析时, 必须先确定参考数列, 然后比较其它序列与参考序列的接近程度, 这样才能对其它数列进行比较, 进而做出判断。

人声信号相对于音乐信号来说, 其包含单词、音节的停顿, 因此采用提取信号短时能量均方根的概率统计特征, 来实现灰关联分析。短时能量均方根的表达式为:

其中:x (n) 为音频信号, 矩形窗序列沿音频样点序列逐帧移动, 每段帧长度为N。

30s的人声和音乐信号RMS的概率分布, 即信号分布和频数直方图如图8所示。由图8可知, 语言信号与音乐信号的分布有较明显的差异, 可以作为判别人声和音乐信号的特征依据。

分别选取30s的人声和音乐RMS概率分布做为参考序列, 每个序列均包含多个样本值, 分别将人声参考序列记作:;音乐参考序列记作:。同时, 将待判别信号作为比较序列, 记作:。上述定义中, 为样本值数量, 综合考虑到计算结果的准确度和实际处理器处理能力的关系, 在这里每个序列取10个样本值进行实际计算, 即k=10。

为保证音频序列的可比性, 在进行灰关联分析时, 需要对比较和参考序列进行初值化生成处理, 即对一个数列的所有数据均用它的第一个数去除。这个新序列表明原始数列中不同时刻的值相对于第一个时刻值的倍数。

为了实现对音频类型的识别, 要在计算比较序列与各个参考序列的灰关联度时, 必须是在相同最大值和最小值下计算, 从而得到“全局环境”的灰关联度系数。其算法如下 (以下序列均为初值化处理后序列) :

其中:Ni={1, 2}, K={1, 2…, 10};

常数ξ称为分辨系数, , 它的作用是调整比较环境的大小, ξ越小, 分辨力越大;

称为第k个指标xi与y的绝对差。

灰关联分析的实质, 就是对数列曲线进行几何关系的比较。若两数列曲线重合, 则关联性好, 即关联系数为1, 那么两数列的关联度也等于1;同时, 两数列曲线不可能垂直, 即无关联性, 所以关联系数大于0, 故关联度也大于0。由于在比较全过程中, 关联系数不止一个, 因此, 常取关联系数的平均值作为比较全过程的关联程度ri的度量, 即:

若r1>r2, 则比较序列被判别为人声信号;反之, 比较序列被判别为音乐信号。

4 结论

通过多次试验证明, 本系统可以有效地抑制瞬时峰值, 防止发射机过冲, 同时通过自动增益控制和多段限幅算法压缩音频信号的动态范围, 使得能量更加集中, 达到提高平均调幅度的目的。人声/音乐判别算法可以判别当前节目类型, 系统会自动根据节目类型, 对上述算法进行参数配置, 从而到达对语言类节目的深压缩, 对音乐类节目的高保真效果, 完成自适应的数字音频处理功能。

摘要：本文对新型的智能型数字音频处理器的系统设计方案进行了介绍, 并对自动增益控制和人声/音乐判别两个功能算法的实现进行了分析。

本文来自古文书网(www.gwbook.cn)，转载请保留网址和出处

传输音频信号01-10

音频信息01-10

专业音频01-10

音频信息隐藏01-10

失步运行01-10

音频比对系统01-10

音频质量01-10

音频切换矩阵01-10

音频励志演讲01-10

加强教学仪器设备管理01-10