音频编程技术

关键词: 编程技术 音频

音频编程技术(精选四篇)

音频编程技术 篇1

关键词:音频编程技术,通用图形处理器编程,音频效果算法,回声模型

实时声音处理有时会产生高强度的计算, 因为许多算法经常会被同时处理。可编程的数字信号处理器对于专业的开发者而言还可以接受, 但对普通消费者却因价格高而难以承受。文中将原本放在CPU上处理的程序转嫁到GPU上, 从而在GPU相对较大的SIMD (单指令多数据) 并行流处理能力上获益, 如图1所示。由此, 便可允许建立自定义、高质量的回声模型。该回声模型能够根据场景的几何数据实时计算, 相比于依靠在硬件中预设参数有明显优势。

1 GPGPU编程概述

GPU向可编程管线的转移及其不断提高的可编程能力, 使其允许被用做一个强大的通用处理器。如图2所示的管线已能够被一般的应用程序编程所用, 而并非只适用于特定的图形程序, 其被称为GPGPU (通用图形处理器) 编程。该方法已被成功地运用到人工神经网络[1]和布料物理模拟[2]的应用程序中。

对于GPGPU而言, 片段着色器更为有用, 这是因为片段管线比顶点管线多, 同时片段处理器处于管线末端, 可允许直接输出。着色程序可以用汇编语言或高级着色语言编写, 例如Cg、HLSL和GLSL。而文中倾向于使用GPU的Brook语言, 因该语言是为处理流而特别设计的, 且通过生成具有C++运行时的Cg代码, 可直接在GPU上运行。

诸如多处理单元或乘法累加指令等GPU特性, 与某些专业的音频数字信号处理器硬件[3]类似, 因此GPU便可成为一个有效的数字信号处理器的替代品。GPU操作的是包含4个浮点数的向量, 其通常表现为RGBA分量。因此, 音频采样数据通常被保存在某个分量中, 且在提交给GPU处理之前, 会将一维采样数组映射到二维矩形纹理中。

使用GPU来处理音频是否会明显提升性能, 文献[4]通过以下方式进行验证。分别在图形硬件和CPU上使用着色语言来处理一组数字信号效果, 通过实验发现, 在GPU上处理合声算法和压缩算法时, 执行的时间明显减少。类似于滤波器和延迟效果的其他算法则会稍慢。而在处理与GPU的流处理模型相适应的任务时, GPU才具有优势。因此, 并非所有的音频编程技术均可通过在GPU上处理而得到优化。

2 音频效果

合声效果是给音频信号加入了一个很短的延迟以及轻度的音调调高, 目的是增加一种能被听见的“层次”效果[5]。合声效果可帮游戏建立一种超现实主义的“梦幻”效果。该效果的处理需要两个纹理查找过程。

与数据压缩无关的音频压缩效果降低了音频信号的动态范围, 并对平衡游戏的整个音频混合是有利的。许多其他音频效果, 如延迟和标准化处理, 也可通过类似的方法进行优化。该效果需要一次纹理查找过程。

3 室内效果

使用GPU得到更优效果的另外一种音频处理技术就是室内效果, 其也已经通过了验证。从环境几何体来实时计算共鸣、遮挡物和闭塞需要较大的计算量。射线跟踪是实现该效果的方法之一, 且该方法又适合在GPU中执行。而室内效果的射线跟踪和图形学中的射线跟踪不同, 因被计算的场景无需精确的视觉表示, 且通常可使用更小的渲染目标。射线被跟踪的路线只是从声音源到听众的位置而已。

场景几何体包含用来描述墙的多边形或大小足以影响声音环境的游戏物体。在该算法的预计算阶段, 几何体可被分割成二叉树 (BSP) 。在这一过程中, 实心的突出区域作为二叉树的叶子, 计算好的二叉树用来建立一个入口图, 该入口图反映了叶子间的通路。若一个入口和多边形处于某个叶子的同一平面上, 则叶子必须再次分割。如果需要再将叶子分割一次, 则需要计算新的入口和通路。入口和平面的信息被保存在分离的一维纹理中。叶子信息包括了平面纹理的索引及其所包含的平面数量[6,7]。每当场景几何体发生变化时, 均会执行该步骤。

片段着色器的执行如下:首先计算每条射线与当前叶子的交点, 然后传播到新叶子处, 接着被反射的射线与监听对象相交。监听对象的位置可被近似地看作一个包围球面。若使用监听对象来代表游戏玩家, 则会经常用到玩家角色的包围体积。

随后便可以创建环境混响模型。该过程包括渲染目标纹理和最终的射线数据获取。此外使用了3个渲染目标纹理分别是:保存状态信息、射线源、射线方向。

4 结束语

并非所有的音频算法均能够从GPU的并行计算中得到优化。然而, 在图形硬件上执行某些音频效果算法和听觉射线跟踪任务, 的确能够达到加速的效果。除了文中介绍的音频技术以外, GPU还在某些区域显示出了超越CPU执行力的优势。例如, 在音频处理中的FFT, 当基于PCI-Express的显卡逐渐普遍时, 将大量的数据从显卡内存传输到系统则不再困难。这些技术均展示了GPU可用来优化诸多音频算法, 甚至可替代音频数字信号处理硬件。

参考文献

[1]ROLFES T.Artificial neural networks on programmable graph-ics hardware[M].USA:Game Programming Gems 4, CharlesRiver Media, 2004.

[2]ZELLER C.Cloth Simulation on the GPU[M].Siggraph:NVIDIA Corporation, 2005.

[3]GALLO E, TSINGOS N.Efficient 3D audio processing withthe GPU[C].Proceedings of the ACM Workshop on GeneralPurpose Computing on Graphics Processors, ACM, 2004.

[4]WHALEN S.Audio and the graphics processing unit[M].New York:Willy Press, 2006.

[5]JEDRZEJEWSKI M, KRZYSZML M.Computation of room a-coustics using programmable video hardware[M].SpringerNetherlands:Computer Vision and Graphics, 2006.

[6]JOHN D O, DAVID L, NAGA G, et al.A survey of general-purpose computation on graphics hardware[J].ComputerGraphics Forum, 2007, 26 (1) :80-113.

数字音频中的DSD技术 篇2

一、概述

回顾数字音频光盘的发展,自1983以来,CD以更宽的频率响应、更高的信噪比、更大的动态范围和更小的失真,加以轻、薄、小型、廉价、使用方便等优点,迅速地取代了传统LP密纹唱片市场。CD的数字音频采用PCM多比特录音技术,以每秒44.1KHz采样频率,16bit量化精度来记录音频数据。以后所开发的多种数字音频产品,如:DAT、DCC、MD等也沿用这种格式。但PCM存在着一些难以克服的缺陷: (1)当采用44.1 KHz取样频率时,必须在22 .05KHz处采用急剧升降的数字滤波器,以防止基带外的频率成分混入。该种锐截止滤波器带来的群延时失真明显地劣化了高频端的重放音质。(2)对于小信号,PCM方式中由于量化噪声的原因造成信噪比下降。为了解决这个问题而采用了一些改善措施。但这些措施随之又带来了新的问题,导致在声音还原时人们很容易辨别出CD还原的数码声,具体表现在低频生硬、单薄,中频不够透明,高频有毛刺感等。迄今近来虽然这种技术虽然在不断进步,量化编码从16bit上升到24bit、32bit,采样频率提升到96KHz,即使这样,其改善也是有限的。

因此后CD时代的竞争表面上是SACD和DVD-Audio之争,其本质上是DSD技术和PCM技术之争。它们的运用数字技术和格式完全不同,并且互不兼容。

二 DSD技术

DSD格式的推出,较大程度地改善了PCM存在的缺陷。DSD的取样频率为2.8224MHz,较传统CD的取样频率 44.1kHz高出64倍,理论上可以把频响范围扩展至1Hz-400kHz,大大超越传统CD20 kHz的极限。同时64倍于CD的超取样频率又可以使量化噪声的大部分能量被转移至音频范围之外,很容易被一个低通滤波器滤除。可见此编码技术就是通过大幅度地提高采样频率,来降低音频范围内量化噪声,同时使用 “噪声整形电路”进一步把可闻频带(0 ~ 20kHz)内的噪声转移到20kHz以上的超音频范围中去,有效地控制量化噪声的分布以进一步提高信噪比。

我们都知道,按照采样定律进行采样、量化和编码的数字音频信号,其信噪比决定于量化比特数,大约为量化比特数的6倍。因此在音频系统中降低量化比特数就将增大量化噪声。因此1bit信号流的噪声是很大的。为满足Hi-Fi放声的要求,一般采用16bit量化。DVD-Audio格式就是采用这种思路,但量化比特数的提高,不仅使数字信号的码率提高,而且所要求的A/D 转换和D/A转换更精密,相应价格变高,因此量化比特数的提高有一定的限制。DSD技术为解决该问题采用了另一种降低量化噪声的方法:采用过采样,同时使用噪声整形技术改变噪声在频率轴上的分布,并用滤波器滤掉20KHz以上的噪声,来提高系统的信噪比。下面简单讨论DSD信号流的获得、过采样和噪声整形。

2、过采样

如果数字音频系统原来的采样频率为fs(通常为44.1KHz或48KHz),若将采样频率提高为Rfs, 并且R>1,则称为过采样,其中R称为过采样率。在这种采样的数字信号中,由于量化比特数未改变,故量化噪声功率也不变。这时的量化噪声被均匀分布在0-Rfs/2频带内,也就是音频频带内的噪声降低了。过采样系统的最大信噪比为 S/N=6.02m+1.76+10lg(Rfs/2fB) 式中fB为音频信号带宽,Rfs为过采样频率,m为量化的比特数。

由公式可得,在过采样时,采样频率提高一倍,即Rfs=4fB,则系统的信噪比提高3dB,换言之相当于量化比特数提高0.5bit。若R>>1, Rfs/2就远大于音频信号的最高频率,使得均匀分布在0-Rfs/2频率范围内的量化噪声大部分被分布在音频频带以外的区域。进一步采用噪声整形技术使原来均匀分布的`量化噪声转变成集中到高频区的新的分布方式。虽然总的噪声量没有减少,但音频频带内的噪声却降低了。此时音频频带外的噪声虽然增加了,但可用简单的低通滤波器加以滤掉。

随着采样频率的提升,相邻采样值之间的差别很小,可以对其差值进行量化,即采用差分脉冲调制(DPCM),使量化比特数减少。当采样频率足够大,就可采用极限值1bit进行量化。这种1bit信号流只需要用一个简单的低通滤波器取出其平均电平即可。

3、噪声整形

由于噪声是在量化过程中产生的,噪声整形的工作原理就是将噪声分量进行负反馈,在反馈环路中加入网络,使低频反馈系数比高频反馈系数大,从而降低了音频频带内的噪声。图2为有无噪声整形电路之对比:

三、超级音频光盘SACD

SACD(Super Audio Disc)是一种采用DSD数字录音技术的新型光盘,它的频率范围和动态范围均比CD宽。一般分为三种结构:一种是单层HD(记录20KHz~100 KHz超宽频带信号的高密度层),录入DSD信号。它可以存储9G字节的SACD格式的音乐。另两种均为双层光盘。其中一种是混合式双层结构,即一层与CD相容,另一层为高密度录音层HD层。它可以存储4.7G字节的数据,大约是普通CD的6倍。HD层又细分成三轨,可分别载入2声道讯号、6声道讯号及其他资讯(如:片名、曲名、图形和活动图象等)。SACD虽然具有与CD相同的外形尺寸,但能够提供比CD更好的音质。SACD和CD光盘的比较如表1所示。

四、SACD的放声系统

目前大部分SACD光盘所接的放声系统仍然是模拟式的。显然,SACD对功率放大器和扬声器的要求是非常苛刻的,传统模拟式的性能已跟不上。电子管或晶体管功率放大器的发展已接近极限,很难再有突破性的进展。一些公司针对此纷纷推出自己的数字功放。索尼的TA-FB940R,日本Sharp公司推出的1bit数字扩大机。它们采用全数字式工作原理,因而频率响应、动态范围、瞬态响应好。并因其操作属简单的开/关切换形式,使它的热量消耗只有传统模拟放大器的五分之一左右,电源消耗只需约一半。新型数字功放的推出不仅为SACD系统提供了功率放大器的解决方案,并且又可用于所有双声道立体声信号源,不论是模拟信号还是数字信号都可使用。

数字扬声器的研究进展不大,它的研究一直采用PCM系统,把二进制输入信号直接转换为声波辐射,扬声器本身完成D/A转换。低比特数的PCM扬声器性能不能满足Hi-Fi放声的要求,而高比特数的PCM扬声器则结构复杂,若要保证一定的截止频率,必须采用有足够高阶数的低通机械滤波器或声学滤波器,这样会使数字扬声器结构复杂、加工困难。数字扬声器若采用过采样和噪声整形技术可以减少对数字扬声器的比特要求,甚至降低为1bit。设想扬声器的输入若是1bit信号,那么数字扬声器只需是一个简单的低通机械滤波器或声学滤波器。不但简化了结构,而且提高了重放性能,并为研究高质量的数字扬声器提供了一种新方法。相信不久以后,这种1bit数字扬声器会得到实际应用的。

其次,在硬件方面,SACD已先一步走到DVD-Audio之前,早在两年前,SONY公司就有一款轰动业界的SCD-1问世。之后接踵而来的SCD-777SE、SCD-555、SCD-XB940,甚至影音兼容的DVP-S9000ES、Manantz公司的SA-1、SHARP公司的DX-SX1、先锋公司的DXAX100等,不胜枚举。而DVD-Audio阵容到目前为止也仅有松下、胜利、天龙等几家公司的少量品种应市。在软件供应方面也是SACD捷足先登,至今已有超过300款SACD唱片问世,国内看到的也有近百种,其中SONY和Philips一方面凭借自己旗下的唱片公司源源不断地出版SACD碟以示支持。另一方面更说服Telarc、DMP、拿索丝、DIGITAL等唱片公司加盟SACD陈营,不断推出SACD软件给广大消费者造成了“先入为主”的极深印象。而DVD-Audio还在摇篮中就被计算机黑客破解了防盗版密码,从而大大推迟了DVD-Audio唱片推出的时间表,这也是许多饱受盗版之苦的唱片公司暂不考虑对DVD-Audio阵营支持的主要原因。

顶级PC音频技术亮相IDF 篇3

DTS日前在英特尔信息技术峰会上展示了新一代PC音频解决方案新技术Premium Suite II。这是DTS首次将这款顶级音频解决方案介绍到中国消费者面前。Premium Suite II共包含4项最新技术:DTS Clear Voice(对白清晰) 、DTS Clear Audio(音质清晰) 、DTS Audio Restoration(音频重建)、DTS Enhance(音频增强)。

DTS集团副总裁和大中华区执行董事 Roy Law认为,PC从以往的奢侈品变成了单纯的数码类消费品,其在影音娱乐方面的缺憾更加凸显。“DTS推出的PC音频新技术Premium Suite II是一次令人兴奋的尝试,也是PC音频体验的创新之举。它不仅在上一代出色音频技术基础上,为用户带来更智能、更出色的音频使用体验,而且前瞻洞察到PC交互应用功能的需求,将互联时代音频使用体验带来质的提升。”

作为DTS的合作伙伴,英特尔的音频架构总监Devon Worrell认为,未来电脑不仅仅是电影或者音乐,还有很多人与人之间、人与电脑硬件的互动和交流。无论是娱乐体验还是用户交流使用体验,英特尔坚信DTS作为一个出色的合作伙伴,能够提供给用户更好的音频解决方案。

视频会议中的各种音频技术 篇4

音频技术

视频通讯过程是视频和音频的实时双向完整通讯过程。在这个过程中我们为了获得高清晰视频图像,有时却忽略了另外一个重要的过程——音频通讯过程。如果我们在观看高清晰视频图像的时候,不能得到一个更清晰、连续的音频效果。那么这个过程实际上就没有任何意义,所以其重要性甚至超过视频。在传统的视频会议系统中音频技术发展极其缓慢,原因在于目前应用于视频通讯的音频编解码压缩标准都是为了保持传输时的低带宽占用和较高的编解码效率,从而将音频信号的采样频率、采样精度和采样范围指标做了极大的降低,使得所能提供的音频清晰度和还原性都有很大程度上的衰减。与用于存储和回放非实时压缩协议的标准(如OGG、MP3等)相比,音频的保真度非常低。这样就在某种程度上对现场声音的还原达不到要求。目前传统视频通讯过程中主要采用的是G.711、G.722、G.721、G.728等音频标准,音频宽度仅有50Hz-7KHz单声道,而人耳所能感知的自然界的频响能力可以达到20Hz-20KHz,因此,在对现场环境音的还原过程中过多的音频信息的丢失造成了无法真实表现现场情况。所以在高清晰视频通讯过程中我们势必要有一种相辅助的音频处理方式解决此问题。使整个高清晰通讯过程更去近于完美。

目前国际上对音频处理技术上标准较多,在对下一代实时交互音频处理上可以采用MPEG-1 Layer 2或AAC系列音频,对选用标准的原则是,音频频响范围要达到22KHz,这样就几乎可以覆盖了人耳听觉的全部范围,甚至在高频方面还有所超越,能够使现场音频得到真实自然的还原,并且在还原时可以采用双声道立体声回放,使整个视频通讯的声音有更强的临近感,达到CD级音质。同时在对链路带宽的适应和编解码效率上达到最佳。下面是各种音频编码标准的说明:

1G.711

类型:Audio

制定者:ITU-T

所需频宽:64Kbps

特性:算法复杂度小,音质一般

优点:算法复杂度低,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术)缺点:占用的带宽较高

备注:70年代CCITT公布的G.711 64kb/s脉冲编码调制PCM。

2G.721

制定者:ITU-T

所需带宽:32Kbps

音频频宽:3.4KHZ

特性:相对于PCMA和PCMU,其压缩比较高,可以提供2:1的压缩比。

优点:压缩比大

缺点:声音质量一般

备注:子带ADPCM(SB-ADPCM)技术。G.721标准是一个代码转换系统。它使用ADPCM转换技术,实现64 kb/s A律或μ律PCM速率和32 kb/s速率之间的相互转换。

3G.722

制定者:ITU-T

所需带宽:64Kbps

音频宽度:7KHZ

特性:G722能提供高保真的语音质量

优点:音质好

缺点:带宽要求高

备注:子带ADPCM(SB-ADPCM)技术

4G.721

制定者:ITU-T

所需带宽:32Kbps/24Kbps

音频宽度:7KHZ

特性:可实现比G.722 编解码器更低的比特率以及更大的压缩。目标是以大约一半的比特率实现G.722 大致相当的质量。

优点:音质好

缺点:带宽要求高

备注:目前大多用于电视会议系统。

5G.721附录C

制定者:ITU-T

所需带宽:48Kbps/32Kbps/4Kbps

音频宽度:14KHZ

特性:采用自Polycom 的Siren™14 专利算法,与早先的宽频带音频技术相比具有突破性的优势,提供了低时延的14 kHz 超宽频带音频,而码率不到MPEG4 AAC-LD 替代编解码器的一半,同时要求的运算能力仅为十分之一到二十分之一,这样就留出了更多的处理器周期来提高视频质量或者运行因特网应用程序,并且移动设备上的电池续航时间也可延长。

优点:音质更为清晰,几乎可与CD 音质媲美,在视频会议等应用中可以降低听者的疲劳程度。缺点:是Polycom的专利技术。

备注:目前大多用于电视会议系统

6G.723(低码率语音编码算法)

制定者:ITU-T

所需带宽:5.3Kbps/6.3Kbps

音频宽度:3.4KHZ

特性:语音质量接近良,带宽要求低,高效实现,便于多路扩展,可利用C5402片内16kRAM实现53coder。达到ITU-TG723要求的语音质量,性能稳定。可用于IP电话语音信源编码或高效语音压缩存储。优点:码率低,带宽要求较小。并达到ITU-TG723要求的语音质量,性能稳定。

缺点:声音质量一般

备注:G.723语音编码器是一种用于多媒体通信,编码速率为5.3kbits/s和6.3kbit/s的双码率编码方案。G.723标准是国际电信联盟(ITU)制定的多媒体通信标准中的一个组成部分,可以应用于IP电话等系统中。其中,5.3kbits/s码率编码器采用多脉冲最大似然量化技术(MP-MLQ),6.3kbits/s码率编码器采用代数码激励线性预测技术。

7G.723.1(双速率语音编码算法)

制定者:ITU-T

所需带宽:5.3Kbps(29)

音频宽度:3.4KHZ

特性:能够对音乐和其他音频信号进行压缩和解压缩,但它对语音信号来说是最优的。G.723.1采用了执行不连续传输的静音压缩,这就意味着在静音期间的比特流中加入了人为的噪声。除了预留带宽之外,这种技术使发信机的调制解调器保持连续工作,并且避免了载波信号的时通时断。

优点:码率低,带宽要求较小。并达到ITU-TG723要求的语音质量,性能稳定,避免了载波信号的时通时断。缺点:语音质量一般

备注:G.723.1算法是ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法,其目标应用系统包括H.323、H.324等多媒体通信系统。目前该算法已成为IP电话系统中的必选算法之一。

8G.728

制定者:ITU-T

所需带宽:16Kbps/8Kbps

音频宽度:3.4KHZ

特性:用于IP电话、卫星通信、语音存储等多个领域。G.728是一种低时延编码器,但它比其它的编码器都复杂,这是因为在编码器中必须重复做50阶LPC分析。G.728还采用了自适应后置滤波器来提高其性能。优点:后向自适应,采用自适应后置滤波器来提高其性能

缺点:比其它的编码器都复杂

备注:G.728 16kb/s短延时码本激励线性预测编码(LD-CELP)。1996年ITU公布了G.728 8kb/s的CS-ACELP算法,可以用于IP电话、卫星通信、语音存储等多个领域。16 kbps G.728低时延码激励线性预测。G.728是低比特线性预测合成分析编码器(G.729和G.723.1)和后向ADPCM编码器的混合体。G.728是LD-CELP编码器,它一次只处理5个样点。对于低速率(56~128 kbps)的综合业务数字网(ISDN)可视电话,G.728是一种建议采用的语音编码器。由于其后向自适应特性,因此G.728是一种低时延编码器,但它比其它的编码器都复杂,这是因为在编码器中必须重复做50阶LPC分析。G.728还采用了自适应后置滤波器来提高其性能。

9G.729

制定者:ITU-T

所需带宽:8Kbps

音频宽度:3.4KHZ

特性:在良好的信道条件下要达到长话质量,在有随机比特误码、发生帧丢失和多次转接等情况下要有很好的稳健性等。这种语音压缩算法可以应用在很广泛的领域中,包括IP电话、无线通信、数字卫星系统和数字专用线路。

G.729算法采用“共轭结构代数码本激励线性预测编码方案”(CS-ACELP)算法。这种算法综合了波形编码和参数编码的优点,以自适应预测编码技术为基础,采用了矢量量化、合成分析和感觉加权等技术。

G.729编码器是为低时延应用设计的,它的帧长只有10ms,处理时延也是10ms,再加上5ms的前视,这就使得G.729产生的点到点的时延为25ms,比特率为8 kbps。

优点:语音质量良,应用领域很广泛,采用了矢量量化、合成分析和感觉加权,提供了对帧丢失和分组丢失的隐藏处理机制。

缺点:在处理随机比特错误方面性能不好。

备注:国际电信联盟(ITU-T)于1995年11月正式通过了G.729。ITU-T建议G.729也被称作“共轭结构代数码本激励线性预测编码方案”(CS-ACELP),它是当前较新的一种语音压缩标准。G.729是由美国、法国、日本和加拿大的几家著名国际电信实体联合开发的。

10G.729A

制定者:ITU-T

所需带宽:8Kbps(34.4)

音频宽度:3.4KHZ

特性:复杂性较G.729低,性能较G.729差。

优点:语音质量良,降低了计算的复杂度以便于实时实现,提供了对帧丢失和分组丢失的隐藏处理机制 缺点:性能较G.729差

备注:96年ITU-T又制定了G.729的简化方案G.729A,主要降低了计算的复杂度以便于实时实现,因此目前使用的都是G.729A。MPEG-1 audio layer 1

制定者:MPEG

所需带宽:384kbps(压缩4倍)

音频宽度:

特性:编码简单,用于数字盒式录音磁带,2声道,VCD中使用的音频压缩方案就是MPEG-1层Ⅰ。

优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。可以达到“完全透明”的声音质量(EBU音质标准)

缺点:频宽要求较高

备注:MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准,它分为三个层次:--层1(Layer 1):编码简单,用于数字盒式录音磁带

--层2(Layer 2):算法复杂度中等,用于数字音频广播(DAB)和VCD等

--层3(Layer 3):编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍

12MPEG-1 audio layer 2,即MP2

制定者:MPEG

所需带宽:256~192kbps(压缩6~8倍)

音频宽度:

特性:算法复杂度中等,用于数字音频广播(DAB)和VCD等,2声道,而MUSICAM由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用。优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。可以达到“完全透明”的声音质量(EBU音质标准)

缺点:

备注:同MPEG-1 audio layer 1

13MPEG-1 audio layer 3(MP3)

制定者:MPEG

所需带宽:128~112kbps(压缩10~12倍)

音频宽度:

特性:编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍,2声道。MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。

优点:压缩比高,适合用于互联网上的传播

缺点:MP3在128KBitrate及以下时,会出现明显的高频丢失

备注:同MPEG-1 audio layer 1

14MPEG-2 audio layer

制定者:MPEG

所需带宽:与MPEG-1层1,层2,层3相同

音频宽度:

特性:MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器,层1, 层2和层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声。

优点:支持5.1声道和7.1声道的环绕立体声

缺点:

备注:MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器,层1, 层2和层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声。

15AAC-LD(dvanced Audio Coding,先进音频编码)

制定者:MPEG

所需带宽:48-64 kbps

音频宽度:22KHZ

特性:提供高质量的低延时的音频编码标准,以其20ms的算法延时提供更高的比特率和各种声音信号的高质量音频。

缺点:

本文来自 古文书网(www.gwbook.cn),转载请保留网址和出处

相关文章:

音频服务01-10

音频节目01-10

网络音频路由01-10

音频管理01-10

纯音频材料01-10

传媒音频范文01-10

常用音频格式01-10

音频嵌入01-10

音频资源01-10

视音频监控01-10

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:66553826@qq.com

上一篇:音频服务 下一篇:传媒音频范文