音频质量(精选七篇)
音频质量 篇1
为了让广大用户通过收音机收听到良好的声音播出效果, 电台机房工作人员需要及时发现发射机异态、减少发射机停/劣播时间, 迅速处理才能提高广播发射机输出质量, 根据这些特点开发了音频广播质量监测系统, 确保播出节目的完整性和音频质量的可听性。
1 系统的组成与主要功能
音频广播质量监测系统是通过发射机房采集终端设备进行高频信号采集, 通过调幅监测接收机的解调及频率跟踪技术, 给出所测频率的功率电平值、调幅度值和频率偏差值, 利用多路音频压缩卡的流媒体技术通过网络传输, 实现实时监听和远程监听, 并有效的存储历史音频数据和功率, 调幅, 频偏等信息。
1.1 系统的组成
质量保证系统由采集终端设备、监测终端设备、通讯服务器、数据库服务器及相应的软件组成, 整体布局如图1所示。
1.1.1 硬件组成
1) 采集终端设备:
屏蔽机柜、UPS电源、交直流电源机箱、高频信号处理器机箱、高频信号均衡器机箱、标频信号分配器机箱、接收机机箱、采集工控机 (显示器、八串口卡、语音压缩卡、声卡、网卡) 。
2) 监测终端:监测工控机 (声卡、网卡、音箱) ;
3) 服务器:数据库服务器、通讯服务器、GPS校时仪;
4) 网络设备:以太网交换机、光纤收发器;
5) 电源部分:系统设备电源采用220V交流市电, 连接到UPS设备上;UPS输出稳压的设备连接到电源机箱。然后由电源机箱输出220V电源, 供给系统其它设备使用。
1.1.2 软件组成
音频质量监测系统软件包括:监测终端软件、采集终端软件、通讯服务软件、校时软件、数据库维护软件。
1.1.3 操作系统及插件
监测终端:Windows2000, 插件:MediaPlay9.0、TS_media;
通讯服务器:Windows2003Server;
数据库服务器:Windows2003Server, SqlServer2005。
1.2 系统的功能
高频采样头从天线馈筒处采样高频信号, 高频信号首先进入高频信号测频器经功分器送到高频信号处理机箱经功分器分成两路高频信号, 一路给高频信号处理板, 为多播监测提供信号;另一路接入高频信号均衡器机箱, 将此高频信号衰减成接收机线性范围内所需的高频信号大小, 然后接入TS-j06型接收机的天线输入端。接收机从串口中给出信息, 用于测量载波电平、调幅度、频率偏差、音频电平。从标频信号分配器机箱引出10MHz标频送入TS-j06型接收机的外时钟输入。作为TS-j06型接收机的外时钟, 供测频使用。从TS-j06型接收机音频输出端子引出的音频信号送入工控机音频压缩卡, 供录音和在线监听使用。
发射机房的数据采集终端设备和监测机房控制桌上的实时监控工作站均通过局域网网
络连接到核心交换机上, 核心交换机又与通讯服务器和数据库服务器连接, 这样就形成了一个对音频播出质量实时监测的工作站。监测机房通过监测控制通讯服务器对各个发射区的质量指标数据采集系统进行控制、下发节目运行图、实时监测、监听。
2 结论
调频同步广播建模与音频质量分析 篇2
随着我国社会经济的发展, 高层建筑和无线设备的不断增多, 电波环境日益恶劣。特别是广大受众对高质量交通广播提出的需求, 提高无线广播的覆盖质量和范围是摆在各类调频广播电台面前的紧迫任务。调频同步广播技术可以有效地缓解频率资源紧张的矛盾, 起到扩大覆盖区域和提高覆盖质量的作用。
调频同步广播系统[1]是指具有重叠服务区, 使用同一载频, 并使用同一节目源, 同时同相位广播的调频发射系统。行业标准——《调频同步广播系统技术规范》 (GY/T 154-2000) 于2000年12月公布实施, 针对当时设备情况, 对于系统做出了明确的技术要求, 主要技术参数概括起来称为“三同一保”, 即同频、同相、同调制度和保证一定的接收场强。
随着近年来广播技术设备上的升级换代, 本文对标准中的“三同一保”重新进行评估。在保证用户高质量的广播收听效果的前提下, 给出调频同步网关键参数的接收音频质量的相关曲线, 从而得出调频同步广播的技术参数以及站点的设计依据。
本文将PEAQ算法[2]引入到调频同步广播模型中。PEAQ (Perceptual Evaluation of Audio Quality) 算法采用了心理声学模型, 较好的模拟了人耳从声音产生响应到最终感知的全过程, 是目前针对音频质量客观评价算法中与主观评分等级结果相关度最高的算法。本文采用电台节目作为信号源进行测试, 并用PEAQ算法输出的ODG等级来衡量输出音频的质量等级, 保证测试结果最接近人耳的主观感受, 同时还考虑了噪声的时变性与解调系统的非线性[3]带来的影响, 对大量的实验数据进行统计分析, 最终得到最符合实际情况的结果。
本文的结构如下, 第1章建立调频同步广播模型, 并在第2章给出测试结果及分析, 第3章总结全文。
1调频同步广播建模
《调频同步广播系统技术规范》 (GY/T154-2000) 是基于那个年代的调频广播设备提出的 (当时数字化调频激励器没有出现) , 评估的依据及手段对现在来说也是不准确的。本文基于更完善的物理模型和测试手段, 力求给出更准确的符合调频同步广播系统的“三同一保”技术参数。
1.1 PEAQ音频质量评价算法
PEAQ音频质量评价算法采用心理声学模型, 是目前已知的与主观测试相似度最大的客观评价方法。它是ITU提出的一种基于音频感知技术的客观算法。PEAQ算法原理框图如图1所示, 通过模仿人耳的听觉系统, 将原始音频信号Xref和处理后测试信号Xtest分别经由基于FFT的感知模型对信号进行分析和综合, 包括时频变换、频带分组、噪声掩蔽比计算等步骤, 目的是更好的模拟人耳的感觉特性;激励样本预处理模块通过对原始参考信号和处理后的测试信号的响度差异和线性失真进行补偿, 从而对计算模型输出参数 (MOV, Model Output Variables) 前的数据进行适应性调整;预处理后的数据通过特征综合计算出11个MOV值;最后, 由神经网络模块把这些MOV参数映射为一个客观差异等级 (ODG, Object Diff erence Grade) 值输出, 该定义等同于主观评分等级中的主观差异等级 (SDG, Subjective Diff erence Grade) [4]。ODG值与主观评分等级和相应损伤对应关系如表1所示。
ODG的值从-4到0, 可以是小数。该值为负且越接近0, 说明参考信号和测试信号之间的差异越小, 音频编解码的性能就越好;当ODG值大于0时, 说明不具有区分参考信号和测试信号的能力。
本文用PEAQ算法输出的ODG等级来衡量音频质量。根据表1, 将音频质量达到ODG=-1.0及以上判定为满意的收听质量, ODG=-2.0及以上判定为可接受的收听质量。为了对照方便, 之后实验的图表中音频质量等级均用对应的主观评分等级表示。
1.2基于PEAQ算法的调频同步广播模型
为了分析“三同一保”技术参数对欲收信号的影响, 本文建立了基于PEAQ算法的调频同步广播模型, 如图2所示。目前模型限于对两台同步调频发射机进行测试。参数偏差器可以调节载频、调制度、时延以及场强四个技术参数。
调频发射机的具体参数可参见GB/T 4311-2000[5]建议。调频接收机模块中的参数可以设置, 能够根据实际情况调整解调中频滤波器等参数。PEAQ算法模型用于测试调频接收机解调后的音频质量, 最后输出测试结果的ODG等级, 通过不同类型节目的测试, 统计结果, 分析得出“三同一保”技术参数。
1.3调频同步广播的非线性分析
本文中的调频同步广播模型考虑了调制解调系统的非线性与噪声时变性的影响。调频同步广播与调幅同步广播不同, 对“三同一保”中的参数要求远高于调幅同步广播。由于FM调制[6]是非线性过程, 射频的瞬时频率随基带信号幅度而变化。假设相位初始值为零, 调频输出信号x_m (t) 可表示如式 (1) :
其中, m (t) 为调制信号, Ac为载波幅度, KVCO是压控振荡器的增益, 其单位为Hz/V, 是瞬间频率偏移量。
在接收端, 通过对接收到的信号y (t) 进行调频解调, 也是一种非线性过程, 得到解调后的基带模拟信号 (t) , 其中解调的方法如式 (2) :
其中, H[·]为Hilbert变换函数, P[·]为取相位函数。解调信号与调制信号之间的差异, 反映干扰信号对欲收信号的干扰。
如图2所示, 相同的模拟音频信号m (t) 分别经过两路FM调制, 一路得到欲收信号xm (t) , 另一路经过参数偏差器 (时延偏差) 得到干扰信号xms (t) 。合成信号y (t) 经过FM解调后, 输出的数据记为;其中FM调制部分Ac=1, KVCO=75;则调频同步广播系统噪声记为。为了更好地显示噪声频谱的分布情况, 采用分帧的方法。选取一段时长为10.24秒的音乐类节目为例, 图3是音乐类节目的时域波形, 横轴为采样点数, 纵轴为幅度值, 采样频率为48k Hz, 采样点数为10.24×48000=491520点, 以2048点为一帧, 则将10.24秒的数据分为491520/2048=240帧。
记第i帧噪声的第k个采样点的值为ni, k, 0≤i≤239, 0≤k≤2047, 则第i帧中第m点噪声频谱幅度的计算由2048点的DFT运算得到, 具体如式 (3) :
图4显示了音乐类第2、31、202帧的噪声频谱分布, 其中横轴为频率, 范围为-8k Hz~8k Hz, 纵轴为对应频率下的幅度。
从图4可以看出, 第2帧的噪声主要集中在0.8k Hz~3k Hz附近;第31帧的噪声主要集中在0Hz~4k Hz附近;第202帧的噪声主要集中在0Hz附近。不同帧的噪声其频谱分布差别很大, 是随欲收信号变化的时变噪声。同步调频广播系统中干扰信号对欲收信号的干扰是非线性过程。干扰过程与接收的节目内容高度相关, 在接收端表现为听起来不时有毛刺出现, 造成的结果使接收端的音质受到影响。
FM调制解调是复杂的非线性过程, 所涉及的贝塞尔函数不为熟知且结果过于离散, 无法通过简单的单音信号测试得出结论, 所以必须建立模型, 对不同的广播节目进行大量数据实验。本文中的调频同步广播模型考虑了调制解调系统的非线性与噪声时变性的影响, 以统计的方法分析实验结果。
2测试结果及分析
本文测试分为单声道和立体声两种情况, 采用语言类和音乐类两类电台节目作为信号进行测试。
基于PEAQ算法的调频同步广播的测试方法如下:输入两组使用相同的电台节目的模拟信号源, 分别经过调频发射机后, 其中一路采用控制变量的方法, 调整“三同一保”其中一个参数, 其它参数保持不变。叠加信号到达调频接收机后进行解调, 最终的信号通过PEAQ音频质量评价算法模型, 输出ODG值。
在测试中我们发现调频接收机的中频带宽对音频质量会有影响。为了使测试结果更符合实际主流调频收音机情况, 本文中的实验将采用陶瓷滤波器LT10.7MA5这类具有代表性的解调中频滤波器进行测试, 其参数如表2。
由于在覆盖区的任意位置, 两个信号的载频和调制度均不变, 所以只要控制影响最大的同场强区的失真, 即可保证整个覆盖区的效果。载频实验和调制度实验均在同场强区的情况下进行, 实验结果是干扰最大的情况。
2.1载频的影响
实验一为载频实验。输入信号分别为news.wav和music.wav, 采样率为48k Hz, 立体声编码, 时间长度为30s。设置标准载频为100MHz, 其中干扰信号载频与欲收信号载频的偏差范围为100M* (10-10~10-6) Hz, 其它参数保持不变。实验得到不同载频偏差下产生的音频, 音频质量如图5 (a) 、 (b) 所示。
从图5中可以看出两类节目的趋势基本相同, 音乐类音频质量好于新闻类。本实验中相对频率差为10-8.4, 两类节目均能保证达到主观评分等级=4及以上的收听质量。对比标准, 调频同步广播系统中各台、站的载波、导频的相对频率差:≤1×10-9, 与本文得出的结论是一致的。
2.2调制度的影响
实验二为调制度实验。实验方法同实验一方法相同。设置标准调制度为75k Hz, 其中干扰信号调制度与欲收信号调制度的偏差范围为75k Hz* (0~10-1) , 其它参数保持不变。实验得到不同载频偏差下产生的音频, 音频质量如图6 (a) 、 (b) 所示。
从图6中可以看出两类节目的趋势基本相同, 音乐类音频质量好于新闻类。本实验中调制度的误差为≤4%, 两类节目均能保证达到主观评分等级=4及以上的收听质量。对比标准, 调制度设定误差为≤3%, 与本文得出的结论是一致的。
2.3时延、场强的综合影响
2.3.1时延、场强影响下音频质量基本趋势
调频同步网无法圆满实现, 主要问题是接收机在覆盖区不同的位置时, 信号时延和信号强度均不同。所以音频质量随着时延、场强是变化的, 两个参数需要综合考虑。
实验三为时延、场强综合测试。输入信号分别为news.wav和music.wav, 采样率为48k Hz, 分别采用立体声和单声道编码, 时间长度为30s。本实验中, 参数偏差器同时改变时延与场强两个参数, 时延的范围为0μs~300μs, 场强的范围为0~30d B, 其它参数保持不变, 标准载波为100MHz, 标准调制度为75k Hz。实验得到语言类和音乐类节目的测试结果, 整体音频质量趋势如图7 (a) 、 (b) 、 (c) 、 (d) 所示。
从图7可以看出音频质量与时延和场强的整体关系。相同时延下, 场强差越大, 音质越好;同样, 相同场强下, 时延越小, 音质越好。对比立体声和单声道两种编码方式, 可以看出相同的时延和场强, 单声道编码输出音频的评分等级要更高, 音质效果更好。
2.3.2不同距离下两个同步广播发射台之间的音频质量
实验四研究两个同步广播发射台之间的音频质量与时延、场强的关系。两个发射站之间设定了10种站点距离, 分别为9km, 9.3km, 12km, 18km, 18.6km, 36km, 72km。本实验中, 输入信号、实验方法均与实验三相同, 但参数偏差器中时延、场强取值范围不同。根据光速传播, 相距0.3km, 时延为1μs, 得到不同站点距离之间的时延参数取值范围;调频同步广播频段 (VHF) 的场强可以根据Okumura-Hata模型[7]进行计算, 因为交通广播的覆盖范围大多为公路, 所以模型中选择传播环境为郊区进行计算, 得到不同站点距离之间的场强取值范围。测试结果, 分别如图8所示。
从图8可以看出立体声和单声道在不同节目类型下, 大体趋势相同。在离电台位置较近 (时延差大、场强差大) 以及距两电台位置相同 (时延差小、场强差小) 的地方, 收听质量好。
我们得到两同频电台之间不同主观评分等级包含的路段长度 (km) 及占电台距离比 (%) , 具体数值如表3所示。
从表3可以得到如下三点:
1.音乐类节目比语言类节目达到主观评分等级=4及以上的覆盖距离要广, 说明音乐类节目在调频同步广播中有更好的收听效果。因为语言类节目话语之间有静音间隔, 人耳掩蔽效应差, 因而主观感受的音频质量不如音乐类节目。
2.相同的电台距离, 单声道比立体声达到主观评分等级=4及以上的覆盖所占台距比例大, 说明单声道的收听方式比立体声效果要好。
3.随着电台距离的增大, 节目达到主观评分等级=4及以上的覆盖范围都在不断减少。因此, 两个发射台越近, 节目收听质量越高。
当台距为9.3km时, 立体声编码可以满足两台之间的音频质量达到主观评分等级=3及以上 (稍讨厌) 。其中, 立体声语音类节目达到主观评分等级=4及以上的覆盖距离为4.9km, 占总台距的52.6%;立体声音乐类节目达到主观评分等级=4及以上的覆盖距离为6km, 占总台距的64.5%。
当台距为18.6km时, 单声道编码可以满足两台之间的音频质量达到主观评分等级=3及以上 (稍讨厌) 。其中, 单声道语音类节目达到主观评分等级=4及以上的覆盖距离为10.2km, 占总台距的54.8%;单声道音乐类节目达到主观评分等级=4及以上的覆盖距离为10.8km, 占总台距的58.1%。
2.4标准中载频、调制度、时延及场强的综合影响
实验五研究“三同一保”技术参数对音频质量的综合影响。输入信号分别为news.wav和music.wav, 采样率为48k Hz, 分别采用立体声和单声道编码, 时间长度为30s。本实验中, 参数偏差器同时设置载频、调制度、时延与场强四个参数, 载频和调制度偏差分别采用标准中的100MHz*10-9和75k Hz*3%。两个发射台距离设置为9km, 时延和场强的测试范围同实验四, 中频滤波器采用陶瓷滤波器LT10.7MA5进行解调, 我们分别给出语言类和音乐类节目的测试结果, 音频质量整体趋势如图9 (a) 、 (b) 所示。
我们得到在综合参数影响下, 两同频电台台距为9km, 不同主观评分等级包含的路段长度 (km) 及占电台距离比 (%) , 与仅有时延、场强影响的对比数值如表4所示。
通过表4对比可以看出, 9km台距综合参数影响的主观评分等级分布与没有加入载频和调制度偏差时的分布基本相同。可以得出, GY/T 154-2000《调频同步广播系统技术规范》标准中对载频与调制度偏差的设置对音频质量基本没有影响。
3结论
本文提出一种基于PEAQ音频质量评价算法的调频同步广播模型, 保证测试结果最接近人耳的主观感受, 并考虑了FM解调的非线性, 采用统计的方法, 最终得到调频同步网“三同一保”关键参数的音频质量的相关曲线, 从而得到调频同步广播的技术参数及站点的设计依据。总的来说, 本文得出以下几点:
1.根据实验一、二可以得出, 标准中载波、导频的相对频率差≤1×10-9, 调制度设置误差≤3%, 与本文中的结论一致, 且能达到主观评分等级=4及以上。
2.根据实验三、四可以得出, 因为不同接收点从相邻的两个广播台接收节目的时延是无法相同的, 所以造成调频同步广播失真的主要原因是时延差。另外本文得出调频同步广播系统中的音频质量是有损的, 因此接收质量的门槛定为主观评分等级=3为宜。否则两台距离过短, 成本效益会难以接收。
3.根据实验五的得出, 影响调频同步广播音频质量的主要参数是时延。由于现在广播设备中载频与调制度的指标都远高于标准中的参数设置, 特别是加入数字激励器之后, 所以综合考虑“三同一保”参数的时候, 保证等场强区与等时延区重合, 是保证调频同步广播音频质量的关键。
4.本文中得到的覆盖音频质量参数, 模型和音频文件都有存档, 可供广播同行参考, 在同步广播实践中亦得到了印证。但必须指出的是, 以上结果是在理想条件下测得的, 即两个广播台之间没有遮挡, 符合电波在自由空间的衰落。实践中若地形、遮挡等因素存在, 无法做到等场强区与等时延区重合, 接收的音频质量将相应下降。
参考文献
[1]国家广播电影电视总局.GY/T.154-2000调频同步广播系统技术规范[S].北京:国家广播电影电视总局, 2000.
[2]ITU-R Recommendation BS.1387-1-2001, Methodfor objective measurements of perceived audio[S].
[3]王爱华, 黄振飞.数字调频激励器中的信号合成方法[J].北京理工大学学报, 2009, 29 (5) , 436-440.
[4]Y.Lin, W.Abdulla.Objective quality measures for perceptual evaluation in digital audio watermarking[C].IET Signal Processing, 2011, 5 (7) , 623-631
[5]国家广播电影电视总局.GB/T.4311-2000米波调频广播技术规范[S].北京:国家广播电影电视总局, 2000.
[6]Carson, John R.Notes on the theory of modulation[C].Proceedings of the IEEE, 1963, 51 (6) , 893-896.
浅谈提高广播音频声音的质量 篇3
1. 直播类节目
优秀的声学环境是获取高质量声音的基础:其一, 科学的房间构造设计, 避免声学缺陷造成的房间声染色。其二, 房间的墙壁和天花板要采用具有吸声性能的材料, 这样在保证直播间优良隔音性的同时, 还可以降低房间的混响时间, 使录制的人声更加清晰明澈。
如果房间的吸声性能不尽如人意或者预算不高, 我们可以考虑使用近讲传声器作为主持人的话筒, 如经典的动圈话筒SHURE SM58;如果直播间的声学条件很优秀且拥有足够的预算, 我们亦可考虑经久不衰的话筒王——纽曼U87, 可得到还原性最高的人声。
2. 录播类节目
从人声质量上来看, 广播剧和诗歌朗诵具有更高的音质要求, 不但要求人声的质量, 更要在意背景音乐、音效的质量以及人声和音乐的频率融合度, 否则会使听众产生不在同个平面的听感。新闻报道则更注重的是内容, 往往通过录音笔收录的窄频带音源更具有临场感和真实感。
3.版头片花与公益广告
版头片花与公益广告在这里之所以归于一类, 是因为这一类音频作品更多地侧重于文字创意、配音员的情绪把握与制作人的创作思维。在这类音频作品中, 由于文字长度有限, 几乎贯穿全篇的音乐与音效主导了情绪, 而在制作人的后期创作中, 可能还会对人声进行特殊效果处理, 因此听众并不会在原始人声的声音质量上过多留意。
二、制作手法
1. 诗歌与广播剧
(1) 人声频率调节
我们常把人耳听觉域分为四大部分: 低音 (20-150Hz) 决定了声音的深度;中低音 (150-500Hz) 决定了声音的力度;中高音 (500-5KHz) 决定了声音的亮度;高音 (>5KHz) 决定了声音的色度。我们可以根据以上数据作为参考, 适当地调节人声频率, 得到我们最想要的音色。
(2) 人声与音乐的融合
当我们给人声进行配乐时, 是否经常会感觉两者不在同一平面上?这是因为人声和音乐的频率在某些频段上会产生叠加, 使某些频率产生不合谐感, 此时我们要做的就是通过调节音乐的频率微调人声的频率, 将人声包含于音乐当中。耳朵并不能很好地分辨出人声与音乐在哪些频段发生冲突, 此时我们可以借用可视化的效果器 (如waves中的PAZ-Analyzer) 来完成频率融合。在电平上, 我们可以对音乐做自动化调节, 使其在人声出现时自动降低电平, 达到不影响人声的电平值。在声像上, 我们可以适当地将人声靠在中间, 将音乐推向两边, 更加增加了音乐的包围感, 在这里我推荐waves的一款析取中置声道的效果器Center Stereo, 它可以分别对中置声像和左右声像进行电平上的衰减与提升, 有效地将音乐推向两边, 给人声预留足够的空间。
(3) 多段动态压缩
最后步骤就是让所有混合的音轨听起来更自然、更和谐, 我们即将要做的就是一个类似母带处理的过程。一首作品的母带处理, 最主要的工作便是将最终信号做一个多段动态压缩, 达到理想的效果, 之后再加一个干湿比2%-4%的混响, 使所有音轨的内容听起来更像在一个环境中制作而成。
2. 版头片花类
版头和片花是一个节目的门面, 因此音频制作人会不遗余力地使自己制作的版头和片花出现更多的花样, 有可能是多重延迟, 也有可能是深度混响。尽管当今广播信号发射和接收都已经是双声道立体声标准, 然而市面上拥有比例最多的单声道收音机只能接收和播放立体声信号中的一个声道, 或是立体声收音机只配备一只外置扬声器播放, 因而产生了声像混乱。因此, 在制作版头片花类音频节目的时候, 为了使听众听到最原始的效果, 最好不要在声像上大做文章 (如声像的左右滑动) 。
3. 广告音频
在配音员的选择上, 广告音频需要的是高度的声音识别度, 配合饱满夸张的情绪, 使其可以在众多广告中脱颖而出, 因此独特的声线、夸张的表现力是选择广告配音员的两条重要因素。
最后我要提出的是, 在使用数字工作站的当下, 某些工作站在混合压缩后会使最终导出音频出现低频和高频的频率波动, 无法还原出制作时的效果, 这是由工作站内置编码器的强弱和音频采样率及量化比特数决定的。因此, 在选用工作站时我们要选用正版的大品牌工作站 (如Pro⁃tools HD系列) , 在音频制作时最好保证录制的音频、工程文件及最终导出的音频使用同一采样率和量化比特数, 使频率损失降至最低。
综上所述, 生产高质量的广播节目并不仅仅依靠某一环节、某一人员的努力, 而是需要优秀的创作人员撰稿、优秀的录音师录制、优秀的制作人制作、优秀的团队协力完成。
参考文献
[1]河南南阳人民广播电台.广播节目的直播与录播[J].新闻前哨, 2012年第8期
[2]杨志华.录音棚声设计电声技术.2011年第35卷第12期
浅谈专业足球赛事的视音频质量控制 篇4
1.专业足球赛事概述
专业体育赛事,是指某一项体育运动的专业性赛事。如国际田联钻石联赛、ATPI000大师杯、FIVB国际沙滩排球锦标赛等。这类赛事无论是在赛事组织、竞技水平、电视转播和赛事周边等都具有其运动领域内的顶尖水平。
从这方面来讲,专业足球赛事就应该是专门针对足球所举办的赛事。针对足球的特点,专业足球赛事的赛事组织、竞技水平、电视转播更具专业化。2013年,上海广播电视台配合上海市体育局,致力于将中超联赛打造成为一项专业足球赛事。
2.专业足球赛事的特点
与电视转播相关的,专业体育赛事有如下几个特点:
●收视群体素质较高,对足球的专业知识较为丰富,信息需求量较大。转播中,不仅要给出正常的比赛画面,还要结合高科技,采用超高速慢动作、虚拟跟踪、在线数据统计等方式,第一时间提供观众有用的信息,给予大家一定的分析数据;
●赛场的互动性较好。专业足球赛事转播往往是现场与直播同等重要的。在主队的球迷往往会配合现场的大屏幕做出一些鼓励球队的表现,使得整个足球赛事的参与度更高;
●临场感要求高。当今的足球赛事转播,秉承着要电视机成为赛场的最佳位置的理念。提供赛场最佳的观赏位置的赛事信号,成为专业足球赛事转播的标准之一。
二专业足球赛事视频质量的控制
1.专业足球赛事视频质量主观评价要求
专业足球赛事的转播对于主观评价的要求极其苛刻。2013年,SMG电视转播部参考国外先进的转播模式,结合近几年的经验,提出了以下几点要求;
●画面通透、清晰、明亮。必须要合理地控制好光圈、黑电平、杂散光校正、GAMMA等参数值,使整场足球比赛画面通透,清晰,比赛过程中要保持主亮度电平一致、误差小于1%;
●多机位一致性好。专业足球赛事的转播中,各个转播机位的色彩差异必须小于2%。在各个景别中,注意实时调节光圈、黑电平、饱和度、色温、平衡等值,保持这一标准
●能够通过画面来渲染现场气氛。画面色温的调整,要求能够根据制作要求,来渲染现场气氛.传播“文明观赛”的正能量,体现“足球底蕴”的主队色彩。
2.体育场光照分析
根据专业足球赛事的视频质量主观评价要求.笔者特意于2013年赛事开始之初,对上海的三个中超联赛比赛场(虹口足球场、源深体育场、上海体育场)进行了下午与晚间的光照测试。
图1是虹口足球场夜间的灯光照度分布图。从图中可以看出,场地里的主要照度分布在760至8001ux之间,上下仅有5%的差别。那么,对应在WFM波形60%为主亮度的光圈值大约在F4.0~F4,2之间。
这里我们需要关注的,则是看台上的照度。由于虹口足球场的构造关系,南北看台仅有1层,并且上面没有遮挡物,所以照度大约在4301ux之间,大约光圈值为F2.6~F2.7之间。那么东西看台则相对较暗,照度约为2701ux,特别是客队看台,是在二层的,照度仅为2211ux,并且与大部分的机位相隔一个球场,所以画面往往较灰,并且景深小。
图2是源深体育场下午比赛的灯光照度分布图。从数据上可以看出,由于是自然光的照射,无论是球场还是看台,其照度特性比较均匀,大约在3201ux~3401ux之间。相对应的,光圈值就比较大,在F2.0~F2.2左右,景深就相对较小。
由于上海赛区的三个体育场经纬度相差在小数点后3位,几乎可以忽略不计,那么,通过分析,我们得出以下特性:
●下午时间段的比赛,光照较均匀。需要注意的是球场上主观评价的感受,重点是让受阳面和背阳面在主观评价上趋于一致;
●晚间时间段的比赛,场地光照均匀。需要注意的是当摄像机需要来回拍摄场地和球迷的时候,必须要快速调整光圈和黑电平,以保证主观评价的一致性。
3.摄像机的参数调整
根据灯光的分析和2012年全年中超场次的数据记录情况,我们大致对摄像机进行以下步骤的调整:
(1)Marttix
由于是外场拍摄,色彩矩阵是必不可少的元素。根据2012年中超联赛的数据,色彩矩阵的打开与关闭,会对色彩饱和度产生25%的影响,对于色彩色度的准确性也有着一定的影响。如图3所示。
图3上半部分是打开摄像机仅仅做好初始化的摄像机画面,下半部分是打开色彩矩阵后的摄像机画面。仅仅从主观评价上,我们就能分出两幅画面的高下。在波形监视器上看,则更为明显,尤其是箭型图的部分,其饱满程度的差异是非常明显的。
(2)Flare
打开色彩矩阵后,我们就要想着如何做到通透,明亮了。我们时常会发现,体育场地灯光像一层雾帘一般,使得人眼看上去不怎么灰的画面,在摄像机里呈现出来却灰得非常明显。这时候,黑电平的降低往往会十分剧烈,我们就必须要多管齐下,进行杂散光的校正。
图4就是杂散光校正之后的结果。我们可以很明显地看到球场部分和看台的灰度层次减少了。同时,看台的色饱和度也有大约7%~8%的提升。
(3)WHITE RGB
做好了前面两项的基础准备工作,紧接着就是调整色温了。借助波形监视器,我们可以将现场的景物与示波器上的波形对应起来。借助分离钻石图,我们将绿色部分的主场地调整在一条直线上。这就意味着R-G和B-G的比例是一致的,摄像机所呈现的绿色也是最适合人眼观看的色彩。再微调看台和横幅部分的颜色,就基本完成RGB的调整了,效果如图5所示。
(4)GAMMA
按照文艺节目来说,这已经是差不多了。但对于专业的足球赛事还不够。由于我们必须要突出场地的绿色,主队的蓝色(上海申花主色调)这两个基本色。我们还需要调整GAMMA。根据PAL制的色域特性,将主GAMMA调整向上,压缩高亮度部分的色彩,展开低亮度部分的色彩。那么、相对应的,绿色的部分层次更改不大、而蓝色部分的层次明显拉开。这时,才能够真正地做到拍摄球迷的效果与拍摄球场的效果相同,如图6。
(5)KNEE
由于高亮度部分的色彩被压缩,那么更容易造成死白的产生。所以我们要通过拐点进行动态范围的扩容。如7图所示,亮度超过93%,部分的景物已趋于柔和,不是特别耀眼、让眼球的注意力全部关注到死白上面去了。
(6)DETAIL
最后,为了安全播出方面的考虑,特意增加轮廓电平。一是可以增加画面的质感,做到“十分清晰”的要求。二是可以间接地加大景深,大约轮廓电平提升10、从画面上看,景深增加约6%。同时,也是一种气氛的渲染,在清晰的画面中,听到逼真的现场声,让球迷们一下子就血脉膨胀了起来,如图8。
此外,还需要根据不同的镜头,调整参数。特别是大倍率镜头与标镜之间的差异,不可忽略。表1是2012年上海金山体育场的摄像机数据。
三专业足球赛事音频质量的控制
1.专业足球赛事音频质量主观评价要求
与画面相同的,专业足球赛事对于音频质量也有着很高的要求。尤其是主观评价方面,这对于音频来说是核心。SMG电视转播部也就2013中超联赛的音频提出了以下几点要求:
●舒适、自然,给予观众美的享受。观众观看足球赛事直播,是希望看到一场高水平的、能够让自己愉悦的比赛。必须要调整声音的响度和动态范围,使得整场比赛既有效果,又让观众听起来舒适;
●比例恰当。对于观众来说,观看电视直播并不想把现场的气氛完全地带到家里来。合理地处理好球迷加油声和踢球效果声的比例,对于一场足球比赛的好坏是十分重要的;
●适当渲染气氛。现场还需要专门设置两对话筒,用来拾取主队和客队球迷具有代表性的声音。在适当的时候播放出来,能够增加画面的临场感;
●实现部分跟随视频技术。对于球员进场,唱国歌,教练寒暄等画面,要采用音频跟随视频技术,更好地将现场的情况呈现出来。
2.体育场频响分析
根据专业足球赛事的音频质量主观评价要求,笔者于2013年赛事开始之初,对上海的三个中超联赛比赛场(虹口足球场,源深体育场、上海体育场)进行频响的测定,如图9所示。
从图9中我们可以明显看出一个以800Hz为中心频点,630Hz到1kHz为频带的波峰。经过现场声音相比对,确认为现场球迷的欢呼声。800Hz的最值为球迷的敲鼓声。经过观众调研,我们发现,其实这部分的声音并不是球迷们最愿意听到的声音。由于人耳可以根据每个人不同的思想来确定听音环境,就是类似于生物滤波器的功能,那么,我们也必须将这部分波进行衰减,以模仿人耳的真实感受。
从图10中我们也不难发现,以8kHz为中心频点,6.3kHz至10kHz为频带的声音为次波峰。经过对现场麦克风的仔细校对,确认此声音为现场的踢球效果声。这部分其实在现场,人耳是听不到的,理论上应该不予以加强。不过,这却是渲染现场气氛的极好材料。特别是射门时,脚面与足球的撞击声,以及足球击打在门框上的撞击声,能够对听觉神经做出极大的刺激,给予观众超乎寻常的临场感。
3.话筒架设策略
根据以上的分析,并结合2012中超联赛的经验,拟定了2013的场地话筒架设策略,如图11所示。
从图11中我们可以看到,MIC1~MIC12是分别拾取球场上的各种声音.采用强指向性的Sony416话筒。MIC1~MIC8主要拾取球场上的踢球声,MIC1和MIC2还兼顾拾取球门球的踢球声的任务。MIC9-MIC12主要拾取主罚角球时的踢球声。而MIC13~MIC16采用的是全向性Sony418话筒,主要分布在四个看台周围、通过看台上的四台101倍摄像机传输信号。主要拾取主客两队球迷的加油呐喊声。
四总结
通过以上的调整,我们成功地将中超联赛包装为具有一定水准的专业足球赛事。但是,应该看到虽然我们做出了不少努力,依然和欧洲五大联赛的转播存在着不小的差距。2013年亚冠联赛的转播中,国内已经出现了持续性的蜘蛛眼,斯坦尼康的使用;在节目的制作过程中,也进行了在线数据统计的应用。在足球赛事转播日趋艺术化的今天,如何为观众奉献出一场画面精美,现场感强、信息量大的精彩转播,在这个课题上我们依然有很长的路要走。
广播制播网络系统中的音频质量控制 篇5
随着技术的飞速发展, 网络化的制播系统在广电领域的应用日益规模化和成熟化。由于其在资源整合、流程优化和信息共享方面具备充分的优势, 更能满足广播事业未来更多样化业务发展的需求, 重庆广电集团在构建新的广播制播系统时, 充分利用在电视领域的成功技术实践, 创造性地将传统电视台视频制作和播出的诸多概念和环节引入音频制作和播出中, 将视频领域的制、播、存网络架构应用到广播音频制、播、存领域, 建成基于文件化、数字化和网络化的音频节目采、编、制、播、存全流程一体化的高效可靠的新一代广播制播网络系统。
在网络化广播制播系统中, 如何确保音频质量是我们始终关心的重点。借鉴在电视领域推行网络制播系统质量控制的经验, 全面的广播制播系统质量控制应当包括三大方面:
1.在全流程建立完善的技术质量监测和控制体系。
2.选择合适的音频编码文件格式, 减少和控制格式转换次数。
3.重视前期音频质量, 把好源头质量关。
针对以上三点, 我们在流程的相关环节设计、音频格式选择和信号来源上设置了相应的质量控制环节, 确实控制了广播音频质量损失, 做到了心中有数。
1全流程设置质量控制环节
通过制播流程相应环节的质量审核功能, 有效掌控与质量相关的生产过程, 实现全面的质量监测和控制。
网络化广播制播系统业务流程如图1所示。
在网络化的广播制播流程中, 要确保生产制作的正确进行, 审核功能是必不可少的。其中, 对于文稿内容的审核主要为节目选题和内容准备服务, 对于编单相关的审核主要为播出安全和频道定位服务, 对于制作、资源管理的节目审核, 则正是为节目质量控制服务的。
在当前的电视制作流程中, 内容审核和自动技审已经得到了广泛的应用, 我们也将这种较为有效的方式引入到广播制播流程中。
内容审核示意如图2所示。
由图2可见, 来自录音、收录、文件导入、外系统导入和回录的音频文件经过转码后进行编辑制作, 编辑制作完的节目内容审核通过后与文稿进行关联、送播, 在送播的过程中系统会发起自动技审流程, 只有内容审核和自动技审都通过的节目才能进行播出。
若内容审核和自动技审未通过, 则还要返回音频制作工作站进行重新的编辑制作, 直到通过内容审核和自动技审。
由此可知, 音频审核环节串接了系统整个业务流程, 保证了播出节目的高质量。全流程质量控制环节的引入, 使得广播的流程控制从人工控制或者人工+部分软件控制全面转向了系统软件的全流程节点控制。
2全流程采用PCM WAV音频格式
传统的广播音频制作由于带宽和存储容量受限, 以及采用同步至本地的编辑模式, 一般采用S48有压缩的文件格式进行编辑制作, 以减少本地和网络间同步带宽的压力。随着技术发展与进步, 高性能存储体和网络设备成本已经大为降低, 我们构建的网络化广播制播系统, 采用高性能大容量存储和大型数据库, 具备了高带宽、高吞吐、高数据量的能力, 满足了各广播频率集中制作与播出的要求, 带宽和存储容量的瓶颈已经消除。
系统全流程遵循AES/EBU数字音频技术标准, 使用48k Hz采样频率、16bit量化标准PCM编码的WAV文件封装格式进行音频的制作和播出。音频数据在系统内无再次编码和转码环节, 保证了从节目上载、制作到播出的高品质音频, 有效地减小了质量损失并控制了转换环节, 使得制作域和播出域音频文件格式完全一致, 在线播出系统采用高质量音频格式在线实时播出, 确保了高品质的音频广播。
全流程PCM音频格式应用如图3所示。
在全流程采用质量好、通用性强的PCM 48k Hz/16bit音频文件格式, 相对其它格式在质量控制上具有以下优势:
1.播出系统和制作系统的音频文件格式一致, 避免了因格式转换而带来的音频质量损失以及个过程中所无法避免的多代复制损失。
2.统一的音频编码格式, 可以简化网络系统的复杂度, 降低广播网络平台媒资管理系统的设计和管理难度, 减少由于环节增多容易出现的安全隐患, 提高整个播出系统的安全性。
3.几乎所有的音频软件均支持PCM WAV文件格式, 因此即使是由异构系统构成的网络化广播制播系统, 选用的素材在各个子系统均可以直接进行交互和使用, 减少了转码环节, 提升了系统的效率。
4.可以与集团电视系统和其他外部系统直接交互、使用。
此外, 由于我们成功地将Merging公司的Pyramix音频工作站纳入了制播一体化管理, 一方面实现了高端音频制作的网络化, 另一方面, 配合我们选用的PCM 48k Hz/16bit音频文件格式, 直播播出工作站系统可以同时支持24个Mono音轨输出, 这无疑解决了由于实时直播通道有限影响主持人即兴发挥和节目直播播出质量的问题, 为进行高保真立体声广播直播的主持人创造了极大的自由度和良好发挥的空间。
3控制音频信号来源质量
广播制播环境的音频信号格式, 相对电视领域复杂度较小, 可以通过理顺音频信号来源, 对可能引入质量问题的信号源实施重点控制。从上述流程图中可以看出, 其来源主要包括录音、收录、文件导入、外系统导入和播出回录。对于录音和收录的信号, 在设备正常和操作程序正确的情况下, 通常能够保证较好的音频质量并生成正确的音频文件;对于文件导入和外来系统导入的信号, 需要确定外来格式或者文件被正确地传送及转换, 同时转换过程不引入其它影响质量的突发因素;对于播出回录的信号, 可以通过在线实时监听的方式基本确保其音频质量。
4结束语
通过音频质量控制措施并配合相关的安全设置, 我们的网络化广播制播系统能够及时发现并处理各种不安全、不稳定、质量劣化等错误因素, 确保了良好的节目质量, 有助于维护良好的广播工作效率和管理效率。
参考文献
[1]朱强.广播电视新技术[M].浙江大学出版社.2004年.
音频质量 篇6
在以包交换为基础的通信网络中,如IP网和第三代移动通信网络,由于网络拥塞、信道干扰和噪声等原因,实时、全双工和交互的音频及多媒体通信也同样会遭遇网络丢包问题,这将导致音频质量受到严重影响。减小这种因丢包而导致音频质量下降的方法大体分为基于编码器的和基于解码器的抗丢包算法两大类[1]:
(1)基于编码器的抗丢包算法主要有自动重发请求、前向纠错、交织编码和分层编码等。
(2)基于解码器的差错隐藏等算法,如插值、嵌入和复制等。
但这些方法存在时延大、冗余编码容易出错、使用环境受限制、存在误码隐藏等缺陷。
在这种背景下,本文针对目前音频传输中存在的问题,深入研究了多描述算法在音频编码与传输领域的应用。
1 多描述音频编码算法框架
依据一般感知音频编解码器原理,提出了一种新的基于多描述编码技术的具有较好抗丢包性能的高质量音频编解码算法框架,框架的核心思想是在音频信源分析与合成以及量化与编码这两个层面上进行多描述的处理。
首先,在音频信号处理的层面进行多描述的分析与合成。然后,在量化和编码的层面分别对听觉掩蔽门限和听觉剩余信号进行多描述编解码。
1.1 多描述抗丢包音频编码算法框架
图1给出了多描述抗丢包音频编码算法框架原理框图。多描述抗丢包音频编码算法框架的编码过程为:原始音频信号分成两路,一路利用时频分析工具得到频域参数;另一路进行心理声学模型分析得到与当前音频帧相关的听觉掩蔽门限。听觉剩余信号分析利用听觉掩蔽门限去除频域系数中的听觉不相干信息或不相干度得到去除了听觉不相干性的、在听觉意义上白化的剩余信号。然后,将表征本帧音频信号信息的剩余信号和掩蔽门限送给多描述编码器进行多描述处理,得到N个可以进行单独或联合多描述解码的描述,及描述1~描述N;再将这N个描述进行无失真编码(如Huffman编码),以消除信源统计多余度,进一步压缩比特率。最后,分别将形成的N个描述比特流送入信道。其中,描述的个数N一般取2。
1.2 多描述抗丢包音频解码算法框架
图2给出了多描述抗丢包音频解码算法框架原理框图。多描述抗丢包音频解码算法框架的解码过程为:该框架首先接收来自信道的多个描述比特流,并对接收到的描述比特流进行解包和无失真解码;其次,进行多描述解码,分别得到解码掩蔽门限和剩余信号;最后,利用掩蔽门限和剩余信号重构频域音频参数,并对频域音频参数进行时频反变换得到重构音频信号。
2 标量量化多描述编解码算法
2.1 标量量化双描述编解码算法
根据标量量化双描述编解码算法原理[2],图3给出了标量量化双描述编解码原理图。
编解码过程为:信源x通过编码器编码得到索引l,这个过程是一般信源编码器的编码过程;这个索引l再通过匹配函数a(·)匹配成一个索引对(i,j),这个索引对就是这个信源的两个描述,这样就把一个索引匹配成了两个描述,这个过程就是标量量化双描述的编码过程。当描述被送到解码端后,解码端再根据接收到的描述的个数选择一个多描述解码器进行解码:当只接收到一个描述(i或j)时,选择边解码器g0或g2对其进行解码;当接收到两个描述时,选择中央解码器g1对其进行解码。
2.2 标量量化三描述编解码算法
基于双描述三解码器结构的标量量化双描述编解码算法的基础上,本文研究了一种基于三描述七解码器结构的标量量化三描述编解码算法。
图4给出了基于三描述七解码器结构的标量量化三描述编解码原理图。
其过程为:信源x通过编码器编码得到索引l,这个过程也是一般信源编码器的编码过程;索引l再通过匹配函数a(·)匹配成一个索引集合(h,i,j),这个索引集合就是这个信源的三个描述,这样就把一个索引匹配成了三个描述,这个过程就是标量量化三描述编码过程。当描述被送到解码端后,解码端再根据接收到的描述的个数选择一个多描述解码器进行解码:当只接收到一个描述(h,i或j)时,选择边解码器g0、g1或g6对其进行解码;当接收到两个描述(h和i、i和j或h和j)时,选择边解码器g2、g4或g5对其进行解码;当接收到三个描述(h,i,j)时,选择中央解码器g3对其进行解码。
标量量化三描述编解码器各模块功能如下:
a)信源x,此信源可为语音、音频、图像和视频等,在本文中为音频信源;
b)编码器,此编码器为一般的编码器,包括有损和无损的、感知或一般的语音、音频、图像和视频等信源编码器,它把信源x编码为索引l;
c)a(·)是一个匹配器,这部分也是标量量化三描述编解码器中最重要的部分,它把索引匹配成索引集合(h,i,j),其本质是完成了标量量化三描述编码功能,把一个索引标量量化为三个描述(h,i,j)。
d)g0、g1、g2、g3、g4、g5、g6、g7、都是多描述解码器,但功能不同:g0、g1、g6分别是相应单个描述的边解码器,它们在接收到h,i或j后,可分别解码产生信号0ˆx、1ˆx和ˆx6;g2、g4、g5分别是两个描述的边解码器,在接收到h和i、h和j或i和j后,可分别解码产生信号2ˆx、4ˆx或5ˆx;g3是中央解码器,在接收到全部三个描述信号(h,i,j)后,可解码产生信号3ˆx。
下面以一个具体索引值为例说明整个过程:
信源x经过编码器后,索引l值的范围为1~10,即编码器量化x的量化区间共有十个,编码器的量化区间如图5。
根据信源的特点和引入的冗余度,匹配器使用图6来实现匹配函数a(·)的功能,即把索引l匹配成三个描述:h、i和j。
这个匹配过程的本质是用三个三描述标量量化器(分别对应量化后的索引值为h、i和j)来代替单描述标量量化器(对应量化后的索引值为l)。因为调整三描述标量量化器的精度可以控制在三描述之间引入的冗余度,即三个多描述标量量化器的精度越高,引入的冗余度就越高,所以可以设计不同的三维图来实现多种冗余度的三描述标量量化器。这四个量化器的量化区间之间的对应关系如图7所示。
至此,标量量化三描述编码器通过匹配函数a(·)匹配出三个描述,即索引集合(h,i,j),再将这三个描述发送到解码端,解码端的解码过程如下:
(1)当接收到h、i和j时,解码器g3可以根据图6查找到唯一的l值。解码器首先在图6中找到h、i和j分别对应的坐标位置,然后再找到图4.6中三维空间中的值l,这个值就是多描述标量量化前的值。至此,解码器根据h、i和j的值无损的解出信号l。
(2)当只接收到h和i时,解码器g2可以根据图6中的数据估算出l的值。估算的方法有很多种:例如,解码器g2可以把图6中垂直于h轴的平面和垂直于i轴的平面相交线上对应的数据的平均值、最大值或最小值作为l的值。
(3)当只接收到i和j时,解码器g4可以根据图6中的数据估算出l的值。估算的方法和(2)一样。
(4)当只接收到h和j时,解码器g5可以根据图6中的数据估算出l的值。估算的方法和(2)一样。
(5)当只接收到h时,解码器g0可以根据图6中的数据估算出l的值。估算的方法有很多种:例如,解码器g0可以把图6中垂直于h轴的平面上对应的数据的平均值、最大值或最小值作为l的值。
(6)当只接收到i时,解码器g1可以根据图6中的数据估算出l的值。估算的方法和(2)一样。
(7)当只接收到j时,解码器g6可以根据图6中的数据估算出l的值。估算的方法和(2)一样。
3 标量量化多描述编码测试结果对比分析
表1和表2列出了的单描述、双描述和三描述客观测试结果。与单描述编码相比,双描述和三描述的编码分别增加了25%和50%的编码比特率,也就是每多一个描述,我们增加25%的比特率用以对增加的描述产生的多余度进行编码。
从客观测试的对比的结果来看,编解码采用多描述(双描述或三描述)编码的方法带来的好处是非常明显的。从表1和表2中可以看到,采用多描述的算法的编解码器的抗丢包性能都比单描述算法的抗丢包性能好虽然对于语音信号,三描述算法在理想信道情况下不如单描述算法的音质,但是在非理想信道模式下,随着丢包率的增加,三描述算法的音质下降得比较慢,并最终超过了单描述算法的音质,所以采用多描述算法的感知编码器都有很好的抗丢包性能。对于音乐信号,三描述的抗丢包性能比双描述的抗丢包性能好;对于语音信号,三描述的抗丢包性能和双描述的抗丢包性基本相同。
4 结语
本文依据感知音频编解码器基本原理提出了一种多描述抗丢包感知音频编解码算法框架,研究了标量量化双描述编解码算法,提出了标量量化三描述算法,但并未囊括所有的多描述算法研究和设计的多描述抗丢包音频编解码算法框架和多描述算法能够在较高的丢包率(20%-30%)时能够
保持自然的音频和语音质量,在严重丢包(40%-60%)时仍能够保持较好的音频和可懂语音质量。
摘要:本文依据感知音频编解码基本原理,研究和设计了一种基于多描述编码技术的高质量音频编码算法。这种算法具有较好抗丢包性能,算法的总体思路是先在分析与合成的层面上把音频分解为听觉掩蔽门限和剩余信号,然后在量化和编码层面上分别对音频的听觉掩蔽门限和剩余信号进行多描述处理。结果表明,在所提出的多描述抗丢包音频编解码算法框架下,多描述算法的抗丢包性能明显优于单描述的抗丢包性能,标量量化多描述算法的抗丢包性能比奇偶分离双描述算法和对偶变换双描述算法的抗丢包性能都要好。
关键词:音频编码,多描述编码,信源编码,多媒体通信,数据压缩
参考文献
[1]C.Perkins,O.Hodson,and V.Hardman,“A Survey of Packet Loss Recovery Techniques for Streaming Audio,I”EEE network,vol.12,no.5,pp.40-48,Sept-Oct 1998.
[2]Vaishampayan V A,“Design of multiple description scalar quantizers,”IEEE Trans.Information Theory,vol.39,pp.821-834,May 1993.
[3]M.Orchard,Y.Wang,V.Vaishampayan,and A.Reibman,“Redundancy rate distortion analysis of multiple description image coding using pairwise correlating transforms,i”n Proc.IEEE Int.Conf.Image Processing(ICIP’97),vol.I,Santa Barbara,CA,pp.608–611,Oct.1997.
[4]Y.Wang,M.T.Orchard,V.Vaishampayan,and A.R.Reibman,“Multiple description coding using pairwise correlating transforms,”IEEE Trans.Image Processing,vol.10,pp.351-366,Mar.2001.
数字音频压缩编码及音频播放器制作 篇7
1 音频信号处理基本概念
1.1 模拟音频与数字化音频
自然的声音是连续变化的, 它是一种模拟量。比如当人们对麦克风讲话时, 麦克风能根据它周围空气压力的不同变化而输出相应连续变化的电压值, 这种变化的电压值是对人讲话声音的一种模拟, 称为模拟音频。要将模拟音频变为计算机能存储和处理的对象, 必须将模拟音频数字化。
数字化音频的获得是通过每隔一定的时间测一次模拟音频的值并将其数字化, 通常包括采样、量化和编码。每秒钟采样的次数称为采样频率。根据采样定理, 只要采样频率等于或大于模拟音频信号中最高频率成分的两倍, 信息量就不会丢失, 即可以由采样后的离散信号不失真地重建原始连续的模拟音频信号, 否则就会产生不同程度的失真。采样定律用公式表示为:fs≥2F或Ts≤T/2, 其中f为被采样信号的最高频率。
由模拟量转变为数字量的过程称为模-数转换。计算机要利用数字音频信息驱动扬声器发声, 还需要将离散的数字量再转变为连续的模拟量, 该过程称之为数-模转换。在大多数计算机中, 这些功能是通过声卡来完成的。音频信号的一般处理如图1所示。
1.2 数字化音频信号的压缩编码
1.2.1 数字化音频信号压缩编码简介
数字化的音频信号必须经过压缩编码处理才能适应存储和传输要求, 才能在再生时得到最好音质的声音听觉。音频信号压缩编码主要依据人耳的听觉特性。人的听觉系统中存在一个听觉阈值电平, 低于这个电平的声音信号人耳听不到, 可以不必保留这部分信号;当几个强弱不同的声音同时存在时, 强声使弱声难以听到, 当声音在不同时间先后发生时, 强声使其周围弱声难以听见。声音编码算法就是通过这些特性来去掉冗余数据, 从而达到压缩数据的目的。
一般来讲, 根据压缩后的音频能否完全重构出原始声音可以将音频压缩编码技术分为无损压缩及有损压缩两大类。无损压缩包括不引入任何数据失真的熵编码;有损压缩包括波形编码、参数编码和同时利用这两种技术的混合编码方法。波形编码利用采样和量化过程来表示音频信号的波形, 使编码后的波形与原始波形尽可能匹配。波形编码的特点是在较高码率的条件下可以获得高质量的音频信号, 适合对音频信号的质量要求较高和高保真语音与音乐信号的处理。典型的波形编码包括脉冲编码调制 (PCM) 、差值量化 (DPCM) 、自适应量化 (APCM) 、自适应差值量化 (ADPCM) 等。参数编码把音频信号表示成某种信号的输出, 利用特征提取的方法抽取必要的模型参数和激励信号的信息, 并对这些信息编码, 最后在输出端合成原始信号。参数编码的压缩率很大, 但计算量大, 保真度不高, 适合于语音信号的编码。典型的参数编码有线性预测LPC编码等。混合编码介于波形编码和参数编码之间, 集中了这两种方法的优点。典型的混合编码有多脉冲线性预测MP-LPC、码本激励线性预测CELP等。
1.2.2 常见音频压缩编码方式
常见的音频压缩编码有MPEG-1音频压缩编码、MPEG-2音频压缩编码、杜比数字AC-3音频压缩编码等。
(1) MPEG-1音频压缩编码
ISO/IEC的MPEG音频编码的标准化采用了两种编码算法:MUSICAM和ASPEC。以这两种算法为基础形成了3个不同层次的音频压缩算法, 对应不同的应用要求并具有不同的编码复杂度。在MPEG-1的音频编码标准中, 按复杂度规定了3种模式:层1、层2、层3。层1采用MUSICAM算法, 典型码流为384kbps, 主要用于小型数字盒式磁带。层2等同于MUSICAM称为掩蔽模式通用子带集成编码与多路复用, 典型码流为256kbps~192kbps, 广泛应用于数字音频广播、数字演播室等数字音频专业的制作、交流、存储和传送。层3是综合了层2和ASPEC的优点提出的混合压缩技术, 它的复杂度相对较高, 编码不利于实时, 主要应用于因特网上高质量声音的传输。如今流行的MP3音乐就是一种采用MPEG-1层3编码的高质量的数字音乐, 它能以10倍左右的压缩比降低高保真数字声音的存储量, 使一张普通的CD光盘上可以存储大约100首MP3歌曲。层3是MUSICA和ASPEC两个算法的结合, 典型码流为64kbps。
MPEG压缩等级与压缩比率如表1所示。
ISO/MPEG音频编码 (层3) 结构图如图2所示。
MPEG-1层3中采用改进余弦变换MDCT。MDCT的表达式为:, 其中k=0, …, N/2; (固定时间偏移量) 。余弦变换在边界处存在固有的不连续性, 导致在块边界处产生较大噪声, MDCT采用域混叠抵消TDAC技术, 有利于消除这种噪声。做MDCT前要进行加窗处理: (是窗函数, 它的长度等于变换块N的长度) , 从而降低边界效应对谱分析的影响, 提高频率选择性。窗函数的选择必须满足。窗函数越长, 编码效率就越高, 但是过长会使时域分辨率下降, 选择窗函数应该兼顾编码效率和时域分辨率。
PCM数据输入经过分析滤波组被分割成若干子频带信号, 同时数据流经过FFT变换模块, 动态求出每个编码频带的掩码阈值。MDCT对滤波器组的不足作了一定的补偿, 把子带的输出在频域里进一步细分以达到更高的频域分辨率。比例设置和量化器模块根据掩码阈值对子频带信号进行量化, 量化后得到的数据分别经过Huffman编码模块和边信号编码器模块进行编码, 再经过多路复用器MUX得到码流。
(2) MPEG-2音频压缩编码
MPEG-2的音频压缩编码采用与MPEG-1相同的编译码器, 层1、层2、层3的结构也相同, 但它能支持5.1声道和7.1声道的环绕立体声。
MPEG-2 BC是一种类似MP3的音频压缩算法。MPEG-2BC压缩编码主要是在MPEG-1和CCIR Rec.755的基础上发展起来的。与MPEG-1相比较, MPEG-2主要在两方面做了重大改进, 一是支持多声道声音形式;二是为某些低码率应用场合, 进行低采样率扩展。同时, 标准规定的码流形式还可与MPEG-1的第1和第2层前、后向兼容, 并可依据CCIR Rec755与双声道、单声道形式的向下兼容, 还能够与Dolby Surround形式兼容。
MPEG-2 AAC是MPEG-2标准中的一种非常灵活的声音感知编码标准。就像所有感知编码一样, MPEG-2 AAC主要使用听觉系统的掩蔽特性来减少声音的数据量, 并且把量化噪声分散到各个子带中, 通过全局信号把噪声掩蔽掉。在MPEG-2的正式听音测试中, 数据流速率为320kbps的AAC可以提供比数据流速率为640kbps的MPEG-2 BC更好的音质。因此AAC是一种比MPEG-2 BC编码算法更好的音频压缩算法, 而且可以适用于各种环境下, 如可以做电视信号的伴音等。它的主要缺点是后向兼容性不好。
(3) 杜比数字AC-3音频压缩编码
杜比数字AC-3是美国杜比实验室开发的多声道全频带声音编码系统, 采用第三代ATC技术, 被称为感觉编码系统, 它将特殊的心理音响知识、人耳效应的最新研究成果与先进的数码信号处理技术很好地结合起来, 形成了这种数字多声道音频处理技术。它提供的环绕立体声系统由5个 (或7个全频带声道加一个超低音声道组成, 所有声道的信息在制作和还原过程中全部数字化, 信息损失很少, 细节十分丰富, 具有真正的立体声效果, 在数字电视、DVD和家庭影院中被广泛使用。
AC-3编码原理结构图如图3所示。
PCM数据流经分析滤波器组变换成频域信号, 频谱信号以二进制浮点形式表示, 将频谱信号的指数和尾数部分分别处理。指数部分由频域包络模块处理, 采用差分编码, 编码后的指数部分代表整个信号的频谱, 可以作为频谱包络参数, 供比特分配模块处理, 从而动态求出比特分配信息。尾数部分按照比特分配信息进行量化编码, 量化编码后的尾数与频谱包络编码数据流一起按照AC-3数据帧打包组帧, 形成AC-3码流。
1.3 声音的重构
模拟音频要经过采样、量化和编码, 就能得到便于计算机处理的数字语音信息, 如果要重新播放数字化语音, 必须经过解码、D/A转换和插值, 其中解码是编码的逆过程, 又称解压缩。以ISO/MPEG音频解码 (层3) 为例, 结构图如图4所示。D/A转换是将数字量再转换为模拟量便于驱动扬声器发声;而插值是为了弥补在采样过程中引起的语音信号失真而采用的一种措施。声音重构的一般过程如图5所示。
2 音频播放器简介
文中介绍的音频播放器如图6所示, 该音频播放器能实现mp3、wav、mid、wma等格式音频文件的播放。
3 音频播放器制作过程
3.1 音频播放器制作中所需控件及变量设置
3.1.1 所需控件
TMediaPlayer控件 (可以通过MCI播放多种多媒体文件, 如mid、mp3、wav、cd音乐文件和avi、wmv文件等) 、3个TEdit控件 (分别显示正在播放文件的时间进度、正在播放文件的信息、重复播放区域的设置) 、若干TBitBtn控件 (用于对文件进行操作) 、TListBox控件 (用于显示播放列表) 、TTrackBar控件 (用于控制播放的音量和播放的进度) 、以及TTimer控件和TOpenDialog控件。
3.1.2 设置变量
说明:在程序代码中出现的其他变量为控件中的局部变量。
在Form中设置全局变量:
3.2 音频播放器各功能模块
在此仅介绍较为复杂的功能。
3.2.1 文件打开
该模块的功能是打开若干需要播放的文件, 并把这些文件加载到ListBox当中, 形成播放列表。若列表框中无任何文件, 则直接将打开的文件加载到列表框中;若列表框中已有文件, 则将打开的文件与列表框中已有的文件逐个进行比对, 判断文件是否已经加载过, 若已经加载过, 则不加载。在此功能模块中, 需要利用数组变量SongDir记录加载进去的文件的路径 (不包括文件名) , 并利用变量addfileflag判断是否为第一次添加播放文件, 如果是则自动选中播放列表中的第一首歌曲并显示该文件的信息, 同时改变变量addfileflag的值, 保证以后添加进去的播放文件不影响正在播放的文件。文件打开功能模块处理流程如图7所示。
3.2.2 静音
该模块的功能是在播放文件时, 按下此按钮, 则产生静音效果, 再次按下时, 声音恢复, 从而实现静音的功能。实现此功能需要在该模块程序中控制变量sound_sign的变化。该功能是通过Windows API函数waveoutsetvolume来实现, 在使用该函数之前, 必须引用mmsystem单元, 并且为该按钮在静音和非静音时加载不同的图片, 从而清楚地显示声音处于何种状态。
3.2.3 设置播放
设置重复播放的开始位置功能, 设置重复播放的结束位置功能, 清除重复播放区域, 播放重复区域功能:
(1) 设置重复播放的开始位置主要需要将TrackBar2.Position即播放的当前位置记录在变量startpos1中, 并将开始时间点显示在Edit3当中。部分程序代码及说明如下:
设置重复播放的结束位置主要需要将TrackBar2.Position即播放的当前位置记录在变量endpos1中, 并将结束时间点显示在Edit3当中。部分程序代码及说明如下:
运行时设置好的重复播放区域如图6中A所示。
(2) 在显示设置的开始时间点和结束时间点时, 需要用到自定义函数calculate () , 该函数的功能主要是根据提供的播放进度, 将其转换为时间格式的字符串, 以方便显示。播放进度是以毫秒 (Milliseconds) 为计数单位的。输入播放进度, 返回字符串类型的时间数。该自定义函数calculate () 在后面讲述的歌曲信息的显示以及文件播放时间进度的显示中也有重要的应用。
(3) 清除重复播放区域主要需要将变量startpos1、endpos1设置为0, 并将播放模式变量mode设置为0, 即正常播放模式。
(4) 播放重复区域主要用到TMediaPlayer控件的StartPos、EndPos、Position属性以及Play方法。StartPos属性设置为StartPos1, EndPos属性设置为EndPos1, Position属性设置为StartPos1, 并将播放模式变量mode设置为1, 即重复播放指定区域模式。
(5) 在制作播放器时, 需要引进一个重要控件—计时器TTimer, 该控件的Interval属性设置为1000, 计时器的主要功能是显示文件的播放时间进度 (如图6中C所示) 、根据播放模式进行播放 (如果是重复播放指定区域模式且当前播放位置超过指定结束位置时, 从指定开始位置重复播放;如果是正常播放模式且歌曲播放结束, 在该首歌曲不是最后一首的情况下, 自动播放下一首歌曲, 从而实现自动播放下一首歌曲功能) 。在上述的播放、暂停、停止、清除重复播放区域功能中都需要在程序中设置TTimer控件的Enabled属性, 控制计时器TTimer是否工作。
3.2.4 删除
逐个删除歌曲播放列表中歌曲的功能, 全部删除歌曲播放列表中歌曲的功能。
实现逐个删除功能需要判断ListBox1中的歌曲条目是否处于选中状态, 如处于选中状态, 则调用ListBox1的Delete方法来完成选中歌曲的删除。实现全部删除功能只需要利用ListBox1.Clear即可。
3.2.5 歌曲信息显示
歌曲信息的显示主要是通过调用自定义过程ShowInfo (Sender) 来实现的。自定义过程ShowInfo (Sender) 主要需要设置TMediaPlayer控件的FileName属性、调用TMediaPlayer控件的Open方法、在窗体的标题栏上显示完整的文件路径、调用自定义函数calculate () 在Edit2中显示文件的时间长度及文件名、设置全局变量startpos和endpos的值、设置TrackBar2的min和max属性。歌曲信息的显示如图6中B所示。
3.2.6 自动加载历史播放记录
在实际情况中, 媒体播放器都是应该有记忆功能的, 即保存文件播放列表, 在下次打开播放器的时候自动加载该列表。要想实现这一功能, 需要在退出程序的时候, 将文件播放列表保存到INI文件当中, 当再次运行程序时, 从INI文件中读取信息即可。在Delphi中提供了TIniFile类用于操作INI文件, 该类在inifiles单元文件中, 在使用该类文件时, 需要引用inifiles单元。
在窗体关闭过程FormClose (FormClose过程需要映射为OnClose) 中, 需要在该项目生成的可执行文件目录下创建名为-----recentplay.ini的文件, 用于存放播放列表。并将每首歌曲的文件路径 (不包括文件名) 、每首歌曲的文件名、播放列表中文件的总数记录在recentplay.ini文件中。保存文件播放列表处理流程如图8所示。
在创建窗体过程FormCreate中, 判断recentplay.ini文件是否存在, 如果存在的话, 将recentplay.ini中保存的文件名逐个加载到列表框中, 同时利用数组变量记录每个文件的路径 (不包括文件名) 。最后还需要设置变量addfileflag的值, 保证以后添加进去的播放文件不影响正在播放的文件, 并自动播放历史记录中的第一首歌曲。加载历史播放记录流程如图9所示。
在创建窗体过程中还需要设置初始音量的大小、播放模式变量mode、静音标志变量sound_sign、暂停标志变量flag的初始值。
4 结语
随着经济与科技的飞速发展, 促使计算机技术和电子技术的发展突飞猛进。音频信号的处理做为多媒体处理的一个重要分支, 已经深入到人们的工作、学习、生活当中。可根据不同的应用场合或者不同的技术要求, 采用不同的数字音频压缩编码技术。我们在音频信号处理方面的研究仍待继续深入, 提出新的数字音频压缩编码方法或者改进现行的压缩编码方法以适应实际应用的需求。文中利用应用软件Delphi设计的音频播放器, 经过调试和测试, 实现各种音频文件的播放和文中所述的各种功能, 具有一定实际应用价值。
摘要:结合应用软件——Delphi, 介绍制作音频播放器的过程, 并利用音频播放器实现mp3等格式音频文件的播放。该音频播放器具有处理重复播放区域、删除歌曲播放列表中歌曲、歌曲信息以及播放时间进度的显示、自动播放下一首歌曲、自动加载历史播放记录等诸多功能。
关键词:音频信号,数字音频压缩编码,音频播放器
参考文献
[1]陈洪光, 林嘉宇, 易波.数字音频压缩技术研究[J].通信技术, 2000, (2) :68-71.