音频内容认证

关键词: 认证 内容 音频

音频内容认证(精选四篇)

音频内容认证 篇1

关键词:音频内容认证,小波包变换,最优基

0引言

随着数字音频处理技术和互联网技术的快速发展, 音乐和语音等各种形式的数字音频作品的编辑和传输都变得极其便利, 由此也造成了信息篡改的隐蔽性。由于数字信号的可编辑性, 经过互联网传输后的音频信息的真实性受到了怀疑, 因此需要一个安全的音频认证系统来验证音频内容的完整性和真实性。

音频认证可以分为硬认证、基于质量和基于内容的软认证等三种[1]。硬认证只允许格式转换和无损压缩, 基于质量和内容的软认证则分别允许一些保持听觉质量或语义的音频处理。由于在传输过程中从发送端到接收端音频数据可能会受到如码率控制、调幅、MP3压缩等多种中间处理, 以使在资源允许的情况下得到最大的接收质量。因此, 在绝大多数应用环境下, 需要对音频进行与人类听觉感知系统特性相符合的基于内容 (语义) 的软认证。对于保持内容的操作, 应当可以通过认证, 而对内容经过恶意篡改的音频应该认证失败。

区分保持内容操作和恶意操作与特定应用有关, 没有统一的区分规则。本文仅对一般听觉应用场合下保持语义的软认证系统中常见的音频信号处理分类如下:

保持内容的操作:中等强度的MP3编码、RM编码、WMA编码;重采样;去噪等常见音频处理。

恶意操作:样本的随机减切、插入和替换, 高强度的有损压缩、时间缩放等改变音频语义的操作。

一般, 基于内容的音频软认证系统应满足以下条件:

其中 (1) - (6) 是必须实现的, (7) - (10) 不是绝对必须的。

(1) 能够抵抗有损压缩;

(2) 能进行盲检测;

(3) 引入的噪声应该不可察觉;

(4) 能抵抗在传输信道中的内容保持操作;

(5) 认证数据量应该足够小;

(6) 能检测局部恶意修改;

(7) 发送端和接收端计算代价低;

(8) 能够指示篡改的准确位置;

(9) 认证数据与宿主数据的无缝集成;

(10) 能够对被篡改区域进行近似恢复。

典型的基于内容的音频认证系统的结构[2]如图1所示, 其中上图为音频数字签名的产生过程, 下图为经过传输后在接收端音频的认证过程。

系统中最重要的部分是特征的提取和Hash值的产生。为了能将恶意的攻击和保持内容的音频信号处理区分开, 音频认证系统提取的特征值需要具备代表性。同时为了减少在存储特征值及进行认证时的信息量, 通常需要使用Hash函数将特征值转换为由0和1构成的Hash值串 (即数字签名) , 并将Hash值嵌入或追加到原始数据中。这里要注意区分音频认证系统中的Hash函数与普通Hash函数的区别:传统的Hash函数通常用于加密, 这类函数输入长数据, 输出固定长度的Hash值, 在输入端有任意微小的变化, 都会引起输出值的截然不同;而音频认证系统中的Hash函数 (也称指纹函数) 必须具有可感知的近似性 (Perceptual similarity) [3], 即两段相似音频的Hash值应该一样, 也就是说在经过保持内容的音频信号处理后产生的特征值经Hash函数输出后应与原始音频的Hash值一致或非常相似, 而经过恶意操作后的音频产生的特征值经Hash函数输出后应该变化明显。

音频认证系统中, 算法产生的Hash值可被嵌入或追加到原始音频中, 出于安全性的考虑, 这些Hash值通常需要先进行加密。采用基于密钥K的两个完全不相关的伪随机序列PN (0) 和PN (1) 来代表Hash值中的0和1是一种比较好的方法[4]。这样做的好处是在检测音频数字签名时只需判断哪个伪随机序列与嵌入数字签名的相关性高, 从而可以避免在检测时设定阈值时的主观性。Hash值的嵌入需充分考虑感知透明性和检测时的鲁棒性, 目前已有很多算法[5,6,7] (包括很多鲁棒的音频水印的嵌入算法) 实现了在音频中成功地嵌入和检测信息, 而对数字签名的提取研究较少。因此, 本文只对基于内容的音频认证系统中的数字签名的产生进行研究。

基于上述分析, 本文提出一种采用小波包最优基分解的音频内容软认证算法, 通过计算被优选的小波包系数标准差的比值提取特征值并形成音频数字签名。实验结果证明该算法对MP3、WMA、RM等中等强度的有损压缩、添加噪声、滤波、平滑等保持内容的操作具有很强的鲁棒性, 而对局部替换、修改、删除、复制音频的恶意操作脆弱, 因此可将保持内容的信号处理与恶意篡改等操作有效地区分开来。

1小波包变换及最优小波包基的选择

特征提取是音频数字签名生成的关键步骤。在实际信号尤其是非平稳信号的处理中, 信号在任一时刻的频域特征都很重要, 因此需要使用能将时域、频域信息结合起来描述信号的时频分析方法, 目前使用较多的时频分析方法有小波和小波包变换方法。

小波包变换 (Wavelet Packet Transform) 是一种有效的信号时频分析工具, 能够有效刻画信号的特性并反映其变化细节, 是小波变换的重要扩展。正交小波分解过程中, 低频 (近似) 系数被进一步分解成低频和高频 (细节) 系数, 而高频系数不再被分解;小波包变换则提供了更为丰富和精确的信号分析方法:图2显示了尺度为3的小波包变换, 信号的低频部分和高频部分被同时分解, 因而保留了信号的完整能量信息, 可更精确地反映局部情况[8]。

根据小波包的组织方式, 对于给定的正交小波, 一个长度为N = 2L的信号最多可以有2L种不同的分解方式, 这正好是一个深度为L的完整二叉树的子树数目, 数量非常庞大。在完整的二叉树结构中, 并非每个节点都有必要进一步分解为两部分, 这就产生了如何实现小波包最佳分解的问题。因此需要根据一个简单可行的原则来寻找一种最佳的树结构 (或最优小波包基) , 最小熵标准就是其中之一[9]。

基于最小熵的最优小波包基生成步骤是:

·计算每一结点的熵值e;

·沿叶子结点向根结点, 对非叶子结点N, 如果e1<= e2 (e1是结点N的熵值, e2是结点N的子结点的熵值总和) , 那么结点N将被保留作为最优树的一个结点, 其下的子结点被去除;否则结点N的熵值被e2替代, 子结点保留;

·上述方法按从左到右、从下往上的顺序依次进行最优基的选择, 直到根结点为止, 最终得到整棵最优树, 也就是最优基的集合。

图2各结点中的数值为结点的熵值, 填充底纹的结点为小波包树在基于上述步骤的最优基选择后保留的叶子结点。

最优基的选取使整个小波包以及每个结点的分解都得到了优化。信号分解后小波包系数彼此有较大差别, 主次明显, 容易舍去非关键数据和保留关键的数据。其实质是在信息损失较少的前提下, 使信号中隐含的信息能集中反映在少数几个分解系数上以实现信号的分解和重建, 为信号处理中系数的取舍和减少数据量以提高处理速度及减少存储空间等提供前提条件。

2音频认证算法

2.1数字签名提取

音频数字签名提取算法如图3所示。

·预处理 输入音乐被转换为16 bits/sample, 采样率44.1 kHz的单声道信号。

·分帧 音乐信号被分解为帧, 每帧使用Hamming窗以平滑帧边缘。实验中帧长取2048。

·小波包分解及最优基选取 采用“db1”小波对每帧音乐信号进行三层小波包分解, 然后使用基于最小Shannon熵的最优小波包基生成算法求出最佳子树。

·统计量计算 对最佳子树每个叶子结点所对应的系数计算:第K帧信号叶子结点所对应的系数的标准差STDK和完整音频的系数标准差TSTD

SΤDΚ=1mi=1m (coefki-coefk¯) 2 (1)

其中, coefki表示第K帧信号的第i 位系数, coefk¯表示第K帧信号系数的平均值, STDK表示第k帧信号的系数的标准差, 同理可计算出被测完整信号的系数的标准差TSTD

·Hash值生成及音乐数字签名生成 将上述所有帧的STD分别与TSTD比较, 每帧产生一位Hash比特值。

h (k) ={1ifSΤDk>=ΤSΤD0otherwise

(2)

将所有的Hash位连接起来即构成该音乐的数字签名H。

3实验结果

实验结果主要用于验证使用本算法生成的数字签名是否能有效检测保持内容的信号处理和恶意篡改。

3.1常见信号处理下的性能测试

我们选择四段风格各异的音乐, 包括classica, folk、R&B和POP4种类型, 每段音乐长10.5秒, 单声道, 44.1kHz, 16bits/sample。每一音乐片段都将经过一些常见音乐信号处理后提取数字签名, 并分别与原始数字签名进行比较, 输出误码率 (BER) 作为未知音乐数字签名和原始音乐数字签名间的相似性测量标准。

本实验采用的信号处理均采用音乐编辑软件Cooledit和鲁棒性测试软件Stirmark for audio完成, 实验参数标在括号中。被攻击的音乐数字签名和原始音乐数字签名的比对结果见表1。

实验数据显示, 对于以上常见的信号处理, 除了最后两项的信号处理, 其它所有的误码率均低于0.06, 对于Internet上常见的音频编码: MP3、WMA和Real Media编码, 误码率均较低, 可以说达到了较高的鲁棒性, 因此可以认定相应的音频数据通过认证。而对最后三项操作, 因为其操作本身具有明显的改变信号质量的特征, 检测得到高误码率, 因此, 不能通过认证。

3.2恶意篡改下的性能测试

由于恶意操作通常对音频的局部进行修改, 因此单凭BER无法简单判别是否能通过检测, 还需要通过时间轴上的信号比对来进行判断。如果信号的改变是局部的, 那么可以判定是恶意篡改, 若在整个时间轴上信号都有细微的变化, 则可认为是保持内容的操作 (如图4所示) 。

(1) 局部替换

将1.805s到2.805s的音频用8.522s和9.522s处的音频替换后, 算法检测发现40~60的共计21个帧的检测错误。经计算, 该段音频对应第39帧的后半段的一小部分, 40帧到60帧的整帧, 61帧前半段的一小部分, 说明算法能够较准确地定位到相应被替换的帧。虽然检测得到的BER为0.0933, 但不能通过认证。

(2) 随机复制

复制一段长为0.166s的音频片段到4.443s处, 检测发现从第96帧处开始出现连续4帧的错误, 分别为96、97、98、99帧。经计算, 被嵌入的片段对应第95帧的极少部分, 96~98的完整部分及第99帧的大部分, 因此, 定位准确。同时, 嵌入音频造成音频数字签名的位数增加, 99帧后出现一串不连续错误, 因此不能通过认证。

(3) 随机剪切

减切9.3262s到结尾处的音频, 经计算, 该段音频对应第224帧的极少部分及最后一帧, 检测发现最后一个BIT丢失, 那么从验证的角度来说不能通过。同样, 减切信号中间任意位置的片段, 会造成数字签名的位数减少, 同时在剪切位置后会产生一连串的检测错误, 因此, 不能通过验证。

实验结果显示, 在一般情况下, 本算法可有效识别上述恶意的信号处理, 并能比较准确地定位篡改方式及被篡改位置。

4结论

本文提出一种基于小波包最优基分解的数字签名算法, 利用与音频内容密切相关的小波包系数作为特征进行语义级的认证。小波包分解及最优基的选择, 不仅使信号的分析更丰富和精确, 同时使信号中隐含的信息集中反映在少数几个系数上, 使提取的音频数字签名对常见的音频信号处理具有高鲁棒性, 对恶意篡改则具明显的脆弱性, 可定位被篡改的方式和位置, 有效验证音频内容的完整性和真实性。今后对本算法的改进将着重于对被篡改音频的近似恢复。

参考文献

[1] Zhu B B, Swanson M D, Tewfik A H.When seeing isn't believing.IEEE Signal Processing Magazine, March 2004, 21 (2) :40-49.

[2]Radhakrishnan Regunathan, Memon Nasir.Audio content authenticationbased on psycho-acoustic model.Proceedings of the Security and Wa-termarking of Multimedia Contents, February 2002, San Jose, CA.

[3]Mihck M K, Venkatesan R.A perceptual audio hashing algorithm:atool for robust audio identification and information hiding.Proceedingsof 4th International Information Hiding Workshop, April 2001, Pitts-burgh, PA.

[4]Shoemake Chris.Hidden bits:a survey of techniques for digital water-marking.http://www.vu.union.edu/~shoemakc/watermarking/wa-termarking.html.

[5]Li Xin, Yu Hong Heather.Transparent and robust audio data hiding insubband domain.Proceedings of International Conference on Informa-tion Technology:Coding and Computing, 2000:74-79.

[6] Lu Chun Shien, Mark Liao Hong Yuan, Chen Liang Hua.Multipurpose audio watermarking.Proceeding of.15th International Conference on Pattern Recognition, Barcelona, Spain, 2000:286-289.

[7]Nedeljko Cvejic, Seppanen Tapio.Fusing digital audio watermarkingand authentication in diverse signal domains.Proceeding of EuropeanSignal Processing Conference, 2005:84-87.

[8]Graps Amara.An introduction to wavelets.IEEE Computational Sci-ences and Engineering, Summer 1995, 2 (2) :50-61.

蓝牙认证中音频设备连接方法研究 篇2

1 蓝牙技术及其产品认证

蓝牙技术是无线数据和话音传输的开放性标准,主要用于解决短距离的无线连接,一般为10 cm~10 m的范围。蓝牙工作在2.4 GHz的ISM(Industrial,Scientific,Medical)频段,采用GFSK跳频技术和时分双工(TDD)技术,在发射机频率为1 MHz时,通信距离为10 m左右,有效的蓝牙数据传输速率是721 kb/s。蓝牙技术能够有效地简化掌上电脑、笔记本电脑和移动电话手机等移动通信终端设备之间的连接,并且能够成功地简化以上这些设备与因特网之间的通信,从而使这些现代通信设备与因特网之间的数据传输变得更加迅速高效,为无线通信拓宽道路。通俗地讲,蓝牙技术使得现代一些轻易携带的移动通信设备和电脑设备不必借助电缆就能联网,并且能够实现无线连接因特网。其实际应用范围还可以拓展到各种家电产品、消费电子产品和汽车等信息家电,组成一个巨大的无线通信网络。

1998年5月,Ericsson、Nokia、Intel、IBM和Toshiba等5家公司组成的“蓝牙专门兴趣小组”(Bluetooth Special Interest Group,SIG) 采取无偿向全世界的产业界转让该项专利技术的策略,把蓝牙无线技术的理念正式推向社会,以实现其全球统一标准的目标。后来又有Lucent,Microsoft,Motorola和3Com等四家公司加盟,一起成为蓝牙的九个领导成员,它们共同致力于在全世界范围内推广这一项无线技术标准。至2006年年初,蓝牙特殊利益集团的成员已经超过了2 500家几乎覆盖了全球各行各业包括通信厂商、网络厂商、芯片厂商、软件厂商等[2]。

不过一个具有蓝牙功能的产品必须要先经过一个极其严格的产品质量认证流程, 并且在蓝牙特殊利益集团登记注册过之后, 才能配带蓝牙标志。蓝牙认证是任何使用蓝牙无线技术的产品所必须经过的证明程序。蓝牙认证团体(BQB)是由BQRB(蓝牙认证评估委员会)授权的,为需要获得蓝牙产品认证的成员提供服务的团体。BQB负责检查不符合规范的声明和文档,评价产品测试报告,并在蓝牙授权产品的官方数据库中列出产品。因此只有通过BQB测试才能保证与市面上其他的蓝牙设备兼容[3]。

2 目前蓝牙音频设备认证测试中存在连接问题

蓝牙应用中最为广泛的一种功能是使用具有蓝牙功能的设备与蓝牙耳机(Handseat)或免提(HandFree)连接,从而实现免提通话,有效的简化了掌上电脑、笔记本电脑和移动电话等移动通讯终端设备与耳机之间的连接。目前,市面上的蓝牙耳机主要有两种,一种是支持HSP和HFP协议的单声道蓝牙耳机,可以实现免提通话;另一种是除了支持HSP和HFP协议,还支持A2DP和AVRCP的立体声蓝牙耳机,可以实现听MP3音乐,并可以使用耳机按键控制手机上MP3音乐的播放。

根据蓝牙单声道耳机和立体声耳机特性,本着方便用户及实用的角度,大多数蓝牙设备采用的是AG(AudioGate)/A2DP(Advanced Audio Distribution Profile)/AVRCP(Audio Video Remote Control Profile)三个连接合一的方案,即如果是连接一个立体声耳机,会把AG/A2DP/AVRCP同时连接上,只有这三个同时处于连接状态,才能说明蓝牙设备与此立体声耳机处于连接状态,如果其中有一个没有连接成功,其他已经连接成功的会自动断开。

而蓝牙认证协议一致性测试采用的测试工具是PTS(Profile Tuning Suite)。PTS是一种软件,与蓝牙核心协议兼容,通过USB连接蓝牙终端来运行对蓝牙协议的测试,它是针对每一个profile进行单独测试。在这种情况下,我们用PTS测试A2DP时,测试的蓝牙设备会认为PTS是一个立体声耳机设备,它会自动连接AVRCP,但此时PTS只打开了A2DP,因此无法连接成功AVRCP,测试设备会自动断开已经连接成功的A2DP,从而导致无法连接成功。AVRCP存在同样的问题,我们用PTS测试AVRCP时,测试的蓝牙设备会认为PTS是一个立体声耳机设备,它会自动连接A2DP,但此时PTS只打开了AVRCP,因此无法连接成A2DP,测试设备会自动断开已经连接成功的AVRCP,从而导致无法连接成功。最终的结果是我们无法通过BQB蓝牙认证测试。

图1是目前常用的三合一方案单声道蓝牙耳机的连接,单声道蓝牙耳机只支持HSP或HFP手机可以主动发起与耳机的AG连接,也可以允许耳机发起与手机的AG连接。

图2是常用的三合一方案立体声耳机(除支持HSP或HFP外,还支持A2DP和AVRCP)与其他蓝牙设备的连接,需要同时保证AG,A2DP,AVRCP三个连接都成功才提示与该音频设备的连接成功,如果有一个连接失败,则自动释放其他已经连好的连接。在这种情况下,我们无法做到既能通过BQB测试,又能保证商用设备正确连接,同时也不给用户使用增加复杂的操作。

3 一种新的连接方法的提出

基于上述存在的问题,能否提供一种即能保证商用设备正确连接,又不影响BQB测试的方法,同时还要保证不增加用户操作的复杂度。为了达到此目的,本文提供了一种新的连接方法,具体步骤如下:

(1) 搜索并绑定一个蓝牙音频设备;

(2) 对绑定过的音频设备做服务发现(browse service),不同的服务类型对应不同的profile。服务发现具体见图3;

(3) 蓝牙设备和蓝牙音频设备进行连接,此时,用户无需关心音频设备是何种类型、支持哪些协议,软件能够根据搜索到的服务自动判断音频设备支持的协议,并进行相应的连接,具体见图4。

下面根据图4和实例对该方法作进一步详细说明。

该方法处理的是如何更有效地连接蓝牙音频设备,可以用蓝牙手机对一个音频设备如蓝牙立体声耳机进行搜索绑定,在手机和耳机绑定成功后,用户发起对蓝牙立体声耳机的服务发现,这样用户可以根据所发现的服务进行连接,此时,用户无需关心音频设备是何种类型、支持哪些协议,发现服务后用户发起与蓝牙耳机的连接或耳机主动发起连接,查询耳机的服务是否有AVRCP,如果存在的话开始建立连接AVRCP,再查询耳机的服务是否有A2DP功能,如果存在的话开始建立连接A2DP,最后再查询耳机的服务是否有HSP/HFP服务,有的话才说明蓝牙手机和蓝牙立体声耳机连接成功。

4 结 语

这种新的连接方法的技术效果在于蓝牙音频设备连接时,进行了该设备的服务发现,根据这些发现的服务进行相应的连接,而不是对于立体声耳机将AG/A2DP/AVRCP三个Profile都连接上。与现存技术相比,该方法既可以通过BQB测试,又能保证商用设备正确连接,同时也不给用户使用增加复杂的操作,可谓一举三得。

参考文献

[1]龙光利.蓝牙技术应用的研究[J].科技信息,2006(4):60-61.

[2]曹冲.蓝牙技术的发展和应用前景[J].无线电工程,2001,31(3):1-6.

[3]袁茵.蓝牙产品质量认证[J].电子技术,2006,33(7):34-37.

[4]时和平,何根宏,马秀芳.蓝牙技术的发展与展望[J].中国数据通信,2002(5):88-94.

基于内容的音频检索技术综述 篇3

随着多媒体技术和网络技术的迅速发展,多媒体信息的数据量急剧增多。多媒体资源已成为信息资源的重要部分,并随着需求的不断增加而迅速增加。这时人们面临的问题不再是缺少多媒体内容,而是如何在浩如烟海的多媒体世界中找到自己所需要的信息。为了快速的找到自己所需的多媒体信息,人们提出了一种新的检索方法-基于内容的检索CBR (Content Based Retrieval)技术,该技术通过对音频特征分析,从而对不同音频数据赋以不同的语义,使具有相同语义的音频在听觉上保持相似。

1、基于内容的音频检索概述

1.1 基于内容的音频检索定义

基于内容的音频检索(Content-Based Audio Retrieval, CBAR),是指研究如何利用音频的幅度、频谱等物理特征,响度、音高、音色等听觉特征,词字、旋律等语义特征实现与音频内容信息相关的检索[3]。它突破了基于关键词匹配的传统检索技术的限制,而根据音频本身所固有的特征而不是人工标注的外部属性或者关键词对音频进行检索。

1.2 基于内容的音频检索的处理过程

基于内容的查询和检索是逐步求精的过程,存在一个特征调整、重新匹配的过程:

(1) 用户提交查询,用户利用系统提供的查询方式形成查询条件;

(2) 将查询特征与数据库中的特征按照一定的匹配算法进行匹配;

(3) 满足一定相似性的一组候选结果按相似度大小排列返回给用户;

(4) 对系统返回的一组初始特征的查询结果,用户可以通过遍历(浏览)挑选出满意的结果,也可以从候选结果中选择一个示例进行特征调整,形成一个新的查询,这个过程可以多次进行,直到用户对查询结果满意。

2、基于内容的音频检索系统实现

基于内容的音频检索技术主要分为三大部分:音频内容的获取、音频内容的描述(音频特征提取)、特征相似度匹配。

2.1 音频检索系统功能描述

基于内容的音频检索系统在实际生活中有着非常重要的意义。其原型系统的检索流程如下图2:

音频数据库建立后,首先对音频数据进行特征提取,并通过特征对数据聚类。音频检索主要采用基于哼唱的音频检索方式 (Query by Humming) ,用户通过哼唱检索界面提交一个用嘴通过麦克风哼唱出来的语音例子,系统对用户通过哼唱提交的语音提取特征,并对特征矢量进行模糊聚类,然后检索引擎对特征矢量与聚类参数集匹配,按相关性排序后通过查询接口返回给用户。

2.2 音频特征提取与表达

在进行音频检索之前,首先要对音频进行特征提取。特征提取指的是寻找原始音频信号表达形式,提取能代表原始信号的数据。常见的特征有[8]:

1、短时平均过零率(Zero-crossing Rate)指在一个短时帧内,离散采样信号值由正到负和由负到正变化的次数,即两个相邻取样值有不同符号时,便出现“过零”现象。单位时间过零的次数称为“过零率”。对于音频信号流x中第m帧,其过零率计算如下:

其中:时,

时,

短时平均过零率是区分音频信号有声或无声的重要标志之一。

2、Mel变换对数倒谱系数(Mel-Scaled Frequency Cepstral Coefficient, MFCC) :这是音频数据经Z变换和对数处理后得出的结果。一般对每帧数据取12个系数,可以很好地表现每帧的特征。其处理过程如图3所示:

3、线性预测又称为线性预测编码(LPC),是音频处理的常用技术。其基本思想是:对音频信号的各个取样值,可以用它过去若干个取样值的加权和(即线形组合)来表示:各加权系数的确定原则是使预测误差的均方值最小(即遵循最小方差原则)。

2.3 音频检索界面

音频信息检索有其自身的特点和需要,故应有特定的查询界面。音频检索,可有多种检索方式[5]。

1.常规的信息检索:这是基于文本的检索方法,即利用一组关键字组成的查询来搜索需要的文本文档。

2.“哼唱”检索:这是常用的基于内容的音频检索方式。查询与用户“哼”出来的音频相似的音频数据。

下图4为基于“哼唱”的检索界面,用户进入该界面后,可以先录一段自己的语音,然后保存为.wav文件,检索时可以检索出来,并且按照匹配的结论把结果按照从小到大的顺序反馈给用户,表示可能是三个人中的一个在说话。并且排在第一位的说话人的概率最大。

在实验中,说话者张龙先“哼”了一段自己的语音,然后检索,可以看出,该实验中检索出说话者最大可能性是张龙。

3、结束语

基于内容的音频检索是一个新兴的研究领域,在国内外仍处于研究、探索阶段.当今时代,多媒体信息可以说是无所不在,不仅数据量大,而且包含有大量的非结构信息,所以如何高效地检索多媒体信息就显得非常重要。在本论文中介绍了一种基于内容的音频检索方法,并提供了一个简单的测试系统,该系统能用于简单的检索测试,但用于实际的应用还需要进一步加强和改进。

摘要:基于内容的音频检索是多媒体检索技术中一个重要的组成部分, 而其检索技术却相对滞后。基于内容的音频检索已成为多媒体检索技术的研究热点。本文分析并总结了音频检索的概念, 综述了基于内容的音频检索方法和相关技术, 最后通过一个简单的系统对基于内容的音频检索方法进行了测试。

关键词:基于内容的音频检索,多媒体检索技术,音频

参考文献

[1]黄志军, 曾斌.多媒体数据库技术[M].北京:国防工业出版社, 2005.

[2]E.wold, T.Blum, D.keslar, and J.wheaton, “Content-basedclassification, search, and Retrieval of audio”, IEEE Multimedia, PP.27-36, Fall 1996.

[3]郑贵滨.基于内容的音频信息检索技术研究:[博士学位论文].哈尔滨:哈尔滨工业大学图书馆, 2006.

[4]贾磊, 穆向禺, 徐波.广播语音的音频分割[J].中文信息学报, 2002, 16 (1) :37-42

[5]李恒峰, 李国辉.基于内容的音频检索与分类[J].计算机工程与应用, 2000.7:54-56.

[6]George Tzanetakis, Perry Cook.Muti feature audio segmenta-tion for browsing and annotation.New Palz, NY:in Proc 1999IEEE Workshop on Application of Signal Processing toAudio and Acoustics, WASPAA99, 1999.

[7]L.Rabine.A Tutorial on Hidden Markov Models and SelectedApplications in Speech Recognition.Proceedings of the IEEE, February 1989, 77, No 2, 257-289.

视频会议系统中音频相关内容探讨 篇4

1 匹配问题

在音频工程中要特别注意匹配的问题, 阻抗、电平等的匹配不当都会对整个系统的音频效果造成不良的影响。如果电平不匹配, 轻则会产生音量小、声音失真, 重则会损坏音频设备。在实际的工程调试过程中一定要明确将各音频设备和会议电视终端设备的各输入、输出接口的参数指标进行合理的连接, 这样才能获得良好的音频效果。

1.1 电平匹配

通常在手册或使用说明中提供的电平参数是指峰值, 不同的音频设备其电平会有所不同, 因此在设备连接调试时应特别注意, 输出的音量不能设置为最高, 以免意外损坏下级音频设备。输入信号电平小于本身电平时, 表现为声音较小。输入信号电平大于本身电平时, 因有削波效应, 一般会有失真现象。

1.2 平衡、非平衡信号传输

在音频工程中, 有两种信号传输方式, 即对地平衡式与非平衡 (单端接地) 式。所谓平衡方式是指声音信号用两芯屏蔽线传输, 两根芯线对地的阻抗是相等的, 平衡式传输抗干扰能力较强。所谓非平衡方式是一根线接地, 另一根线接信号端, 非平衡式传输则较易受到干扰。平衡与平衡、非平衡与非平衡都可以直接馈送信号, 一般不会引起干扰, 在互连时注意引脚对应关系就可以了, 而平衡与非平衡之间的相互转换不当, 极易引起干扰。下面主要就此问题作探讨。

输出接口为平衡式, 输入接口为非平衡式。对于平衡式输出端, 电路上又分为两类, 一是用输出变压器做平衡输出, 二是用无变压器的差动输出级作平衡输出。采用输出变压器与非平衡式的输入口连接比较容易, 只需将信号负端与屏蔽层接在一起焊在输入接头的地端即可。是否使用变压器作输出电路的判别方法:用万用表直流电阻X10档测量信号正端和负端之间的直流电阻, 如在十几到几十欧姆即为变压器输出。而采用差动输出级的设备要和非平衡接口进行连接就很不容易, 最好避免该局面出现。

输出是非平衡式, 输入是平衡式。只需要将非平衡输出的芯线和屏蔽线当作平衡输入端的信号正端和信号负端即可。具体做法:将平衡输入的接头的屏蔽层焊开 (即卡农头的1脚或大三芯的屏蔽脚) , 只留2、3脚, 在信号线的另一头将屏蔽层与信号负端一起焊在非平衡头的接地端 (屏蔽层) 上, 信号正端不变。

特别需要注意的是:音频电缆布线时, 不能与电源线布放在一起, 更不能捆绑在一起。音频电缆接头应焊接, 不能采用压接方式。焊接应牢靠。接头插接时, 应接触牢固, 避免插接不到底、接触不牢。

2 音响系统及电源布置

会议音响系统是整个系统中最重要部分, 音响设备, 如调音台、扬声器、功放、数码调音台等, 它们的外形和安装位置应不影响场地的整体风格。在装修、布置会场时要考虑下面因素:

(1) 建议采用定向麦克风, 不要采用全方位麦克风;

(2) 会场的墙壁必须有隔音材料;

(3) 音箱置于麦克风的背后, 建议距离4米以外, 若置于麦克风正面, 建议距离8米以外;

(4) 建议不要把本地声音与远端声音混合输出, 因为这样本地输出会成为一个回声源;

(5) 音量输出设备的增益调节不要超过中间值;

(6) 电子会议室中的设备为集中供电, 会议终端和相关功放、音箱等设备使用同一路电源, 为避免所有设备同时开机时可能会出现的电涌损坏设备, 故开机时要按照功率, 遵照由小到大的顺序逐一开启。关机时要按照功率, 遵照由大到小的顺序逐一关闭。所有的设备按使用的需要开启, 不用的设备要关闭电源, 避免设备间的信号干扰。

最终会议室音响系统达到声音清晰、声场均匀的标准, 保证场地有较高的语言清晰度, 各个位置无明显回声、颤动回声和声聚焦等音质缺陷, 使整个会议室得到均匀音响效果。

3 回声

在电视会议中, 当本会场的声音信号传到对方会场后, 进入对方的麦克风, 通过调音台、会议电视系统等音频设备, 再传回本会场, 导致在本会场听到自己的延迟后的声音, 这种声音就被称为会议电视中的回声。回声问题是会议电视系统中最常见而且是无法避免的问题之一。目前的会议电视系统还没有这样一个技术手段能完全消除回声, 我们所能做的就是尽量将回声对电视会议的影响降低到最小。在平时的会议调试过程中如果有回声产生, 可以从以下几个方面去排除:

(1) 关闭本地麦克风, 让对端听是否有回声;

(2) 检查本端麦克风的位置是否合适, 一般麦克风要距扬声器至少2米, 若使用定向麦克风, 注意不要让扬声器正对着麦克风;

(3) 检查终端上设置的远端会场的输出音量是否过大;

(4) 适当调整本端的输入音量大小;

(5) 如果终端的音频输入输出连接了到较多的音频设备 (如功放、音箱等) , 请将麦克风直接接到终端上, 音频输出直接接入到电视机上, 检查是否有回声, 若没有回声则可判断是其它音频设备的问题;

(6) 如果终端使用了调音台, 检查确认调音台工作正常;

(7) 检查确认本端音频输出线缆没有连接在终端的本地音频输出接口“LOCAL”上 (如果接在此口, 在会议中自己会听到自己的声音) ;

(8) 检查有会议终端的音频输入口是否有回声抵消功能, 以中兴6000A为例, 其“MUSIC”音频输入接口不具备回声抵消功能。

4 案例分享

由于音频设备的结构复杂, 发生的故障也多种多样, 一旦出现故障需按一定步骤检查。检查步骤原则上是先易后难、从外向内、缩小范围、逐步检查。

4.1 本地声音没有输出

故障现象:本地音频输出接口没有声音输出。

故障处理:

(1) 检查麦克风的开关已经打开, 麦克风的输入音量, 终端和电视机的输出音量也足够大;

(2) 检查麦克风的信号线是否开路, 可使用万用表的电阻档来直接测量线缆的通路情况;

(3) 检查终端不处于“静音”或“哑音”状态, 观察电视机屏幕无图标出现;

(4) 最后检查麦克风与终端的音频电缆连接是否正常。发现误将定向麦克接到与全相麦克配套的音频线缆上, 虽然这两种麦克的电缆头相同, 但一根是平衡线另一根是非平衡线, 所以造成本地输出无声。更换音频线后, 故障排除。

4.2 终端的本地音频和远端音频输出有明显的电流声

故障现象:某会场的终端, 本地音频输出和远端音频输出连接音箱。终端开机后, 会出现电流声。

故障处理:

(1) 首先怀疑是终端接地问题, 在对终端进行可靠接地后, 电流声有所缓解, 但还是有电流声, 无法达到真正静音效果;

(2) 怀疑是电源问题, 现场测试电源。电源满足终端的电源使用要求且电源接地良好;

(3) 怀疑音箱或电源问题, 根据现场测试, 排除音箱问题, 但发现终端所使用的电源和音响设备使用的电源存在相位差;

(4) 经过上述排查后, 基本排除了设备问题、接地问题, 怀疑是终端所使用的电源和音响设备使用的电源存在相位差引起的问题。根据现场情况, 重新调整设备电源接线, 将终端和音箱设备使用同一路电源, 电流声消除。

借助通信融合的优势和统一通信的流行趋势, 在电力企业远程会议上能有效地帮助企业节约日常会务经费, 有效改善企业远距离信息交流的方式, 加快整体工作效率。随着视频会议技术的发展, 提供高质量的音视频效果, 也是广大视频会议调试人员不断探讨的问题。

摘要:在视频会议系统中, 对于音频部分, 要注意几个关键因素。在安装、调试过程中, 只有重视这些因素并遵循原则才可能获得系统的良好音频效果。文章介绍了在视频会议系统中音频设备几种最常见的故障判断和处理方法。

关键词:视频会议,电平匹配,回声抵消

参考文献

[1]中兴ZXMVC6000A使用手册

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:66553826@qq.com

上一篇:视音频处理 下一篇:音频指纹提取