基于实例学习在自然语言处理中的应用研究

关键词: 方法 处理 规则 统计

自然语言处理技术的发展大致经历了基于规则、基于统计和与机器学习方法结合的三个阶段。传统基于规则的方法很难适用于存在大量“例外”现象的自然语言处理;而基于统计方法对问题描述的不易理解性以及数据稀疏等也限制了它的应用。

近年来, 机器学习技术在自然语言处理中的应用成为研究热点。在众多机器学习方法中, 基于实例学习的突出特点是学习过程只是简单的存储已知实例[1]。分类的过程才是相似度比较的过程。这一特性使得问题描述和分类过程大大简化, 避免了前两种方法泛化过强或过弱的缺陷。

1 基于实例的学习的基本算法

基于实例学习是基于智能行为可以通过相似推理来达到假设建立的一种学习方法。其算法机理是:在遇到一系列训练样例时, 基于实例学习仅将它存储起来。等遇到新实例时, 再计算新实例与存储实例之间的距离, 找到与新实例距离最近的类别, 并赋予相应的函数值, 完成分类[1]。

1.1相似度比较机制

相似度比较是基于实例学习中两实例通过计算特征间的距离来进行比较。计算公式如下所示。

基于实例学习可以通过调整权重和特征值距离来调整分类效果。下面的I B 1和I B 1-I G采用的是调整权重的方法, 而M V D M是一种调整特征值距离的方法。

(1) IB1方法。

IB1算法[2]由Aha等人在1991年提出, 各权重的值都为1。实例间的距离即为特征值间距离的加和。此法较简单, 针对某些分类问题, 效果也很理想。但是正因为过于简单而存在着维度灾难的缺陷, 在有多个特征值的情况下会使得相关特征值一致的实例可能在这个n维的实例空间中相距很远, 而误导分类。

(2) IB1-IG方法。

为解决上述的问题, 利用信息增益来确定每个特征的贡献量是十分必要的[3]。这种方法就被称之为I B 1-I G。它通过检测特征值的重要性来对特征值分配权重, 总的来说, I B 1-I G在一定程度上避免了维度灾难, 而且也具有了针对数据稀疏问题的平滑能力[7]。

(3) M V D M方法。

在前两种方法中, 无法充分估计异形相关词语相似性的情况。为此, 学者们提出了M V D M方法。此法是通过比较每个特征值的类条件分布情况来构造两特征值间分布距离矩阵来计算特征值间的距离。

M V D M方法可以说是在基于相似性推理的基础上, 采用统计方法学习了一个特定分类问题。同所有统计方法一样, 它对中等以上概率的词识别效果好, 对概率低的识别效果则差。

2 基于实例学习与自然语言处理

基于实例学习是一种针对分类的有监督的学习方法, 而自然语言处理中的许多应用问题都可以被看作是分类问题。例如语法形态分析、词性标注、浅层句法分析等等。基于实例学习在自然语言处理中的优势主要体现在以下几点。

(1) 基于实例学习方法在训练时不做任何归纳而直接存储这一特点, 具有较为客观的归纳偏置, 既保证了特征信息不减少, 又保证了例外情况的正确处理。避免了以往方法泛化过强或过弱的缺陷。

(2) 相比之于统计方法, 避免了统计方法中平滑数据稀疏中参数估计的诸多困难, 减少计算复杂性, 同时增加了分类精度。

但是也不证明它是全无缺点的, 由于基于实例学习牺牲泛化而保存所有的实例, 造成了冗余, 占据存储空间。语料库越大, 包含实例越多, 计算次数就越多, 分类的效率也就变低, 针对这一问题, I G T R E E是一个提高搜索速度的方法。它是一种带有静态有序特征的决策树算法, 它忽略那些与重要特征不匹配的实例[2]。相关的研究及实验证明, I G T R E E在效率上较高但在精度上略低于I B 1-I G, 数据量越大越复杂则这两点越为明显。

3 基于实例学习方法在浅层句法分析中的应用

作为该方法的一个应用, 本文对实例学习在浅层句法分析中的分类效果进行了实验研究。

浅层句法分析是一种新的语言处理策略, 它是对语句的短语级句法分析, 而不是完全句法分析[4]。它规避了句法分析存在歧义的困难[8], 同时也利于句法分析技术在大规模真实文本处理系统中的快速利用。

本文使用I B 1-I G方法, 采用通用的《华尔街日报》语料[5]。我们将得出的精度计算结果与使用同一语料的基于规则的结果、基于统计的结果以及Baseline值做比较。比较结果如表1所示。

表1中, 精度、召回率及F值都是浅层句法分析系统的通用衡量指标。由表1可以看出, 这三个值都远远高于Baseline值, 说明它作为一种处理该问题的手段是有存在必要的。同时较基于规则方法的结果提高了4.6%, 较基于统计的结果提高了2.2%, 改进效果良好。可以得出, 基于实例学习在自然语言处理中较基于规则和基于统计方法确是有其明显优势的。

4 结语

本文就基于实例学习在自然语言处理中的优缺点进行了详细论述, 并与其他方法进行了针对性比较, 其类比推理机制给自然语言处理带来了极大的便利。但仍然存在问题。虽然它可以规避基于规则和统计方法的缺陷, 但是完全抛弃规则, 放弃归纳事物的规律同样是不合理的。如何在二者之间取一个均衡点是至关重要的, 也是我们将来要做的工作。

摘要:机器学习技术在自然语言处理中的应用是一个研究热点。本文简单介绍并分析机器学习的方法之一——基于实例学习。并就其在自然语言处理中的应用分析其优点与不足。最后, 通过实验讨论了基于实例学习在浅层句法分析中的应用。

关键词:自然语言处理,基于实例学习,相似度比较

参考文献

[1] Tom M.Mitchell.机器学习[M].机械工业出版社, 2003.

[2] 鲁松, 孙红梅, 白硕.自然语言处理中记忆学习方法的改进[M].第六届计算机科学与技术研究生学术研讨会, 2000.

[3] 王浩.基于语料库的自然语言句法分析技术研究[D].上海:复旦大学.

[4] 孙宏林, 俞士汶.浅层句法分析方法概述[M].当代语言学, 2000.

[5] 宗成庆, 高庆狮.中国语言技术进展[J].中国计算机学会, 2008, 8:34~39.

[6] 王珏, 周志华, 周傲英.机器学习及其应用[M].清华大学出版社, 2006.

[7] 陆汝钤.人工智能[M].科学出版社, 1996:45~52.

[8] James Allen.自然语言理解[M].电子工业出版社, 2005.

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:66553826@qq.com

上一篇:移动商务环境下企业信用评价机制构建研究 下一篇:基于激励机制的企业经营者论文