一、引言
随着移动互联网与社交媒体的兴起和不断发展, 互联网用户呈现几何式增长, 网民可随时随地通过手机、平板电脑等移动设备发表个人观点、参与网络互动甚至逐渐影响到舆论环境和语言习惯。在互联网上, 有许多有价值的评论信息, 如人物、事件和产品等, 而政府、商业公司等机构可以通过对这些信息进行统计分析, 得出用户对某一事件或者商品的观点、态度, 从而进行有效的政治决策、商业营销以及选择更加科学的社会服务管理方式。
然而, 如此海量在线评论数据的计算分析已经无法通过人工完成, 必须借助计算机进行自动分析处理, 因此在线评论数据的情感分析研究被学术界的高度重视和关注。在藏文在线评论情感分析方面, 随着藏文信息化技术的不断进步, 尤其是一些藏文类的应用软件、新闻网站、电商平台日益普及, 特别是微博、微信、客户端等主流平台支持藏文显示后, 大量的藏文在线评论信息成为互联网用户观点信息中重要的组成部分, 对这些藏文评论信息进行情感分析研究, 对藏区经济社会发展藏族文化的繁荣具有重要的意义。但目前, 由于藏文的适用范围小、掌握人数较少[1], 缺少公开的语料, 对其评测的准确率也尚无标准, 给藏文在线评论情感分析研究工作带来了一定的困难, 本文针对藏文在线评论的情感分析研究现状进行如下的讨论和研究。
二、情感分析的定义
人工智能的主要目标之一就是让机器理解人类的情感。文本的情感分析作为机器理解情感的基础功课, 其原理是通过文本情感特征提取、分类和检索归纳判定文本的情感倾向[2]。其目的是从文本中判定识别论点挖掘情感倾向从而抽取得出主要的观点[3]确定观点中蕴含的褒义或贬义的情感倾向。按照文本处理的规模和粒度不同, 黄萱菁等人将情感分析分为词语级、短语级、句子级和篇章级, 并对文本进行倾向性信息抽取和倾向性分类[4,5]。基于藏文的在线评论情感分析, 是以互联网藏文在线评论为研究对象, 通过藏文在线评论中的基础情感词、藏文程度词以及藏文否定词等, 抽取出用户观点, 计算分析出用户针对某一事物的情感倾向。因此, 构造一个优良的藏文情感词典, 是做好藏文在线评论情感分析的基础性工作。
三、文本情感分析技术
文本情感分析技术主要有关键词识、基于词典、基于机器学习三种技术。其主要过程为:采集在线评论数据, 经过归类、降噪等预处理后对评论进行特征抽取、特征处理及特征观点识别, 最终得出情感判断的结论。
(1) 关键词识别技术。利用已有的或动态更新的特定或敏感词汇的语料库, 通过匹配技术, 有目的性地筛选在线评论数据。是最基础, 研究和使用最为成熟的情感分析方法。
(2) 基于词典技术。情感词典是文本情感分析的基础, 利用已有的语义词典, 对词典进行极性和强度标注, 通过判定句子中包含情感词的语义倾向, 加上句法结构等信息, 间接得到句子的情感倾向[6]。根据人工参与情感词典构建的程度, 可以分为人工构建情感词典和自动构建情感词典[7]。
(3) 基于机器学习技术。根据已知训练样本, 得到系统输入输出相关性的估计, 从而能够对未知输出进行最准确的预测[8]。机器学习技术过于依赖情感词典, 包括大小、质量、分析模型等。2002, Tong等人利用常用的机器学习技术判断情感倾向性, 得出在向量机 (SVM) 、朴素贝叶斯 (NB) 和最大熵三种方法中, 向量机的分类效果最好[9]。薛丽敏等人提出了一个描述中文文本情感取向的五元模型, 即情感取向观点持有者、取向来源、取向分配、取向位置和取向类型, 在一定条件下提高情感倾向性判断的精度[10]。
四、藏文情感分析方法研究
目前, 大部分情感分析的研究语种对象为英语或汉语, 对藏文等资源稀缺语言的情感分析国内外的研究都尚未成熟, 尤其是基于互联网在线评论或互联网自媒体文章领域的研究更为滞后。但近年来随着藏文信息化的发展, 在互联网领域涌现出了一批比较有影响力的藏文类网站和应用。尤其是微博、微信等主流互动平台支持藏文显示后, 越来越多的藏族同胞在网络中用自己民族的语言发表观点和态度, 藏文类观点信息在互联网上呈现几何式增长, 藏文情感分析的价值日益凸显。本文从藏文情感词典的构建、藏文句子、藏文篇章情感分析三个层面研究。
(一) 藏文情感词典的构建
藏文情感词典的构建研究是藏文自然语言处理的重要部分, 也是藏文文本情感分析的基础性工作。但是由于藏文信息化进程起步较晚, 标注的藏文语料较为有限, 甚至目前无大规模公开的语料, 也没有与中文、英语类似的常识知识库, 藏语情感词典目前主要通过纯手工构建。通过藏文基础情感词、藏文程度词、藏文否定词等来实现藏文情感词典的情感计算, 因此藏文情感词典的好坏直接影像藏文情感分析的结果。
1999年, 周季文等人就开展了基于藏语资源的数据库建设, 成功建立了一个500万音节字的初级平衡语料库[11]。在教育部和国家语言委员会的支持下, 西藏大学于2013年完成了民族语言文字标准化和信息化项目, 建立了1.5亿字符的大型藏文文字数据库[12]。为了机器学习, 近几年很多单位也研究建设了一定规模的双语平行语料、双语字典等。祁坤钰提出了一种基于英藏机器翻译的藏语语义分类体系, 形成了一个基于藏语语义词典设计的理论框架、语义分类的思想和属性描述的原则[13];邱莉榕等人探讨了如何利用藏语语义本体上下位关系模式匹配算法构建藏语语义本体[14]。柔特利用Word Net对比英藏文词之间的语义关系、初步构建了半自动匹配藏文语义词典[15];杜雪峰等研究利用藏汉双语词典和Hownet相结合的办法来构建藏文词典, 最终形成了包含基础情感词、否定词、转折词等的藏文词典[16]巴桑卓玛等人在搜集整理藏文基准情感词典的基础上, 采用词向量和KNN扩展方法对情感词典进行自动扩充, 证明最终可以建立实用的藏文情感词典[17];Zhen Zhang等研究将英文情感词典和藏英词典结合, 构建藏文基本情感词典[18];闫晓东等人从藏语大词典中筛选出情感色彩较为浓厚的词语, 经人工标注, 将藏语情感词汇分为正向和负向情感词, 同时参照大连理工大学的中文极性词典的极性强度标准给情感词标注极性强度, 经过多次校对, 加入基本情感词典, 形成了藏文基准情感词典、否定词典和双重否定词典、程度副词及转折词词典[1]。
研究发现, 利用已有的中文情感词典资源自动构建藏文情感词典, 不但能解决藏文词典构建费时费力的问题, 而且能保证藏文情感词典拥有足够词汇量。
(二) 藏文句子情感分析研究
在线评论按照篇幅来看, 多数以句子为单位, 只有少量的在线评论才能达到文本的水平。句子情感分析是篇章情感分析的基础。通过分析句子的情感倾向, 可以基本得到所有在线评论的整体倾向性。因此首先研究的重点是藏文句子情感分析。目前, 中英文句子的情感倾向性研究相对成熟, 但藏文方面研究还很不成熟。主要原因:一方面藏文文本没有明显的句子标记, 语料库也缺乏对复杂模型的训练。另一方面与英语等西方语言相比, 藏语没有自然地空格作为标记, 藏文句子以逻辑、句意为主, 从形式上断句难度较大, 因此藏文文本断句应以语义理解为基础。青海师范大学藏文信息处理与机器翻译省级重点实验室于2002年开始对藏文语料库进行多级处理研究。对藏文原始语料库的1000万个词进行了分割和标注实验。2007年, 完成了藏文语料库词分类系统和标记集 (V1.0) [19]。
为了能够让计算机理解藏文本, 徐涛等人从形式上研究出了藏文句子自动断句方法[20], 李响等人通过最大熵等数据模型得出了藏文句子边界识别方法[21], 另有大量的研究得出基于信息处理的藏文框架语义关系[22]闫晓东等在构造基础藏语情感词词典、否定词词典等工作的基础上, 针对藏语文本的特征, 采用人工方法构建了一个适合藏语文本情感分类的规则集, 应用规则集对藏语文本句子进行情感分类, 实验结果证明该方法一定程度上可用于藏语句子的情感分析, 然而藏情词典的规模和覆盖率直接影响了情感分析的准确性[1]。
普次仁等将藏文分词后, 直接用词向量替换词语, 语句变为词向量构成的矩阵, 选择无监督递归自编码算法向量化处理矩阵输出层分类器被反复训练, 用以分析藏文句子的情感倾向[23]。扎西本等根据情感词汇的转折词、否定词、褒义词、贬义词、中性词等要素计算藏文句子的情感倾向[24];对微博中普遍存在的藏汉文本混排问题, 袁斌提出基于语义空间, 通过语法树实现语义向量化的方法, 改善了情感特征的语义成分, 解决了多语种混合文本的处理问题[25]。江涛等利用基于多特征的情感倾向性分析算法把微博中出现的中文情感信息作为特征进行情感计算, 提高了分析效果[26]。
(三) 藏文文本情感分析
少量藏文在线评论文本可达到篇章级别, 对篇章级别的藏文本进行情感分析研究有助于提高藏文在线评论情感分析的整体效果。藏文篇章级别文本情感分析主要方法包括:基于HTTP协议的实时监控技术, 基于藏文网络的藏文舆论传播模型和基于微博多特征的藏文情感分析以及深度学习算法藏文情感分析等[27]。李海刚等人在博客、网站、论坛中选择一些感情色彩较为明显的藏文类文章, 通过切分体系对文本进行分词和标注, 并手工建立藏文情感词表, 提取文本的情感特征, 并使用相似度分类算法来获得文本的情感分类[28];袁斌等人构建了基于藏文句法结构和语义特征向量的语义特征空间, 在多维特征空间中聚类, 得到语义簇, 并计算语义簇的TF-IDF值分析情感分类, 提出基于语义空间的藏文未必情感分析方法[29]。针对藏文微博中藏汉混排问题, 通过语法树实现语义向量化, 增加了情感分类中语义成分的比例, 提出了一种基于语义空间的藏文微博情感表达方法, 解决了多语种混合文本处理的难题[30]。
五、结语
本文首先研究了文本情感分析的主流技术, 得出基于机器学习的方法仍然是藏文情感分析研究的主流技术。根据藏文在线评论处理的颗粒度, 将藏文在线评论分为句子层面和篇章层面, 针对不同层面对情感分析的方法进行了现状综述。针对藏文在线评论问题, 当前有一些可行的研究方法, 但其过程仍然需要大量可利用的优质资源, 目前公开的藏文标注资源很有限, 若能加强藏文语料和情感词典建设等基础性工作, 结合语言学知识, 将有效地提高藏语在线评论的情感分析性能。
摘要:目前, 基于中英文本的情感分析技术相对成熟, 主要包括关键词识别、基于词典、机器学习等方法。从藏文文本的情感分析来看, 目前研究成果有限。本文从藏文情感词典的构建、藏文句子情感分析和藏文篇章情感分析三个层面对藏文情感分析进行研究发现, 基于机器学习的方法是藏文情感分析研究的主流方法。但是由于语料资源匮乏、藏文信息化技术手段滞后等原因, 导致分析结果精度不高, 实际应用程度较低。加强藏文语料和情感词典建设等基础性工作, 是解决以上问题的有效方法。
关键词:藏文,情感分析,机器学习
参考文献
[1] 闫晓东, 黄涛.基于情感词典的藏语文本句子情感分类[J].中文信息学报, 2018, 32 (2) .
[2] 赵妍妍, 秦兵, 刘挺.文本情感分析[J].软件学报, 2010, 21 (8) :1834-1848.
[3] 江红.情感分析研究综述[J].智能计算机与应用, 2018, 10 (85) :103-105.
[4] 黄萱菁, 赵军.中文文本情感倾向性分析[J].中国计算机学会通讯, 2008, 4 (2) :39-47.
[5] 黄萱菁, 张奇.文本情感倾向分析[J].中文信息学报, 2011, 25 (6) :118-125.
[6] 李钢, 程洋洋, 寇广增.句子情感分析及其关键问题[J].图书情报工作, 2010, 54 (11) :114-117.
[7] 刘爽, 赵景秀, 杨红亚, 徐冠华.文本情感分析综述[J].软件导刊, 2018, 17 (6) :1-4.
[8] 曹宇, 李天瑞, 贾真, 殷成凤.BGRU:中文文本情感分析的新方法.[J].计算机科学与探索, 2018, 7 (24) :1-11.
[9] TONG, R.Anoperationsystemfordetecti ngandtrackingopinionsinon-linediscussion.[C].SIGIR2001WorkshoponOperationalTextClassif ication, 2001.
[10] 薛丽敏, 李殿伟, 肖斌.中文文本情感倾向性五元模型研究[J].通信技术, 2011, 44 (7) :130-132.
[11] 周季文, 江荻.藏语计算机统计用语料抽样文本筛选[C]北京:民族出版社, 1999.
[12] 西藏大学.教育部、国家语委民族语言文字规范标准建设与信息化项目“大型藏文基础语料库建设” (MZ115-039) 成果简介[R].[S.l.:s.n.], 2013.
[13] 祁坤钰.机器翻译用现代藏语语义词典的设计研究[J].西北民族大学学报, 2004, 25 (3) :33-37.
[14] 邱莉榕, 翁彧, 赵小兵.藏文语义本体中的上下位关系模式匹配算法[J].中文信息学报, 2011, 25 (4) :45-49.
[15] 柔特.基于Word Net的藏文语义词典半自动构建方法研究[J].西藏大学学报, 2014, 29 (2) :48-53.
[16] 杜雪峰.藏文句子倾向性分析研究[D].北京:中央民族大学, 2015.
[17] 巴桑卓玛, 李苗苗, 高定国.基于词向量的藏文情感词典的构建方法研究[J].电子技术与软件工程, 2017 (20) :132-134.
[18] Zhen Zhang, Li rong Qiu.ASentiment CalculationMethodBasedonTibetanSemanticRe lations[J].InternationalJournalofDatabaseTheorya ndApplication, 2016, 9 (9) :149-150.
[19] 才让加.藏语语料库词语分类体系及标记集研究[J].中文信息学报, 2009, 23 (4) :107-112.
[20] 徐涛, 加羊吉, 于洪志.统计与规则相结合的藏文句子自动断句方法[J].云南大学学报 (自然科学版) , 2012, 34 (6) :653-657.
[21] 李响, 才藏太, 姜文斌, 等.最大熵和规则相结合的藏文句子边界识别方法[J].中文信息学报, 2011, 25 (4) :39-44.
[22] 多杰卓玛.基于信息处理的藏文框架语义关系研究[J].西北民族大学学报:自然科学版, 2010, 31 (1) :16-19.
[23] 普次仁, 侯佳林, 刘月等.深度学习算法在藏文情感分析中的应用研究[J].计算机科学与探索.2017, 11 (7) :1122-1130.
[24] 扎西本, 安见才让.藏文句子的情感倾向研究[J].电脑知识与技术 (学术交流) , 2016 (6) :201.
[25] 袁斌.藏文微博情感分类研究与实现[D].西北民族大学, 2016.
[26] 江涛, 袁斌, 于洪志, 等.基于多特征的藏文微博情感倾向性分析[J].中文信息学报, 2017, 31 (3) :163-169.
[27] 高定国.藏文信息处理研究进展[J].广西科学院学报.2018.2, 34 (1) :1-11.
[28] 李海刚, 于洪志.藏文文本情感分类系统设计[J].甘肃科技纵横, 2011, 40 (1) :106-107.
[29] 袁斌, 江涛, 于洪志.基于语义空间的藏文微博情感分析方法[J].计算机应用研究, 2016, 33 (3) :682-685.
[30] 袁斌.藏文微博情感分类研究与实现[D].兰州:西北民族大学, 2016.
相关文章:
藏文教研活动简报02-04
基于Android平台的藏文驾考软件02-04
太平中学食堂安全事故应急预案02-04
闫家中学控辍保学工作责任追究制度02-04
藏文班学生《民族文化》演讲稿02-04
五年级藏文上学期单元测试题02-04
现场施工安全防护措施02-04
消防安全标语句子02-04
现场施工用电安全措施02-04
隧道现场施工职业健康安全保证措施02-04