情感分类模型(精选八篇)
情感分类模型 篇1
随着网络技术的快速发展和图像获取设备的迅速普及, 数字图像的数量急剧膨胀。面对海量的图像数据, 人们想要检索出自己需要的图像变得越来越难。因为人们在检索图像时, 并非只是根据图像的低层视觉特征去检索, 图像本身蕴含着丰富的情感, 而大多数情况下人们检索时蕴含了他们对图像的情感语义理解, 因此根据情感语义对图像分类有很重要的现实意义, 图像的情感语义获取研究有着广阔的应用前景。
在现实生活中, 自然风景图片是最常见、用途最广的一类图像数据, 互联网上这类图片的数量也日趋增多, 除起到欣赏、调节心情的作用外, 人们在制作广告、网站等商业用途时也需要用到大量的自然风景图片素材, 对自然风景图像进行合理分类以提高用户浏览和检索的速度已成为一个急需解决的问题。目前大部分图像的分类和检索都是基于图像底层视觉特征的, 本文从情感建模的角度对自然风景图像进行分类, 这是数字图像理解研究的重要内容之一, 有很大的实际意义, 将为图像高级语义检索、用户个性化检索等方面的研究提供便利。
1 相关研究
自上个世纪90年代末以来, 图像情感语义分析的研究在国内外迅速发展起来, 研究者们对各种类型图像数据的情感标识展开研究, 并取得了一定的成果。例如, 毛峡等[1]使用二维波动的数学模型, 提出了一种图像波动分析方法, 证明了符合“1/f波动”规律的图像能够给人以和谐和美的感觉。李娉婷等[2]提出了一种基于颜色特征的家居设计图情感分类方法, 通过人们对色彩的感知和理解, 建立图像颜色特征与情感语义的关系模型, 使用RBF网络分类器实现了对家居设计图像的风格分类。王上飞等[3]从心理学的“维量”思想出发, 采用语义量化技术和因子分析的方法建立情感空间, 并分析情感空间的相似性度量方式, 抽取图像的颜色和形状特征作为图像的感性特征, 采用径向基函数神经网络将图像由特征空间映射到情感空间, 在情感空间内实现图像的感性检索。李海芳等[4]通过研究性格与情感、心情衰减的关系, 构建心情和情感衰减函数, 得到情感状态波动时各种情感相互影响的数据, 建立了一种多层情感模型。Cho等[5]使用离散小波变换方法提取图像特征, 然后通过基于交互式遗传算法实现了情感图像的检索。Liu等[6]提出了一种基于局部特征的语义聚类方法, 大大缩小了图像检索范围, 提高了图像检索效率。
大部分的情感语义研究的热点都集中在情感模型的建立上, 但关键问题是对于情感模型中情感表述词汇的建立, 目前人们都是根据自己的想法, 针对自己研究的图像设定情感词汇, 没有统一的标准, 这导致研究的方法缺乏通用性。本文以人工智能领域常用的结构化基于认知的OCC情感模型为基础, 并对其进行改, 提出了一种通用性较强的自然风景图像分类方法, 旨在一定程度上解决人们对图像情感分类的主观随意性太强的问题。
2 改进的OCC情感模型
2.1 OCC情感模型
1988年, Ortony、Clore和Collins在他们出版的《情感的认知结构》一书中提出了认知情感评价模型———OCC模型[7], 它是第一个用于人工智能领域的结构化模型, 提供了一个情感的分类方案, 因其便于在计算机上实现而得到广泛应用。该模型定义了22种基本情感, 并定义了情感的阶层关系。它不是从心理学的角度研究情感, 而是使用一致的认知结构来表述情感[8]。
OCC模型通过设置一些函数, 构造情感规则来表述情感。设D (p, e, t) 表示对象p在时刻t想做事件e的期望程度, 如果事件期望产生有益的结果, 则函数值为正, 否则, 函数值为负。以“愤怒”为例, 设Ig (p, e, t) 表示总的强度变量的组合 (如期望、实现、近似) , Pj (p, e, t) 表示产生“愤怒”状态的可能性, 则产生“愤怒”的规则为:
其中, Fj () 为表示“愤怒”的函数。虽然上述规则不能引起愤怒或愤怒感觉的体验, 但可用来触发另一个规则, 因此, 设“愤怒”的强度为Ij, 对于给定的阈值Tj, 有:
此规则激活了愤怒情感, 当强度超过给定的阈值时就产生了“愤怒”的情感, 得到的强度值能被映射成多种“愤怒”感觉中的一种, 如“生气”对应一个中等值, “仇恨”对应一个高值。其他情感规则的构造也与此类似。
但实际上情感还受人的性格、心情等非认知因素的影响, 而OCC模型只考虑了情感本身的认知因素产生机制, 因此仅使用OCC模型表述情感存在很多的不足。因此, 本文结合性格、心情等因素, 提出一种改进的OCC模型, 对自然风景图像建立情感模型, 并使用BP神经网络实现图像的分类。
2.2 改进的OCC模型
(1) 性格因素描述
相对于情感来说, 性格是一个比较恒定的量, 对于性格的描述, 目前还没有一个统一的标准, 本文采用目前心理学界应用最为广泛的FFM模型[9]来描述人的性格。该模型将性格分为5类:openness (开放型) 、conscientiousness (责任型) 、extraversion (外向型) 、agreeableness (宜人型) 、neuroticism (神经质型) , 具体描述为:
openness (开放型) 想象、审美、情感丰富、求异、创造、智能等;
conscientiousness (责任型) 胜任、公正、条理、尽责、谨慎、克制等;
extraversion (外向型) 热情、社交、果断、冒险、乐观等;
agreeableness (宜人型) 信心、直率、利他、依从、谦虚、移情等;
neuroticism (神经质型) 焦虑、敌对、压抑、自我意识、冲动、脆弱等。
定义一个五元组T (O, C, E, A, N) 来描述人的性格特征, 其中-1≤O, C, E, A, N≤1。
(2) 心情因素描述
为了准确度量人的心情, 人们已经从心理学的角度提出了一些测量理论和方法, 但研究表明, PAD模型[10]可以有效地度量和解释人的心情。该模型是由Mehrabian和Russell在1974年提出的维度观测量模型, 它将情感分为愉悦度 (P) —表示个体情感状态的正负特性、激活度 (A) —表示个体的神经生理激活水平和优势度 (D) —表示个体对情景和他人的控制状态等三个维度, 各维度取值范围为[-1, +1]。根据文献[11], 我们选择了部分与自然风景图像相关的OCC模型情感, 它们与PAD模型各维度值的映射关系如表1所示。
本文定义一个三元组M (P, A, D) 来度量人的心情特征, 其中-1≤P, A, D≤1。
(3) 融合性格、心情因素的情感模型首先定义性格与心情的映射关系[12]:
式中, 左侧P、A、D分别表示PAD模型中的三个情感维度, 右侧O、C、E、A、N分别表示FFM模型中的5种性格特征。
因性格为五维空间, 而心情为三维空间, 根据式 (1) , 可以得出性格与心情的映射矩阵为:
即:
根据表1中OCC情感与PAD值的映射关系, 得出OCC模型与PAD值的映射矩阵为:
因此, 融入性格、心情以后的改进的OCC情感模型就可量化为:
这样就得到一个10×1的矩阵对情感量化, 本文选取量化值中最大的一个值对应的情感对自然风景图像进行标注并分类。
3 基于改进的OCC情感模型的自然风景图像分类
3.1 图像特征提取
常用的图像视觉特征有:颜色、纹理、形状等, 但通过对人类视觉系统的观察以及结合自然风景图像本身的特点, 我们发现颜色对于人们理解图像蕴含的情感语义起着极为关键的作用;而纹理、形状等特征, 对于自然风景图像来说, 一则图像本身极其不规则, 这些特征的提取比较困难, 二则这些特征对于反映图像情感语义并不明显。因此, 本文提取颜色特征作为反映自然风景图像情感语义的视觉特征。由于HSV (Hue, Saturation, and Value) 颜色空间能更好地反映人类对色彩的认知, 所以我们选择HSV为工作空间, 计算每张图像的颜色直方图, 选取所占比例最大的三种颜色作为该图像的主颜色。
3.2 颜色特征与改进的OCC情感模型的对应关系
日常生活和工作中, 当人们观察一个事物时, 就会产生联想, 同样, 人们在看到一张彩色图像时, 也会因对其刺激最直接的颜色产生联想, 即带着人类本身特有的情感去想象和理解这张图像。例如, 人们看到橙色时, 就会联想到金色的秋天、丰硕的果实, 因此, 它是一种富足、快乐而幸福的颜色, 象征着温暖、欢快、活泼。而绿色是一种非常美丽、优雅的颜色, 它生机勃勃, 象征着希望和生命。本文通过实验调查总结出了颜色与改进的OCC情感模型的对应关系。首先从网上搜集了600张自然风景图像, 采用调查问卷的方式, 调查对象涉及不同年级的大学生和部分工作单位的员工, 年龄在18—45岁之间, 统计调查问卷结果, 将频率最高的词汇及其对应关系进行归纳总结, 其结果如表2所示。
3.3 图像分类实现
鉴于BP神经网络结构简单、泛化能力和容错能力好, 具有较强的自学习和自适应能力, 本文使用BP神经网络构建自然图像分类的训练学习模型。
BP神经网络[13]是一种包含输入层、隐含层和输出层的多层前馈神经网络, 其特点是信号前向传递, 误差反向传播, 根据预测误差调整网络权值和阈值, 从而使得预测输出不断逼近期望输出。本文提出的分类思想如下:
(1) 根据FFM模型提取人的性格特征, 根据式 (2) 计算心情因素量化值;
(2) 提取图像的颜色特征, 根据表2得到的对应的OCC情感词, 并根据颜色直方图中各颜色所占比例, 经过反复实验, 赋予其对应的情感词0.8, 0.6和0.35的权重;
(3) 使用得到的权重分别与表1中对应的情感词的P、A、D值相乘, 更新映射矩阵Y;
(4) 根据式 (3) 计算得到相应图像的情感量化值, 选择最大的一个值对图像进行情感语义分类;
(5) 根据上述思想, 获取训练和测试数据, 构造BP神经网络模型, 实现自然风景图像的情感语义自动分类。
由于输入是4维颜色特征, 待分类的图像共10类, 本文构造了一个4-10-10的网络结构, 隐含层节点数是根据实验调节获得, 使用BP神经网络实现分类的训练学习过程如图1所示。
网络结构建立好以后, 选择一定的训练样本对网络进行训练, 通过调节隐含层节点数, 使得网络具有较强的分类能力。本文选取包含各个类别的450张图像作为训练样本, 其余150张作为测试样本, 期望输出向量为W={w1, w2, …, w10}。图2是BP神经网络的训练过程的结果。
4 实验结果及分析
以Matlab为平台, 开发了一个自然风景图像情感语义分类系统, 分为训练和测试两个阶段。在训练阶段, 我们从600张图像中选择450张不同风格的风景图像作为训练集;在测试阶段, 将剩余的150张图像作为测试集, 计算其在融入性格、心情后的情感语义检索结果。图3是使用BP神经网络预测的分类误差。
图4所示是外向型性格的用户对于蕴含“喜悦、希望”的自然风景图像的检索结果。
另外, 为验证提出的BP神经网络模型分类预测的准确性, 本文随机抽取了85张图像, 与人工计算的基于OCC模型的情感类别相比较, 表3是BP神经网络模型对于5种不同性格类型在10种情感类别下的分类预测准确率。
从表3可以看出, 系统的分类准确率整体上较高, 不同性格的用户对于同一张图像的情感理解在总体方向上是一致的, 但神经质性格的用户的分类准确率偏低, 说明对于同一张图像, 这种性格用户的情感理解是比较复杂的, 变化起伏较大的;另外, 对于情感“失落”和“讨厌”, 系统的分类准确率也偏低, 这充分说明与它们相关的视觉元素在情感理解上是比较模糊的。
从整体上看, 系统融合了人的性格、心情因素, 具有较好的分类效果, 而且自然风景图像应用范围较广, 因此, 本文开发的自然风景图像情感语义分类系统还是具有很强的实用性的。
5 结语
如何让计算机能像人类一样具有识别和表达情感的能力, 实现人机和谐交互是当前人工智能所面临的重要挑战。本文应用OCC情感模型, 融入性格、心情因素, 探索自然风景图像与人类主观理解图像语义之间的关系, 并使用基于BP神经网络的方法建模, 实现自然风景图像的情感语义分类。实验证明BP神经网络在解决情感理解方面的问题具有一定的优势, 实验取得了较好的效果。本文的不足之处及下一步研究方向如下:
(1) 神经网络模型需要大量的训练集, 训练数据越多, 测试结果就越准确, 这会耗费大量的时间和人力资源。如何在小样本集上获得较高的分类标注准确率, 这是我们下一步研究的重点内容。
(2) 自然风景图像蕴含的语义内容特别丰富, 如何更加合理地规范图像情感的类别, 这也是有待我们进一步深入细致研究的内容。
摘要:网络技术的发展和图像获取设备的普及导致数字图像迅速增长, 依靠先进的技术提取图像蕴含的情感语义实现图像情感语义分类正是当前各行业急需解决的问题。为此提出一种基于改进的OCC情感模型的自然风景图像情感语义分类方法。通过融入性格、心情因素描述图像的个性情感, 使用BP神经网络实现, 解决图像分类中的语义理解问题。使用百度图片频道上下载的600张场景图像进行训练和测试, 实验通过与人工计算结果相比较, 取得了良好的分类效果, 可为更多类型的图像情感语义分类打好基础, 具有一定的实用价值。
情感角度诗歌的分类 篇2
⒈借景抒情诗
借景抒情诗(写景抒情诗)或借景表达自己的美好志向,或表达作者对所写景物的喜爱之情以及对祖国大好河山的热爱,或借景体现不愿与世俗同流合污的品质,或借景抒发对人生世事的感慨。借景抒情诗往往是含而不露,蕴藉悠远,情丰意密,深切动人。
⒉咏史怀古诗
怀古(含咏史)诗是诗人在阅读史书或游览古迹时,有感于历史人物或事件的是非,引发出对时局或自己身世的共鸣,借所吟咏的古人、往事来表达自己的感受,抒发自己的情感的诗歌。
咏史诗多以简洁的文字、精选的意象,融合对自然、社会、历史的感触,或凭吊古迹古人来借古讽今;或感慨昔盛今衰,今不如昔;或渴望像古人一样建功立业。从而表现作者阅尽沧桑之后的沉思,蕴涵了深沉的怀古伤今的忧患意识。即诗人往往以历史事件、历史人物、历史陈迹为题材,借登高望远、咏叹史实、怀念古迹来达到感慨兴衰、寄托哀思、托古讽今等目的。如苏轼的《念奴娇 赤壁怀古》表达的是面对古赤壁战场所产生的对古代英雄的赞美和自己壮志未酬的感慨。
⒊伤春伤别诗(闺怨诗)
古代上流社会的女子常因寂闷孤独而面临美好的春光想到自己韶华将逝,更加思念离家宦游的丈夫或天各一方的情人,所以人们就有了“女子伤春”之说(当然这个“春”可以不指季节,而指恋情)。
伤春伤别诗往往借对春光消逝的记叙描写或表达对戍边丈夫的思念,或写春光(青春)易逝,光阴不再的感伤,或表达对战争的厌恶。
⒋羁旅行役诗
出门在外的游客浪子,眼中所见、耳中所闻、心中所感都包含着由此触发的对遥远故乡的眺望,对温馨家庭的憧憬。或写游子漂泊的羁旅愁苦,表达对家乡的思念,或由所见所闻所感触发思乡之愁,表达对亲人的牵挂。
这类许多诗人的诗中都有,尤以杜牧、李商隐、柳永、秦观、李清照为著。这类诗词亦可称之为思乡怀人诗,其特点多借景抒情,寓情于景,望月伤心,见花落泪,听雨思亲,多少景物都被染上诗人的感情色彩,因而此类诗中常将伤感、迷离、凄苦、寂寞、孤寂、惆怅、忧郁的情怀及种种离愁别绪表现得淋漓尽致,又很婉约、含蓄。
⒌山水田园诗
中国山水田园诗源远流长。唐朝开元、天宝年间形成了一个重要诗派——山水田园诗派。诗人们以山水田园为审美对象,把细腻的笔触投向静谧的山林,悠闲的田野,创造出一种田园牧歌式的生活,或借以表达对现实的不满,厌恶官场、远离浊世,对宁静平和的田园生活生活的向往;或描写美丽的自然风光,表达对壮丽山河热爱;或表现归耕隐居之乐,多抒发质朴、清新、恬淡、闲适、物我两忘的感情,表现不同流俗的清高,追求隐逸,有消极避世的思想。他们的艺术成就颇高,具有用语言艺术再现自然景物的能力。景物逼真,情景交融,意境优美,诗风恬静清朴,而少奔放雄浑。代表作家如陶渊明、谢灵运、谢眺、王维、孟浩然、储光羲、常建等。
⒍托物言志诗
古人很喜欢咏物,仅《全唐诗》便有6021首,初唐504首,盛唐746首,中唐1455首,晚唐3556首。自然界中的万物,大至山川河岳,小至花鸟虫鱼,都可以成为诗人描摹歌咏的对象。他们在细致描摹的同时,寄托自己的感情。——这就产生了咏物类诗歌。
“咏物隐然只是咏怀,盖个中有我也。”——刘熙载《艺概》
诗人不直接表露自己的思想、感情,而是采用比喻、象征、兴寄等手法,把自己的某种理想和人格融于某种具体事物(常有松、竹、梅等意象),即借所咏之物表达自己的情操志趣。或托物显示自己的高洁品质,或托物抒发怀才不遇的伤感。
⒎即事抒怀诗
即事感怀,指的是诗人就某件事发表自己的议论,抒发自己的感慨。古人常以“即事”为题写诗,因一点事由而生发,抒写心中的感慨,或忧国忧民;或反映离乱;或渴望建功立业;或仕途失意闺中怀人;或讴歌河山。所谓“即事”诗,一般来说无严格的界定。许多其他题材的作品,例如怀亲、送友、思乡、赠人、人生感悟、闲情逸趣等等,一般皆可笼统称之为“即事感怀诗”。
⒏边塞征战诗
边塞诗派指唐朝开元、天宝年间形成的一个以反映唐朝边疆战争生活为主要内容的诗歌流派。代表作家有高适、岑参、王昌龄、李颀、王之焕、王翰等。他们继承汉魏乐府及六朝、初唐诗人鲍照、陈子昂等的传统,多以诗歌描写边塞山川景物、风土人情;他们的诗或描写塞外风光,或表现戍边将士杀敌立功的慷慨激昂及捐躯赴国难的悲壮;或反映将士不畏辛劳、保卫边陲的战斗精神;或描写望月思乡的苍凉和长年征战的悲苦,将士和亲人相互思念的深沉情感及其不幸遭遇;或讽刺并劝谏拓土开边、穷兵黩武的统治者,表达对战争的厌恶,对和平的向往。在创作风格上多以雄浑豪放、奔腾峻伟见长。
⒐谈禅说理诗
诗人把自己类似禅宗的顿悟或事理的体察诉之于笔下,这类诗歌往往与咏物言志诗有共同的特点,分析时要注意把握。
如苏轼的《题西林壁》诗曰:
横看成岭侧成峰,远近高低各不同。不识庐山真面目,只缘身在此山中。
诗中的“庐山”便含有比喻义,后两句的议论隐含许多哲理,既蕴含看待任何事物和问题都应一分为二的意思,又隐含任何一个问题都有多种答案的哲理,还含有和俗话所说的“当局者迷,旁观者清”一样的道理,只不过这句俗话纯乎说理,而苏轼是以形象来喻理。
⒑赠友送别诗
“黯然销魂者,惟别而已。”(江淹《别赋》)作为至情至性的诗人,与挚友分别时,心中会产生一种不吐不快的激情。因此,在古诗词中国诗坛上,赠友送别诗是中占有相当大的比例,而且内容丰富,可谓“说尽故人离别情”。这类诗歌主要抒写离别之情,借对送别情景的描写,表达达依依不舍的离情别绪,或留恋、或安慰、或嘱咐、或祝愿;有伤心、有惆怅、有期望等。
古代的交通不发达,人们“相见时难别亦难”,诗人们抒写了大量的这类诗词,给后人留下了宝贵的精神财富,其中不乏脍炙人口的名篇佳作。这些作品大多写得情真意切,感人肺腑,余味深长,令人击节叹赏:“孤帆远影碧空尽,唯见长江天际流”,诗人无尽的友情熔铸在诗情画意中;“劝君更尽一杯酒,西出阳关无故人”,诗人深挚的情谊包含在殷勤的祝福中;“惟有相思似春色,江南江北送君归”,诗人的相思之情充塞在天地春色中;“莫愁前路无知己,天下谁人不识君”,诗人的质朴与豪爽寄托在朴素无华的语言中;“洛阳亲友如相问,一片冰心在玉壶”,诗人晶莹透明的冰壶装下了理解和信任……
⒒闲适隐逸诗
一些诗人看惯了官场的勾心斗角,世俗社会的浑浊不堪,退居田野乡间,与乡人为伍,与明月作伴,抒写清闲安逸生活,吟咏情性。反映这些生活的诗歌,或表达清闲恬淡的心情,或表达对隐居生活的向往,有不少令人拍案之作。
这类诗所表现的思想内容与山水田园诗相近或相同,在分析时可结合起来。
⒓悼亡游仙诗
图像情感分类的研究 篇3
图像情感语义分类的关键是如何提取有效表达图像情感的视觉特征, 并根据视觉特征与高阶语义的对应关系, 选择合适的分类算法。当前研究中一般选择某一类图像, 如服装图像、天气图像等, 在提取图像的视觉特征中大都采用某一个视觉特征或者组合两个视觉特征, 高层语义分类一般是一对相反的形容词, 如服装图像为“优雅”的和“俗丽”的, 天气图像为“喜欢”的和“厌恶”的等, 通常采用神经网络和支持向量机等方法进行分类。
1 图像的主要视觉特征
1.1 颜色特征
颜色特征是一种全局特征, 有多种提取方法, 可以分为两大类:一是提取全局颜色信息的颜色特征;二是提取局部颜色信息的颜色特征。
在提取颜色特征中颜色直方图是常用的有效方法, 它反映了不同色彩在图像中的比例。数字图像大部分是基于RGB颜色空间的, 但RGB空间结构在颜色相似性上与人们的主观判断不一致, 所以多选择基于HSV等空间的颜色直方图[1]。
1.2 纹理特征
纹理特征也是一种全局特征, 常用的特征提取与匹配方法:灰度共生矩阵、Tamura纹理特征、Gabor小波变换等。
灰度共生矩阵主要提取能量、惯量、熵和相关性4个参数;Tamura纹理特征主要用粗糙度、对比度、方向度、线像度、规整度和粗略度6种属性表示;Gabor变换用Gabor核函数与样本卷积, 分别提取数据的均值和方差作为特征数据, 获得原图在不同频率和相位下的小波系数, 使每个样本得到一个多维特征向量用于分类[2]。
1.3 形状特征
形状特征是图像的一个重要特征, 常用两类方法表示, 一是轮廓特征, 二是区域特征。轮廓特征针对的是物体的外边界, 区域特征则是整个形状区域。常用来描述形状特征的方法有:边界特征法、傅里叶形状描述符、几何参数法、不变矩法等。
边界特征法用边界特征的描述得到图像的形状参数, 经典方法有Hough变换检测平行直线和边界方向直方图;傅里叶形状描述符采用物体边界的傅里叶变换描述形状;几何参数法是描述区域特征方法;不变矩法利用目标所占区域的矩描述参数。
2 情感空间的建立
图像情感语义的提取, 是将图像映射到一个情感空间, 每个图像对应着情感空间的一个点, 每个点代表某种情感的描述, 这样点之间的距离对应着图像的情感距离, 即把观察图像后感受到的情感信息用语义描述, 并定量比较。
根据实际情况, 常构造一些简化的情感空间模型。Colombo等建立的是图像到愉快、紧张、放松、动感这几个基本情感的映射[3];毛峡等根据1/f波动理论, 主要讨论了图像中和谐舒适、杂乱、单调三类情感感觉[4]。
目前获得人们对图像主观情感的方法, 多采用调查法, 即选择尽可能多的不同年龄、背景、文化程度等的人对图像进行情感描述。
3 图像情感分类识别
目前常用的是基于人工神经网络分类方法和基于支持向量机的分类方法。
3.1 人工神经网络
人工神经网络用计算机模拟生物机制, 它不用对事物内部机制很了解, 系统的输出由输入和输出之间的连接权决定, 连接权是通过对训练样本的学习获得的。比较有代表性的网络模型有感知器、多层前馈BP网络、RBF网络等。
3.2 支持向量机
支持向量机的基础是统计学习理论, 设计原则是结构风险最小化, 针对的是有限样本的一种机器学习算法, 它的优势是在解决模型选择与过学习问题、非线性与维数灾难问题、局部极小值问题等问题上很有效, 基本原理是通过非线性变换把输入空间变换到高维空间, 然后在新空间中获得最优或是广义最优线性分类面。
4 总结与展望
图像的情感语义研究是一个较新的研究方向, 对这个领域的研究还不多, 很多问题研究的还不够深入。目前的研究存在的局限主要有:一是图像的选取比较单一, 只能分类描述同一事物的图像, 如天气、衣服图像;二是反映图像情感的视觉特征比较少, 多是用颜色特征描述情感, 用纹理和形状描述情感还不多, 将多种视觉特征融合起来更少;三是对图像的情感分类比较少, 多是二分类, 少有多种分类的研究, 而一幅图像蕴含着多种情感, 一对或较少的形容词并不能有效反映图像的情感。今后图像情感的分类要在以下几方面多做研究:一是扩大图像的选择范围;二是有效选择融合尽可能多的视觉特征;三是丰富对图像的情感分类。
由于图像的情感研究涉及到众多学科领域, 研究起来有一定难度, 对它的研究还在初步阶段, 要解决的问题还比较多, 所以发展潜力很大。
参考文献
[1]贺静.基于特征融合的服装图像情感语义分类研究[D].太原理工大学, 2007.
[2]赵志艳, 杨志晓, 李卓瑜, 等.一种基于纹理特征的笔迹鉴别方法[J].微计算机信息, 2010, 26 (1-2) .
[3]C Colombo, A Del Bimbo, P Pala Semantics in Visual Information Retrieval[J].IEEE Multimedia, 1999:6 (3) :38-53.
网络环境下中文情感倾向的分类方法 篇4
随着互联网的飞速发展,网上信息急剧增长。虽然海量的信息资源可以为我们带来极大的便利,但纷乱庞杂的信息也令我们不知所措。如何快速有效地利用网络信息已成为人们关注的焦点。目前已相继展开了大量的网络信息挖掘的研究工作,并已有成熟的成果问世,例如网络信息的主题分类技术[1]等。但对网络信息其他领域的研究却相对匮乏,例如互联网上中文情感倾向的分类问题就很少有人研究。
互联网是一个信息仓库,中文文本不计其数。这些中文文本不仅表达思想,而且还蕴含丰富的情感。以往人们对中文文本内容的关注,往往仅着眼于对文本内容的分析,而忽略了中文文本的情感因素。我们知道,情感是中文文本的重要组成部分,仅关注内容不关注情感是很难完整反映作者意图的。本文在对互联网中文文本进行情感分析中,主要关注的是如何对中文的情感倾向进行分类,这在现实问题中有广泛的应用前景。例如,在进行网上调查时,可以从客户的反馈中分析出对所评论对象持肯定还是否定态度;在对售后服务进行评论时,可以分析出客户是在称赞还是批评等。
二语义倾向分析
网络中文信息以文本形式存在,因此挖掘互联网中文信息需要借助文本分类工具。目前大多数文本分类工具都是基于词语间的相似度或文档中的词频数进行分析的。这些工具通过对训练文本的训练,统计出相关类别中词语的出现频度或概率,然后根据目标文本中相关词语的频度信息判别出其类别。运用这些工具一般有一个潜在的假设前提,即文本类别的清晰度取决于词语出现可能性的分布,同时还需假设文本中词语间是相互独立的。但对情感词语而言,这两个假设有很大问题。因为某些词语虽然出现的可能性很大,但有可能不表达任何情感倾向,与类别无关。另外,文本中情感词语基本上是相互关联、互相影响的,不可能相互独立。
国外在进行文本情感研究时结合语言学提出了基于语义倾向分析的方法来对文本的情感信息进行分类,即通过语义学与数据挖掘相关理论的结合,利用中文文本中词组的感情色彩来研究整个文本的情感倾向。本文将利用此方法来对中文文本的情感倾向进行分类。
语义倾向是指一个词与其反映一个概念最主要特征的偏离度,是针对评价性语言的一种量度。它用两个维度[2]来衡量,一个是偏离方向,另一个是偏离强度。偏离方向指该词汇表达的意义是属于正面还是负面的,在评价文本时指一个词语是赞成的还是反对的。偏离强度指该词汇所表达的正面或负面意义的强度,在评价文本时指词语赞成或反对的强烈程度。
由于语义倾向是针对形容性词汇的,它体现的是一种评价取向,因此该方法较少运用于文本的主题分类而主要应用于体现情感观点的评价文本分类。
三基于语义倾向的语义分析方法
语义分析方法是通过分析每个词体现出来的情感态度倾向来分析文档的情感倾向[3]。通常先从文档中提取一系列体现文档情感态度的词汇作为文档的特征向量,然后分析向量每一个维度的倾向(即提取出来的每一个词汇的倾向),进而确定整篇文档的情感倾向。
按照语义倾向分析方法,为了分析单个词汇的语义,需要采用两个衡量标准:倾向和强度。倾向表示一个词是正面还是负面;强度表示该词的正、负面情感色彩的强烈程度。
对英文文本而言,目前常用的语义分析方法主要是通过分析词语间的关联程度来分析词语的语义倾向,其中逐点分析方法应用最为广泛。该方法通过统计词语间共同出现的次数来计算两个词语间的语义倾向,具体计算公式如下:
undefined
其中,p(word1 & word2)是word1和word2共同出现的概率,p(word1)是word1出现的概率,p(word2)是word2出现的概率,两者的比值是word1和word2统计独立性的度量,值为零时两者统计独立,值越大两者的统计相关性也越大。
利用逐点分析方法,一个词汇的语义倾向可以按下列公式计算:
SO(phrase)=PMI(word,“excellent”)-PMI(word,“poor”) (2)
当word的语义倾向靠近excellent时,SO(phrase)为正,反之为负。为了计算估计词汇出现的概率,可以采用信息搜索的方式,通过搜索引擎搜索词语出现次数来估算词语出现的概率。
综上所述,Peter D.Turney (2002)使用基于语义倾向的语义分析方法通常有以下步骤:
1)用语言处理工具对文本进行词性标注。
2)进行文档的预处理,然后从已进行完词性标注的文档中提取出连续的两个词语,其中至少有一个是形容词或副词,因为形容词和副词可以表明文档的态度倾向,而其他词语组合用以阐述文章的内容。
3)运用语义倾向技术,根据公式(3)计算提取出来的词语组合的得分。该得分用来衡量词语本身的态度倾向(是更贴近于正面还是负面),全篇文档的得分等于所有提取词语得分的平均值。
SO(phrase)=PMI(word,“excellent”)-PMI(word,“poor”)
undefined
其中hits(x)表示在搜索引擎中查询词“x”返回的页面数。
4)将文档得分与阈值进行比较来决定文档是正面还是负面的,其中阈值由实验人为确定,大于阈值为正面,小于阈值为负面。
四中文文本的情感分析
将上述应用于英文文本的情感分析方法直接照搬到中文会面临很多困难,因为中文情感信息分类与英文情感信息分类有很大的不同,主要体现在以下三个方面:
1.中英文的词性标注不同。例如,“是”在中文中是动词,“is”在英文中则是be动词。
2.对于影响分类准确性的关键因素——阈值,英文运用中只是简单地取零作为阈值。我们在实验中发现,零阈值无法正确反映中文文本的情感倾向,因此阈值的选取是中文情感倾向分类无法回避的问题。
3.国外在运用语义倾向方法进行情感文本分类时,其参考词汇对是根据五星级评价系统[3]事先确定的(为excellent,poor),而中文没有这样的评价标准,因此要运用语义倾向方法进行语义分析,就不可避免地面临挑选参考词汇对的问题。
为解决上述问题,本文对Peter D.Turney (2002)中的方法做了以下改进。
1.鉴于网络环境下很多中文文本常常掺杂着大量与研究目的无关的内容,这些内容往往与文档蕴含的情感无关,为了准确确定文档的情感倾向,本文运用模式匹配的方法,提取出其中符合一定模式的主观性语句。
2.为使阈值能正确反映整篇文档的情感倾向,本文分别选取等量有代表性的正面文档和负面文档作为典型文档,并根据以下步骤确定阈值:
1)按照原方法中的提取模式从典型文档中提取出所需要的词汇。
2)根据语义倾向方法计算所有提取词汇的语义倾向得分。
3)计算每篇文档中所有提取词汇的语义倾向得分的平均值,将此平均值作为该文档的语义倾向得分。
4)计算所有文档语义倾向得分的平均值,取此平均值为阈值。
3.在挑选参考词汇对过程中,先挑选一些正面词汇和负面词汇[4],然后两两组合,再利用组合得到的参考词汇对分类给出正负面词汇,分类效果最好的选作最终的参考词汇。例如,挑选出正面词汇“深奥”“乐观”,负面词汇“浅薄”“悲观”。两两组合后,可以得到“深奥浅薄”“深奥悲观”“乐观浅薄”“乐观悲观”四个候选的参考词汇对,计算在每一个参考词汇对下,两个正面词汇的语义倾向平均值和两个负面词汇的语义倾向平均值,两个值相差最大则区别效果最好,选用此时的参考词汇对作为最终的参考词汇对。
综上所述,我们可以得到如下的中文文本情感倾向分类方法。具体步骤如下:
1)利用中国科学院计算所软件室的中文分词工具ICTCLAS[5]实现文档的中文分词及词性标注工作。
2)提取文档中体现主观的语句。
3)从已标注的文档中提取表明文本情感倾向的双词词组。
4)利用人工产生的正面和负面词汇对产生参考词汇对。
5)对提取出的相应的词组,根据公式(4)计算该词组的语义倾向值。
词组语义倾向值undefined
6)分别选取一定数量的正面负面典型文档,计算每个文档的语义倾向值,取典型文档的语义倾向值的平均值作为阈值。
7)对于文档的语义倾向值,若该值大于阈值则属于正面情感倾向文档,反之则属于负面情感倾向文档。
五实验结果
为了验证语义倾向方法在中文文本情感倾向分类上的有效性,本文采用基金评论作为文本测试集。
目前普通百姓购买基金的热情高涨,网络上对各种基金的评论铺天盖地,但由于尚无人对网络中的基金评论文档的情感倾向进行分类,因此没有直接可用的基金评论文档。我们在网上对相关的基金评论文档进行了大量的搜索和比较,最终锁定了提供基金评论多且资料比较丰富的中国基金网[6],通过整理网站上所有的基金评论文章,去除情感倾向不明显或未置可否的评论,最终选出500篇基金评论文档,并对所有文档认真审查,分别予以归类,最终得到305篇正面评论,195篇负面评论。然后从中分别选出40篇正面文档、40篇负面文档作为最终的基金评论测试集。
实验1 基于语义倾向的语义分析方法
直接运用基于语义倾向的语义分析方法对基金评论进行分类。按照Peter D.Turney (2002)的方法,挑选卓越(与excellent对应)和乏味(与poor对应)作为参考词汇对来计算词汇的语义倾向值,取0为阈值。实验结果见表1。
由表1可见,正面文档的查全率是a/(a+c),即0,准确率是a/(a+b),也是0。负面文档的查全率是d/(b+d),即50%,准确率是d/(c+d),即50%。上述实验中将所有正面文档均判断为负面文档,其结果甚至不如随机分类,这样的性能显然不能正确反映基民的情感倾向。
实验2 中文文本的情感信息分析方法
采用本文第4节针对中文文本的情感信息分析方法对基金评论进行分类。这涉及到主观性语句的提取。
本文采用机器训练的方法来提取主观性语句。首先选择30篇基金评论和30篇基金介绍文档。将文档分解成句子后,共得到611个基金评论的句子和420个基金介绍的句子,其中基金评论有3895个不同的词语,基金介绍有3071个不同的词语,共有6966个不同的词语,词语的划分根据CTCLAS得到,分词标准以北京大学词性标注集为标准。结果显示,所得到的主观性词语覆盖面比较大。
对分句后基金评论和基金介绍文档采用互信息的方法计算基金评论中每个词语互信息的大小并从大到小排序,取最靠前的240个词语。将这240个词语两两搭配共得到57600个词语组合,再计算每一组合在基金评论中的互信息,计算时以每一个组合匹配的句子数量作为组合出现的次数。
通过对上述57600个词语组合的计算,按照每个组合的互信息的大小排列,最终得到65个词语组合。将这65个词语组合重新运用于语句训练集中以判断一句话是否主观性的。判断规则为:若一个语句匹配上述任一个词语组合,则该句子为主观性语句,反之为客观性语句。实验结果见表2。
采用与对正面、负面文档进行分析的相同方法,可以算出总体的准确率是(392+321)/(392+63+210+321)=72.31%。主观性语句的查全率是392/(392+210)=65.12%,准确率是392/(321+63)=86.15%。客观性语句的查全率是321/(321+63)=83.60%,准确率是321/(321+210)=60.45%。因此,总体的准确率和微观查全率和准确率都比较理想。
为了进一步验证新方法的性能,我们再将该方法应用于测试集上。具体结果见下页表3。
由表3可以算出,总体的准确率是(409+301)/(409+134+203+301)=67.81%。主观性语句的查全率是409/(409+203)=66.83%,准确率是409/(409+134)=75.32%。客观性语句的查全率是301/(301+134)=69.19%,准确率是301/(301+203)=59.72%。
由表3的结果可知,该方法对主观性句子的判断准确性比较理想(达到75.32%),总体的准确率有所下降。这是因为在文本内容繁多的情况下,噪声数据会急剧增多,从而对分类器的判断有一定的干扰。尽管如此,与直接运用基于语义倾向的语义分析方法的实验1相比,分类器的性能仍然有很大的提高。
六结论
中文文本的情感倾向分类是中文信息处理的研究热点,已受到国内外的广泛关注。语义倾向方法已广泛应用于英文文本并被证实具有良好性能,本文将这一方法进行适当改进后运用于中文文本的情感倾向分类中。实验结果表明,改进后的方法应用于中文文本的情感倾向分类,不仅可以明显提高整篇文档情感分类的准确性,而且微观查全率和准确率也都有比较理想的表现。另外,本文方法不需要大量训练样本,对领域知识有较弱的依赖性,因此展示出广阔的应用前景。
参考文献
[1]Pimwadee Chaovalit&Lina Zhou.Movie review mining:a comparison between supervised and unsupervised classification approaches(A).Proceedings ofthe38th Hawaii International Conference on SystemSciences.2005:939~947.
[2]Ellen Riloff,Janyce Wiebe,Theresa Wilson.Just how mad are you?Finding strong and weak opinion clauses(A).Proceedings ofthe19th National Conference on Artificial Intelligence.2004:761~767.
[3]Peter D.Turney.Thumbs up or thumbs down?Semantic orientation applied to unsupervised classification of reviews(A).The Association for Computational Linguistics40th Anniversary Meeting,New Brunswick,N.J.,2002:417~424.
[4]万艺玲,郑振峰,赵学清.词汇应用通则[M].沈阳:春风文艺出版社,1999.
经典信息检索模型的分类比较 篇5
信息检索技术在许多领域中都有相应的应用,例如:Web搜索引擎、图形图像检索、视频检索、构件检索等。在这些领域中,采用的主要检索模型都是以信息检索中的经典模型为主。从数学理论角度来看,信息检索模型可以分为集合论模型、代数论模型和概率论模型。其中,集合论模型以布尔模型为基本模型,加入集合论理论进行扩展;代数论模型是在向量模型的基础上,添加特殊假设前提构造不同的信息检索模型;概率论模型以概率模型为基础,增加推理网或信任网理论。图1显示了从数学理论角度对信息检索模型进行的分类。
在信息检索中,信息对象和用户的信息需求都是使用一组索引术语集合标识的。因此,存在信息丢失或遗失的现象,信息检索结果的精确度并不是很高。为了提高检索结果的准确率,就需要预知文档和检索需求的相关度,这就依赖于对检索结果中的文档进行排序的算法(ranking algorithm)。不同的计算文档相关度的假设前提就会导致不同的信息检索模型。由图1可以看出,经典信息检索模型主要有三类:布尔模型、向量模型和概率模型。在经典模型中,使用一组关键字(称为索引术语)来描述每篇文档。一般索引术语是一个名词或名词词组。假设ki是一个索引术语,dj是集合中的一份文档,则使用wi,j≥0说明描述文档dj的术语ki的重要程度。用户的信息需求Q也表示成索引术语的集合。不同的检索模型中,相似度函数sim(dj,qi)是不同的。
1 布尔模型
布尔模型是基于集合论和布尔代数的检索模型。因此,查询请求表示为由not、and和or构成的索引术语的布尔表达式,例如,[q=ka∧(kb∨kc)],它可以转换为析取范式(DNF),并且,索引术语ki与文档dj相关联的权重是二元的,即wi,j∈{0,1}。
对于布尔模型,索引术语权重的取值范围为wi,j∈{0,1}。查询请求q是一个传统的布尔表达式,是查询请求q的析取范式。此外,假设的任意合取构成因子。文档dj和查询请求的相似度被定义为:
在布尔模型中,如果sim(dj,q)=1,则表示文档dj和查询请求q是相关的;否则,是不相关的。
2 向量模型
由于二元权重并不能对检索出来的文档进行相关度排序,因此,需要使用非二元的权重计算文档和查询请求的相关度。向量模型就是这样一个信息检索模型,索引术语的权重是非二元的,并且使用索引术语的权重计算索引术语和文档的相关度,以及索引术语和用户查询请求的相关度。向量模型可以对检索结果中的文档按照与查询请求的相似度的不同进行排序。
向量模型中,权重wi,j是一个和(ki,dj)相关联的非二元的正数。查询请求中的索引术语也带有权重。假设wi,q是一个和(ki,q)相关联的权重,其中wi,q≥0。定义查询请求向量,其中,t是系统重索引术语的总数。文档dj的向量可以表示为。
因此,文档dj和用户的查询请求q都被表示成一个t维向量。文档dj和用户的查询请求q的相似度可以表示为向量dj和向量之间的夹角θ的余弦cosθ。即:
在向量模型中,如何计算索引术语的权重是一个重要问题。目前有许多方法计算索引术语的权重。其中,TF-IDF是最常见的方法。表1给出了TF-IDF方法中使用的符号及其定义。其中,tfi,j是一个度量术语ki描述文档dj效果的因子,idfi是一个体现术语ki在系统的术语集中的重要程度的因子。根据TF-IDF方法,索引术语和文档的相关度为TF和IDF的乘积,即wi,;j=fi;j×idfi。然而,索引术语和查询请求q的相关度为。
3 概率模型
概率模型是基于一个基本假设(概率原理)的:给定一个用户的查询请求和集合中的一篇文档dj,概率模型尽量评估用户找到相关的文档dj的概率。模型假设相关的概率只依赖于查询请求和文档的描述。并且,假设针对查询请求q,存在一个结果集的子集。
概率模型中,索引术语的权重也都是二元的,即wi;j∈0,1;wi,q∈{0,1}。查询请求q是一个索引术语的子集。假设R是已知的相关的文档的集合,是R的补集(即不相关的文档的集合)r定义为文档dj和查询请求q相关的概率,为dj和q不相关的概率。则文档dj和查询请求q的相似度为:
根据贝叶斯概率公式,相似度函数可以变为:
其中,表示从集合R中随机选择文档dj的概率,P(R)表示从文档全集随机选择文档是相关的概率。由于,对于文档全集而言,随机选择文档相关的概率和不相关的概率是一样的,即,所以有。假设索引术语之间是相互独立的,所以可以使用术语ki表示集合R中文档的概率(记为P(ki|R))来转化相似度函数:,对上式取对数,并且考虑,得:
其中,P(ki|R)和可以使用下面的递归迭代的方法进行计算:
其中,ni是包含索引术语ki的文档数,N是集合中文档总数,V是进行检索的构件子集,Vi代表集合V中包含索引术语ki的文档的集合。初始的设定为V=1和Vi=0,终止条件为V=N,Vi=ni。
4 经典模型的比较
根据定义信息检索模型的定义和模型的优缺点,我们给出布尔模型、向量模型和概率模型的简要比较,如表2所示。经典模型中,文档都使用向量来描述,只是术语的权重取值不同。
5 扩展的集合论模型
5.1 扩展的集合论模型
在布尔模型中,权重的取值只有二元(0和1),然而二元权重并不能对检索出来的文档进行相关度排序。扩展的集合论模型也主要是从权重计算的角度对布尔模型进行扩展。模糊集合模型采用模糊集合论对查询请求和文档进行建模,采用计算术语之间的关联性的方法扩展术语的权重;扩展的布尔模型一种在布尔模型中使用向量模型的术语权值计算的检索模型,采用了对布尔操作符进行运算扩展,将相似度计算转换为欧几里得距离,以避免布尔模型的权重二元的缺点。
5.2 扩展的代数模型
在向量模型中,要求术语之间相互独立,但是,往往选取的索引术语并不可能相互独立,因此需要对向量模型进行扩展。广义向量空间模型的核心思想是引入相互正交的向量集合,代替原有的索引术语在,广义向量空间模型中将不相互正交的t个术语转换为2t个子项,每个子项对应一个2t-维向量,这些向量之间彼此相互正交;潜在语义索引模型核心思想是将文档和查询请求映射到一个较低纬度的概念空间,即对术语-文档矩阵提取特征向量和奇异值,进行降维运算,从而得到低维的文档-文档关联矩阵,根据该矩阵直接进行检索;神经网络模型将“查询请求-术语-文档”的匹配转换为神经网络模型,通过信号传递的过程,可以进行用户反馈参与的检索。
5.3 扩展的概率模型
扩展的概率模型主要采用的是贝叶斯网络。贝叶斯网络是一个有向无环图,节点代表随机变量,边代表变量之间的因果关系,使用条件概率表示因果程度。其中,推理网络模型和信任网络模型是最常见的两种基于贝叶斯网络的概率模型。推理网络模型是从“文档-术语-查询请求”的贝叶斯网络,因此,其样本空间不确定;信任网络模型是“文档-术语”和“查询请求-术语”结合的贝叶斯网络,其样本空间确定,即为术语的集合。
6 结论
目前,信息检索的研究已经趋于成熟,并且大多技术和方法都已经应用到许多领域中。信息检索的主要问题之一就是检索模型问题,即如何计算文档和查询请求的相似度,根据文档和查询请求的相似度检索文档,产生相应的排序序列。信息检索中,基本的检索模型为布尔模型、向量模型、概率模型以及这三个模型的扩展模型。这几种模型在具体使用的时候各有优劣,因此,在设计具体的检索系统时,需要分析检索对象的特点,采取合适的检索模型。
摘要:信息检索的模型,主要是用于检索和排序的计算用户查询请求和信息的匹配程度的问题。目前已有的检索模型有布尔模型、向量模型、概率模型以及以上三个经典模型的变形模型。通过对经典模型进行分析比较,以便在设计具体的检索系统时,根据检索对象的特点,采取合适的检索模型,提高检索效率。
关键词:信息检索,经典模型,扩展模型
参考文献
[1] Salton, G. and Buckley, C. Term weighting approaches in automatictext retrieval. Information Processing and Management, 24(5):513–523. (1988).
[2] Fuhr, N. Probabilistic models in information retrieval. The Computer Journal,35(3):243-255. (1992).
[3] Ogawa, Y., Morita, T., and Kobayashi, K. A fuzzy document retrieval system using the keyword connection matrix and a learning method. Fuzzy Sets and Systems,39:163-179. (1991).
[4] Salton, G., Fox, E., and Wu, H. Extended boolean information retrieval.Communications of the ACM, 26(11):1022-1036. (1983).
[5] Zadeh, L. Readings in Fuzzy sets for intelligent systems, chapter Fuzzy sets.Morgan Kaufmann. (1993).
[6] Wong, S., Ziarko, W., and Wong, P. Generalized vector space model in information retrieval. In Proceedings of the 8th ACM SIGIR Conference on Research and Development in Information Retrieval, pages 18-25, New York, USA. (1985).
一种增量贝叶斯分类模型 篇6
在信息技术时代,各种信息以几何倍数的形式增长,如何对这些信息进行整理分类成为人们所关心的问题。传统的分类也就是我们常说的非增量学习分类算法如朴素贝叶斯,神经网络等。它们有一定的局限性,因为我们需要手动标注大量的训练文本,导致大量时间的浪费。增量学习分类算法可以有效的解决这个问题,它通过在已有的知识基础上边学习边分类,同时在新增加知识库的基础上分类可提高分类的准确度。贝叶斯分类是一种可靠的分类方法。本文将贝叶斯分类和增量学习分类算法结合提出了一款增量贝叶斯模型,对理论方面进行了详细的说明还给出了实验验证。结果发现这款模型具有较高的可靠性。
2增量学习的思想
增量学习是以前训练学习结果的基础上,对新增加的样本数据进行学习。它是在没有忘记以前学习的知识连续学习过程。
将增量学习的思想运用于分类中就得到增量学习分类算法。它是将新增的样本作为增量,随着分类过程的推进,这些新增样本被逐一加到训练集这些样本杯加入到原始训练器进行训练,并用更新的训练器来预测未来实类类别,直至增量集为空。采用这种分类算法,随着训练样本的持续增加和增量学习过程的不断进行,所得分类器的分类精度会不断提高,它无需浪费存储空间,从而减少了时间,节省了存储空间。
3贝叶斯增量学习模型
这里当有新的样本加入时,当前的后验信息变成下一次更新过程中的先验信息。
4增量贝叶斯分类器算法
4.1算法设计
4.2算法描述
基于以上叙述,将算法思想整理并描述如下:
输出:分类器CIncrent-Bayes过程:
Step1:利用分类器D,学习分类器Cbayes;
Step2.1:利用现有的分类器Si,获得最大后验概率Pmax
Step3:对于反馈集用遗传算法生成最优特征子集来更新反馈集;
5实验
本次实验建立增量贝叶斯的分类模型,对搜素引擎检索的问句进行分类,从而让系统快速的查询答案类别对提升搜索引擎系统具有重要意义。
本次问句分类体系包括询问描述类、人物类、地点、数字、实体、时间,每个大类又包含一些不重复的小类,如人物包括人物列举和特定人物等等。
5.1实验过程
在训练过程中,先将已经分类好的问句类别进行问句内容的分词预处理和特征提取,将其表示成向量形式,建立最初的问句分类器在问句的分类过程中,当新问句到来时,将其向量化表示,然后根据已经建立好的分类器对该问句进行分类处理分类。具体含以下三点:
5.1.1问句样本的预处理
5.1.2问句样本的特征提取
设问句的类变量C={C1,C2...Ci},其中i=1,2,3...问句的特征提取主要选取一些能代表问句类型的特征项,常用的特征提取方法主要有文档频数,信息增益,互信息等。我们可以通过问句中的词法、句法、语义三个角度提取特征。
5.1.3利用增量贝叶斯算法实现问句分类
在问句分类过程中,不断有新的实例的加入,可以充分利用这些问句中的有价值的信息来更新分类器中的参数,实现增量式的动态学习,实现边学习先分类。
5.2实验结果
在本次试验中,我们对所设的6大类和各小类通过建立三种分类器模型即传统朴素贝叶斯分类器、改进贝叶斯分类器以及增量贝叶斯分类器。这里对增量式贝叶斯分离器还进行具体划分,根据增量集的多少分为增量贝叶斯分类器A,增量贝叶斯分类器B,增量贝叶斯分类器C。图1为各分类器分类准确率的结果。
5.3实验分析
通过以上实验看出利用增量贝叶斯建立的分类器分类效果最好且随着增量集的增加,分类精度越来越高。
6结论
随着数据化时代的到来,各种信息纷涌而至,对各类信息有效分类成为当下研究热点。传统的分类耗时长,分类效果低。本文提出了一款增量式分类模型可实现对样本学习和分类并行工作的,具有分类准确率高耗时短等特点,可靠性较高。
摘要:在大数据时代,如何对数据信息进行合理的分类管理十分重要。传统的分类是采用批量分类,不过当数据规模较大时,这种方法效果就不是那么好了。本文提出的一种增量贝叶斯分类模型,具有耗时短分类精度高,通过实验验证,可以看出分类效果显著。
关键词:大数据,批量分类,增量贝叶斯分类
参考文献
[1]郝春风,王中民.一种用于大规模文本分类的特征表示方法[J].计算机工程与技术,2007,43(15):170-172.
[2]丁厉华,张小刚.一种基于类支持度的增量贝叶斯学习算法[J].计算机工程,2008.34(22):218-222.
基于质心迁移的领域适应性情感分类 篇7
随着Web2.0的迅速发展,网络上出现了大量的主观信息,对这些主观性文本进行分析和挖掘,并识别出它们的情感倾向具有十分重要的意义。情感分类,就是对这些主观信息进行分类,判断其是正面还是负面。
作为文本分类的一个分支,典型的监督分类方法在情感分类中也取得了不错的效果[1]。但在实际生活中,大量的新信息不断出现,这些新的信息集和已经标注的训练语料可能属于不同领域,它们的数据分布也可能很不相似,直接使用传统的监督分类方法,效果就会很差,这就引出了领域适应性问题[2,3]。
对这种领域适应性问题的一个直观解决办法就是手工标注一部分训练数据,但是对于不断出现的新的领域,标注大量的训练数据,将是一件非常耗时的工作,在实际生活中是不可取的。因此尽量利用已经存在的标注文本对新出现的领域进行情感分类,就具有特别重要的意义。
针对监督分类方法的缺点,本文提出了基于质心迁移的领域间适应性情感分类方法。该方法不需要任何目标领域的标注文本,利用源领域的标注文本,训练出两个不同的分类器,对目标领域的大量未标注文本进行协同训练,挑选部分可信度高且距离测试集质心近的文本加入到训练集,同时去除部分源领域中距离测试集质心远的文本,更新训练集,使两个领域的质心逐渐靠近,减小领域间的差异。
1相关研究
情感分类根据实现的粒度的不同,可分为三个级别:单词/短语粒度、句子粒度、篇章粒度。对于篇章级别的情感分类,根据作用的领域不同,可以分为领域内情感分析、跨领域情感分析。
1.1领域内情感分析
对于领域内的情感分类,文献[1]中最先将监督机器学习技术应用到情感分类中。在此之后很多研究都试图通过应用各种技术来提高分类的精度,文献[4]中基于图最小割选出文本中的主观句进行情感分类;文献[5]中通过信息增益和遗传算法选择对于情感分析有益的特征;文献[6]中提出结合情感词的先验情感倾向性的方法等。
1.2领域适应情感分类
跨领域情感分类在情感分析中是比较难的一种分类问题,作为情感分类的一个重要研究方向,跨领域的情感分类也越来越引起了人们的重视,很多学者对此进行了有益的探索。文献[7]中利用多个领域信息和多分类器融合等策略进行领域间情感分类的研究;文献[8]中基于互信息进行枢轴选择对SCL(Structural Correspondence Learning)进行了改进,并探讨了不同领域的相似度来选择合适的训练语料;文献[9]中从理论上阐述了跨领域情感分类效果不好的原因,并提出了挑选部分未标注数据来更新训练集的质心,在中文语料上取得了不错的效果;文献[10]将文本的情感倾向性分析与图排序结合起来提高分类精度。
2基于质心迁移的领域适应
过分拟合是监督学习的一个内在缺陷,对同一个领域的监督分类,如果有足够多的训练数据,这个问题可以有效的缓解。但在跨领域分类中,由于训练集和测试集的数据分布差异较大,随着训练数据的增加,并不能减小过分拟合的影响。因此,进行领域适应的一个关键就是要减小数据的过分拟合。本文在解决该问题上采用领域质心逐渐靠近的方法,通过两种不同的分类算法,对目标领域大量的未标注数据协同训练扩充训练集,同时根据标注的原始训练数据和测试集质心的距离,动态地去除部分标注的原始训练集来减小两个领域质心的距离,有效地去除了源领域的噪声数据,减少领域适应的影响。
2.1总体框架
获取目标领域大量标注数据相对困难,但是随着数据收集和存储技术的发展,收集大量的目标领域的未标注数据是一件相对容易的事,因此,可以利用目标领域大量未标注的数据来更新训练集,使两个领域的质心逐渐靠近。该方法主要分为二个步骤:(1)去除分类器中距离测试集质心比较远的源训练文本。(2)向分类器加入可信度高且靠近测试集质心的目标领域未标注文本。
整个框架是一个迭代的过程,在开始阶段,分类器中只包含源领域的所有标记数据。在每次迭代过程中,(1)计算源领域中所有文本和测试集的质心距离,将源领域中距离测试集质心最远的K个文档去除;(2)利用标注文档训练两个分类器C1、C2对目标领域中未标记文档进行分类,为每一个文本标记一个伪标签;(3)从目标领域中分别选择部分标记可信度高且距离测试集质心最近的正例和负例文本加入到源领域。随着迭代的进行,源领域的噪声数据被逐渐去除,目标领域的标注数据被逐渐加入,减小了跨领域的影响。
2.2算法的具体实现
实验中采用的是向量空间模型,选择能表达情感的名词、动词、形容词、副词作为特征项,没有进行特征选择[7]。特征项的权重本文采用的是TF*IDF,其中TF是某个词语项在该文本中出现的频率,IDF是逆向文档频率,由总文档数目除以包含该词语的文档数目。
具体算法如下:
输入:已经标注的训练集Sl,测试领域中大量的未标注的数据集Tu,测试集Tt。
输出:Tt中每个文件所属情感类别。
过程:
(1) 去除训练集Sl中的原始标注文本距离Tt质心最远的K个文本;
(2) 根据Sl训练出两个分类器和C2;
(3) 使用C1、C2分类器,对Tu进行分类;
(4) 从上述两个分类结果中分别挑选出p个positive和n个negative文本Tc加入到训练集中,更新训练集Sl,从Tu中去除Tc转到(1);
(5) 对测试集Tt进行多分类器投票表决分类。
2.3源领域中文本的去除
对源领域中噪声数据的去除,本文基于如下假设,如果源领域中的文本和测试领域的质心越远,则它们的相似度越小,分类时引入的噪音越多,因此在每次迭代过程中本文都去除在源领域中距离测试领域统质心最远的K个文本。距离的度量算式如下:
其中x为训练集中的标注文本,y为测试集的质心,xi、yi为特征项的权重。
2.4目标领域中文本的加入
对未标注文本的加入,本文使用两个不同分类器KNN和SVM进行协同学习,充分利用了KNN的局部信息,SVM的全局信息,提高协同学习的性能。在迭代过程中,我们都选择两个分类器分类结果相同并且靠近测试集质心的文本加入到训练集,通过这种方式既保证了选择文本的可信度又保证了选择的文本都是距离目标领域中心比较近的文本。
3实验及分析
3.1实验数据
在实验中,本文采用的是文献[8]中从亚马逊网站上抽取的产品评论文章,包括四个领域(book,dvd,elec,kitchen),每个领域包括1000篇正向评论,1000篇负向评论(http://www.seas.upenn.edu/~mdredze/datasets/sentiment/ )。
3.2基准系统
在实验中,为了和本文的实验结果进行比较,我们选择在文本分类中经常使用的SVM、KNN、NB分类方法。
3.3评价指标
对于实验的性能,本文采用的是精确率作为评价指标,计算公式如下:
其中Ni为分类正确的文本数,Nt为待分类的总文本数。
3.4实验设计与结果
在每次测试中,我们把测试领域数据集分为两个部分,从测试领域中随机抽取200篇作为测试集,剩余的1800篇作为未标注的数据集。对未标注数据集进行挑选时本文使用的是SVM和KNN两种分类器。SVM本文使用的是SVM_light工具包(http://svmlight.joachims.org/),采用的线性核,所有参数均采用默认值。最后对测试集进行多分类器投票表决,本文采用的是KNN、SVM、NaiveBayes三个分类器。实验结果见表1,其中p和n为每次加入的正向情感和负向情感的文本数,K为每次从原始训练集中删除的文本数目,I为迭代的次数,在实验中的取值分别为5、5、10、20。
从表1中可以看出,充分利用测试领域的未标注数据集来更新训练集,与朴素贝叶斯、KNN、SVM这些常用的分类算法相比,能显著地提高分类精度。特别是和朴素贝叶斯分类相比,本文的方法提高了13.9%,这说明本文所提出的方法是可行的。在从dvd到book,book到dvd,kitch到elec的转移过程中,结果比领域内测试还好,可能是因为book和dvd,elec和kitch相似度高,在转移的过程中,加入了一些对分类起作用的特征项。总体上说,领域间的情感分类和领域内相比,准确度上还是有一定差距。
由表2可以看出,当K取10的时候,分类结果最好。这是因为当K取0的时候,在每次迭代过程中,没有对源领域中的文本进行去除,引入了过多的噪声数据,当K取30的时候,当迭代20次的时候,对源领域的标注文本去除了600篇,造成了训练语料过少,影响了分类精度。
表3显示了迭代次数对质心转移结果的影响。从表中可以看出,当迭代次数很大的时候,质心转移的精确率将急剧下降,这是因为,当迭代次数较大的时候,引入了过多的分类错误文本,同时去除了大量的原始训练数据,造成训练语料不足。
文献[8]中在这四个领域中做的平均结果是0.78,本文和他的结果相比还有一定的差距,这可能是因为本文对于语料的预处理阶段和特征选择没有他做得好,而文献[8]中直接使用线性分类器不进行领域适应算法的分类精度是0.745,本文使用SVM的结果是0.717,相差了0.028,另一方面,文献[8]在进行领域适应的时候,需要部分目标领域的标注数据作为训练集,本文在实验过程中,没有使用任何目标领域的标注数据。
同时,从表1、表2中还可以发现,对于一个测试集,选择不同的训练语料做训练集,实验的结果会相差很大,如对dvd的测试,我们选择book,elec,kitch做训练语料,结果分别为0.829,0.709,0.719,因此在实验的时候,需要一个机制对两个领域的相似度进行计算,选择合适的领域作为训练集。
3.5领域相似度的度量
对一个新的没有任何标注数据的领域进行分类的时候,选择哪一种合适的标注语料来进行训练分类就成为了一个首要问题,如果两个领域的差别太大,就可能造成分类的精度很低,这就需要度量不同领域之间的相似度,为测试集选择合适的训练集,目前这方面的研究做得很少,本文提出了一个基于两个领域共现单词的相对熵(relative entropy或 Kullback-Leibler divergence,KL距离)来计算两个领域之间的相似度。两个领域之间的KL距离越小,它们的分布越相似,KL距离越大,它们的分布差异越大,则进行迁移的时候效果越差。
为了计算两个领域的KL距离,本文把两个领域的特征向量空间用它们的和质心表示。和质心公式为:
Ci=(h(0),h(1),…,h(m)) (4)
其中xij是第j个特征项在第i篇文章中出现的次数,h(j)是第j个特征在一个领域中出现的次数。Ci是领域的质心。对于训练集P和测试集Q的KL距离为:
其中pi(x)和qi(x)分别为训练集和测试集质心中共现特征项的概率分布, KL(P‖Q)≠KL(Q‖P)。在本次实验语料中,我们计算任意两个领域之间的KL距离值如表4所示。
从表4中可以看出,book和dvd,elec和kitchen数据分布最相似,其余的领域则相差较大。在进行领域适应的时候,应该选择最相似的领域作为训练集,如对book的测试,应该选择dvd作为训练集,对elec的测试,应该选择kitch作为训练集。这和表1中的实验结果相吻合,因此使用KL距离来度量两个领域的相似程度是可行的。
4总结与展望
在本文中,针对跨领域情感分析的问题,提出了基于质心迁移的领域适应性情感分类方法。通过对原始训练集中噪声数据的去除和目标领域未标注数据的加入,提高了分类的精度。在实验过程中,对未标注数据进行挑选的时候,选择的是两个分类器投票相同,且可信度最高距离测试集质心最近的,但是在迭代20次的时候,准确度才达到90.4%,引入了分类错误的文本,对结果造成了影响,下一步我们可以试试别的分类器结合的方法。
参考文献
[1]Pang B,Lee L,Vaithyanathan S.Thumbs up?Sentiment classificationusing machine learning techniques[C]//Proceedings of EMNLP-02,2002:79-86.
[2]Hal Daum,Daniel Marcu.Domain Adaptation for Statistical Classifiers[J].Journal of Artificial Intelligence Research 2006,26:101-126.
[3]Yee Seng Chan,Hwee Tou Ng.Estimating Class Priors in Domain Ad-aptation For Word Sense Disambiguation[C]//Proceedings of the 21stInternational Conference on Computational Linguistics and 44th AnnualMeeting of the ACL,2006:89-96.
[4]Pang B,Lee L.A Sentimental Education:Sentiment Analysis usingSubjectivity Summarization based on Minimum Cuts[C]//Proceedingsof ACL-04,2004.
[5]Ahmed Abbasi,Hsinchun Chen,Arab Salem.Sentiment Analysis inMultiple Languages Feature Selection for Opinion Classification in WebForums[J].ACM,2007.
[6]Prem Melville,Wojciech Gryc,Richard D Larence.Sentiment analysisof blogs by Combining Lexical Knowledge with Text Classification[C]//Proceedings of KDD-09:1275-1283.
[7]Aue A,Gamon M.Customizing Sentiment Classifiers to New Domains:a Case Study[C]//RANLP,2005.
[8]John Blitzer,Mark Dredze,Fernando Pereira.Domain adaptation for senti-ment classification[C]//Proceedings of the 45th Annual Meeting of theAssociation of Computational Linguistics,2007:440-447.
[9]Songbo Tan,Gaowei Wu,Huifeng Tang,et al.A Novel Scheme for Do-main-transfer Problem in the context of Sentiment Analysis[C]//Proceed-ings of the sixteenth ACM conference on Conference on information andknowledge management.Lisbon,Portugal,2007:979-982.
网络论坛参与者分类模型探析 篇8
研究对象的选取
虽然国内网络论坛众多, 但在网民参与程度以及论坛的社会影响力方面存在较大差别, 极少数论坛吸引着绝大多数的参与者, 因此本文采取个案研究法, 选取具有广泛影响力的天涯社区天涯杂谈板块的论坛参与者作为研究对象。考虑论坛参与者数量过于庞大, 本研究选取2010年4月19日至25日一周时间内, 在天涯杂谈板块有发帖行为的所有ID作为本次研究的抽样总体。之所以将时间段确定为一周, 是考虑到自然周是人们工作和生活安排的一种基本时间周期的反映, 论坛参与者在以周为单位的时间段内的发帖走势有大致相同的变化规律。具体说来, 本研究利用天涯杂谈板块的帖子搜索功能, 按日期查询这一周时间内天涯杂谈板块所有被更新的主帖, 然后通过访问主帖及其跟帖, 获得一周内有发帖行为的ID共45528个。
通过对45528个ID在天涯杂谈板块的发帖情况的统计发现, 一周内单个ID在天涯杂谈板块的发帖数最多可达到255个, 而最少仅有1个, ID的发帖行为存在很大差异。考虑到抽样总体的特征, 本研究采用分层抽样方法抽取样本, 将ID一周内在天涯杂谈板块的发帖数作为分层的标准, 将总体分为五层:发帖数≥70的ID;70>发帖数≥35的ID;35>发帖数≥7的ID;7>发帖数≥2的ID;发帖数=1的ID。其中, 一周时间内, 在天涯杂谈板块发帖数大于等于70的ID仅有36个, 占发帖ID总数的0.1%, 而仅发1帖的ID有26621个, 占发帖ID总数的58.5%, 可见每个层次的样本数悬殊很大, 因此本研究采用不按比例分层抽样的方法, 最终从五个层次中分别抽取20个ID作为子样本, 合起来组成一个容量为100的总体样本。
网络论坛参与者的分类指标
通过研究者对天涯社区的长期观察发现, 尽管因为兴趣爱好的不同, 参与者所重点关注的板块存在一定的区别, 但几乎所有参与者都会同时参与若干个论坛板块, 网民在参与论坛的过程中是将各板块作为一个整体来看待的。因此, 本研究在确立分类指标时将依据参与者在论坛的整体行为表现, 而不仅仅局限在单一的天涯杂谈板块。研究涉及的具体分类指标如下:
ID论坛参与程度。尽管ID参与论坛的方式有浏览信息和发表帖文两种, 但浏览信息更多地属于参与者的个人行为, 在论坛内容贡献以及互动交流方面产生不了太大影响, 因此, 本研究仅将发帖行为强度作为衡量ID论坛参与程度的指标。具体说来, ID在论坛的发帖行为分为两类:发表主帖和回帖。主帖作为论坛信息和话题的主要来源, 与回帖相比, 需要耗费发帖者更多的时间和精力, 而回帖行为操作简单, 往往是ID浏览主帖后参与话题讨论的结果, 有些ID的回帖行为甚至纯粹是为了获得论坛积分或粘贴广告。由此可见, 两种发帖行为各自反映着ID不同的论坛参与习惯, 本研究将从发表主帖总数和回帖总数两方面对ID的发帖行为强度进行考察。
由于ID的发表主帖总数和回帖总数均为定距型数据, 为了更加科学地把握其总体分布情况, 本文根据ID在天涯社区发表主帖的数量, (1) 将ID发表主帖行为分为四类:无发表主帖行为 (发表主帖数=0) 、少量发表主帖 (1≤发表主帖数≤23) 、中等发表主帖 (23<发表主帖数≤100) 、积极发表主帖 (发表主帖数>100) ;依据ID在天涯社区回帖的数量, 将论坛ID的回帖行为分为四类:无回帖行为 (回帖数=0) 、少量回帖 (1≤回帖数≤100) 、中等回帖 (100<回帖数≤1000) 、积极回帖 (回帖数>1000) 。
ID参与论坛互动的积极程度。本研究认为, 回帖是ID参与论坛互动的行为表现, 受注册时间、发帖动机等因素的影响, 同一回帖行为强度的ID, 其回帖总数在时间上的分布往往存在很大的差异, 因此衡量ID参与论坛互动的积极程度应该综合考虑ID的回帖总数和回帖的持续频繁水平两项指标。具体来说, 本研究引入了一个“频繁回帖系数”对样本ID回帖行为的持续频繁水平进行考察, 其中, ID频繁回帖系数=回帖数超过30帖的月份数/注册总月数, ID频繁回帖行为可分为三类:持续频繁回帖 (ID频繁回帖系数=1) 、间歇频繁回帖 (0
网络论坛参与者的模型建构
尽管同一实在个体按照自己的意愿可以创造出多个不同的ID, 但每个ID借助自己在论坛的行为表现可以获得完全不同的身份, 因此本研究将每个ID作为独立的论坛参与者来进行考察。具体说来, 本研究将在收集论坛ID行为数据的基础上, 结合研究者参与观察的经验认识, 通过逐步分类的方法来建构论坛参与者的分类模型。
根据ID是否有发帖行为将其分为潜水型参与者和发帖型参与者。网络论坛中, ID通过两种方式参与论坛:一种是可见的参与, 指ID通过发帖对论坛内容的生成作出贡献;另一种为不可见的参与, 指ID以“潜水”的方式浏览信息。尽管可见的参与方式常常伴随着浏览信息等不可见的参与行为, 但网络论坛中仍然存在这样一类ID, 在参与论坛的过程中仅仅充当看客, 从不发帖。网络论坛的真实参与者与发帖者的数量之间存在着很大的差距。因此, 本研究认为应该首先根据ID是否有发帖行为将其分为潜水型参与者和发帖型参与者。
根据发表主帖行为和回帖行为的综合表现对发帖型参与者进行分类。通过对样本ID在天涯社区的发帖行为的统计发现, 样本ID在发表主帖强度和回帖强度上均表现出较大的差异。此外, 对于每一位论坛参与者来说, 发表主帖行为和回帖行为在拥有的论坛潜在影响力和所需耗费的时间精力方面存在差别, 参与者常常会因参与动机和行为习惯的不同而在发言方式的选择上有所偏重。通过对样本ID回帖行为类型与发表主帖行为类型的交叉列表分析发现, 样本ID在发表主帖行为和回帖行为的综合表现上体现出不同的特点。100个样本ID中, 有1个ID发表主帖数在100以上, 属于积极发表主帖类型, 但此ID在参与论坛的整个过程中无任何回帖行为;24个积极回帖型ID中, 4个ID完全不发表主帖, 3个ID在发表主帖和回帖行为上表现都很积极, 另外17个积极回帖型ID虽然有发表主帖行为, 但从其发帖的具体数据可以看出, ID的发表主帖数占总发帖数的比例非常小;此外, 样本ID中有38个ID在发表主帖和回帖方面表现都不积极, 仅少量发表主帖或没有发表主帖, 同时回帖数也没有超过100。因此本研究认为, 依据ID在发表主帖和回帖方面的综合表现, 发帖型参与者可以被细分为:积极交互型参与者, 发表主帖和回帖行为都属积极类;积极回帖型参与者, 回帖行为积极, 但发表主帖不积极;自我型参与者, 发表主帖行为积极, 但无回帖行为;一般发帖型参与者, 发表主帖方面表现不积极, 回帖也仅属于中等回帖类型;消极发帖型参与者, 发表主帖少或根本不发表主帖, 回帖行为也属于少量回帖类型。
根据ID回帖的持续频繁水平将积极回帖型参与者划分为持续积极回帖型参与者和间歇积极回帖型参与者。本研究假定, 由回帖总数所确定的积极回帖型参与者在参与论坛互动的积极程度上存在差别, 认为有必要根据ID的频繁回帖类型对积极回帖型参与者作进一步细分。通过对样本中积极回帖型参与者的频繁回帖系数的统计发现, 21个积极回帖型参与者在频繁回帖这一行为特征上存在差异。其中7个ID属于持续频繁回帖类型, 即这7个ID在参与天涯社区的整个过程中, 每月的回帖数都超过了30篇, 在参与论坛互动方面, 其行为不仅积极而且持续;而其余14个ID尽管其回帖总数均超过了1000, 但并非每月都积极参与论坛互动, 其频繁回帖行为表现出间断性。由此可知, 依据ID频繁回帖行为的差异, 积极回帖型参与者可以被进一步划分为持续积极回帖型参与者和间歇积极回帖型参与者。
依据论坛参与者的发帖行为表现, 本研究建构出有效的网络论坛参与者分类模型, 将论坛参与者划分为七类:
潜水型参与者。这类参与者在网络论坛中以不可见的“潜水”方式浏览信息, 从不发表言论, 以旁观者的身份分享论坛互动。尽管这类ID没有参与网络论坛的内容建设, 但其规模却决定着网络论坛公共性程度的大小。
积极交互型参与者。这类ID属于网络论坛中最为活跃的一类参与者, 频繁访问论坛, 在发表主帖和回帖方面表现都很积极, 不仅愿意耗费时间和精力频繁发起话题, 而且也热心参与其他人的话题互动, 是论坛内容的积极生产者。同时, 此类参与者非常看重自身在论坛的影响力, 常常借助精心设计的签名档和个人介绍来塑造自己在论坛中的形象。
自我型参与者。这类参与者乐于发起话题, 在发表主帖方面表现积极, 但缺乏与其他参与者互动的兴趣, 很少或从不参与论坛互动, 在论坛中的行为表现比较自我, 缺少互动的参与行为, 也大大降低了他们对网络论坛的亲切感和归属感。
持续积极回帖型参与者。这类参与者对网络论坛具有较强的归属感, 对参与论坛互动拥有持续的热情, 注册以来每月回帖数均在30个以上, 是论坛话题深入讨论的积极推动者。而在发表主帖方面, 此类ID表现并不积极, 发表主帖数占总发帖数比例很小, 甚至完全不发表主帖, 与制造话题相比, 此类ID更乐意依循别人设置的议题来展开讨论。
间歇积极回帖型参与者。这类ID在参与论坛的过程中, 发表主帖不积极, 发帖兴趣主要集中在积极回帖方面, 且此类ID因参与动机和行为习惯等因素的影响, 积极参与论坛互动的行为并不具有持续性, 仅在某些月份回帖频繁。
一般发帖型参与者。此类ID在发表主帖和回帖方面表现均不突出, 属于有发帖行为的普通参与者。尽管此类ID在论坛互动过程中的表现并不活跃, 但正是由于大量一般发帖型参与者的存在, 活跃了网络论坛的讨论氛围, 扩大了论坛议题的网络影响力。
消极发帖型参与者。此类ID发帖热情不高, 发表主帖少或根本不发表主帖, 也没有很大兴趣参与其他人的互动, 回帖数也很少。但消极的发帖行为并不等同于消极的论坛参与, 消极发帖型参与者很多时候可能以不可见的“潜水”方式浏览论坛信息和静观他人互动。
结语
本研究在收集论坛参与者具体行为数据的基础上, 依据其在论坛中的行为特征差异, 提出网络论坛参与者的分类模型, 并归纳出七类论坛参与者, 为今后深入研究论坛参与者的行为模式提供了必要的基础。在对各类参与者论坛行为的考察过程中, 研究者发现, 与其他类别的参与者相比, 积极交互型参与者作为论坛活跃分子, 更易被他人所熟知和获得广泛的论坛影响力, 是最有可能扮演意见领袖角色的参与者类别。最后需要说明的是, 由于本文属于个案研究, 在样本的选择上存在一定的主观性, 因此, 在后续研究中, 有必要将本文提出的分类模型应用到其他网络论坛, 对模型作进一步的验证和完善。[本文为2007年国家社科基金重大项目“互联网管理与中国特色网络文化建设研究” (07&ZD040) ;黄冈师范学院青年重点项目“我国互联网中的舆论引控研究” (09CQ102) ]
参考文献
相关文章:
教学分类01-13
数据分类模型01-13
短信分类01-13
基于决策树算法的客户分类模型研究01-13
计算分类01-13
垃圾分类的宣传口号,垃圾分类经典简短的个性说说句子01-13
三分类三升级活动分类01-13
垃圾分类的名言警句,垃圾分类,举手之劳01-13
诗歌分类按题材分类01-13