基于时间分割的手写输入系统的用户绩效模型

关键词: 手写输入 输入 用户 模式

基于时间分割的手写输入系统的用户绩效模型(共6篇)

篇1:基于时间分割的手写输入系统的用户绩效模型

基于时间分割的手写输入系统的用户绩效模型

为定量估计与提高基于时间分割的`手写输入系统用户绩效,推导了用户绩效的静态与动态模型.实验一检验与修正了这两个模型,并获得整合模型.实验二证明该整合模型能对不同训练水平用户的绩效有较高的解释率.应用该整合模型发现:当识别正确率RA、输入字数N为定值时,修改时间T、单字手写时间WT、分割时间ST、识别时间R这四个因素对任务完成时间D的影响大小次序为WT=ST=R>T;当这四个因素为定值时,RA每提高1%,D至少节省1000ms.

作 者:吴昌旭 杨群会 张侃 胡永革 杨磊  作者单位:吴昌旭,杨群会,张侃(中国科学院心理研究所,北京,100101)

胡永革,杨磊(英特尔中国研究院,北京,100000)

刊 名:心理学报  ISTIC PKU CSSCI英文刊名:ACTA PSYCHOLOGICA SINICA 年,卷(期):2003 35(4) 分类号:B849:TB18 关键词:数学心理模型   手写汉字输入系统   绩效模型   时间分割  

篇2:基于时间分割的手写输入系统的用户绩效模型

为定量估计与提高基于时间分割的`手写输入系统用户绩效,推导了用户绩效的静态与动态模型.实验一检验与修正了这两个模型,并获得整合模型.实验二证明该整合模型能对不同训练水平用户的绩效有较高的解释率.应用该整合模型发现:当识别正确率RA、输入字数N为定值时,修改时间T、单字手写时间WT、分割时间ST、识别时间R这四个因素对任务完成时间D的影响大小次序为WT=ST=R>T;当这四个因素为定值时,RA每提高1%,D至少节省1000ms.

作 者:吴昌旭 杨群会 张侃 胡永革 杨磊 作者单位:吴昌旭,杨群会,张侃(中国科学院心理研究所,北京,100101)

胡永革,杨磊(英特尔中国研究院,北京,100000)

篇3:基于时间分割的手写输入系统的用户绩效模型

随着无线传感技术的发展, 可穿戴计算、可穿戴传感网络等新概念、新方法为自然人机交互应用研究提供了新思路。有别于物理键盘、手写板和屏幕触控等二维输入方法, 三维空间手写输入一般通过惯性测量单元提取和解算手写特征, 经模式识别等手段实现字符、数字等信息的输入[1,2]。由于手写区域和姿态不受限制, 该方法具有较高的灵活性和自然性, 正成为当前研究的一个热点。

实现空间手写输入的关键是对手势运动过程进行采样, 并提取能够表征待识别字符的时域或频域特征用于模式识别。手势原始特征采样的任务是测量得到手写笔的姿态和加速度时间序列, 一般采用陀螺仪和加速度计构成惯性测量单元[3], 或使用单个加速度计的简化方案[4]。由于陀螺仪漂移较大、抗冲击能力差且价格昂贵, 使用加速度计和陀螺组合方案的可靠性低、成本较高; 而仅使用单个加速度计的简化方案, 对手势区域有严格限制, 灵活性较差。对于手写字符的识别问题, 目前研究较多的方法是基于手势特征定义字符模式并实现分类器, 常用的手势特征包括轨迹、笔画和统计特性等时域特征[5,6,7,8], 和FFT系数等频域特征[9]。由于书写习惯千差万别, 不易建立字符模式库, 手写过程存在连笔和无效笔画等问题, 特别是如何定义手势特征没有统一的标准, 手势特征能否准确描述和区分待输入字符仍是该方法的一个难题, 手写字符识别方法尚需更深入的研究。

本文提出一种无陀螺手势特征测量方案和基于笔画数、笔画走向及笔画长度等特征的字符识别方法。该方法避免使用陀螺组件, 但仍可准确测量手写笔的姿态变化和线加速度, 两个MEMS加速度计的特殊硬件布局可满足手写笔的小体积、易手持特征; 结合速度平面和轨迹平面描述笔画的数量、方向和长度等手势特征, 能较好刻画待输入字符的特性; 特征码的定义有利于手势特征模式库的构建及基于模式间差异化度量的分类识别。

1 手势原始特征提取

手写笔随手势运动过程包括在惯性系中的线性运动和自身的旋转运动。根据惯性导航系统的基本原理, 需要陀螺仪和加速度计测量得到复合加速度、旋转角速度, 并解算手写笔在惯性系中的线加速度。由于陀螺组件的缺点, 已有许多学者对无陀螺惯性测量方案[10,11,12]进行了研究并取得了大量研究成果。无陀螺惯性测量的基本思想是利用安排在载体不同位置的多个加速度计输出解算得到角速度, 常见的有六加速度计、九加速度计和十二加速度计的配置方案[13,14], 但这些方案常用于飞行器和船舶的导航系统, 传感器空间布局复杂, 并不适合小型化应用。本文针对手写输入的短采样时长以及手写笔横滚角变化小的特点, 提出一种新的无陀螺微惯性测量方案用于手势原始特征提取。

1. 1 双路 MEMS 加速度计配置方案

在手写笔长轴的两端位置各安排一个MEMS三轴加速度模块, 可构成双路共六轴加速度计配置方案, 如图1所示。

设OIXIYIZI为惯性系, ObXbYbZb为固连于手写笔的载体坐标系, 坐标原点Ob为可能的手持位置, Xb与笔体长轴方向一致; MEMS加速度传感器模块1和2被固定安装在Xb轴上Ob两侧L1和L2的位置, 其敏感轴Xa、Ya、Za与载体系坐标轴Xb、Yb、Zb分别重合。

与现有六轴、九轴等方案不同, 仅在载体系一个方向上配置双路MEMS加速度计, 可以较好的与手写笔狭长的几何特征相一致, 保证了手写笔小体积、易手持的特点。

1. 2 手势原始特征的提取和解算

设惯性系原点OI到载体系原点Ob的矢径为R, OI到某一传感器原点Oa的矢径为R', Ob到Oa的矢径为L, 则以下关系成立:

对式 ( 1) 两边求二阶导, 由哥氏定理可得:

式 ( 2) 在载体坐标系下仍然成立, 即:

式 ( 2) 和式 ( 3) 中, 为加速度计所在位置处的对地加速度, 可由加速度计输出得到;为载体坐标系原点对地加速度, 即手势动作的对地线加速度;为载体旋转加速度, ωIb为载体旋转速度。式 (2) 和式 (3) 中各量的参考系不同, 其关系为:。其中, C为载体坐标系到惯性系的方向余弦矩阵, 可由表示手写笔姿态的三个欧拉角:ψ (偏航角) θ (俯仰角) φ (横滚角) 描述。

按照1. 1节中所述配置方案, 两个加速度计可分别对应得到形如式 ( 2) 或 ( 3) 式的两个方程, 联立后可解算出手势动作的对地线加速度

设任一加速度传感器的比力输出为F, 当地重力加速度为G= (0, 0, -g) T, 则, 代入式 (3) 可得:

图1中, 加速度传感器1和传感器2处均满足式 (4) , 因此得到下列方程组:

由于L1= (-l1, 0, 0) T, L2= (l2, 0, 0) T, 将分别简记为a, , ω, 由式 (5) 得:

其中:

式 ( 6) 中, 线加速度a的求解依赖方向余弦矩阵C , 而C的求解又依赖角速度ω。可见, 由两路加速度计输出F1, F2计算角速度ω是问题的关键。

将F1, F2, ω, 写成分量形式, 即: F1= ( f1X, f1Y, f1Z) T, F2= ( f2X, f2Y, f2Z) T, , ω = ( ωX, ωY, ωZ) T, 则式 ( 6) 中第2项可化为:

将分别简记为cX、cY、cZ, 上式可表示为:

手势输入过程中, 手写笔形状的测量单元基本不会发生绕长轴的旋转, 根据图二中加速度计的布局特征可知, 横滚角φ的变化很小。因此ωx≈0 , 式 ( 7) 可进一步简化为:

根据式 ( 8) 中第1项和第2项, 可构造积分算法求解角速度分量ωy和ωz。

2 基于笔画特征的模式识别

笔画的数量、笔画的方向和笔画的长度等时域特征能够较全面描述一个待识别字符。本文以解算得到的手势动作的线加速度序列为依据, 提取上述笔画特征, 并用于模式库和分类器的构建。

2. 1 特征码定义

通过前面所述方法采样并解算线加速度序列{ a ( i) , i =1, …, N} 的同时, 进行积分运算得到速度序列:

由于手写笔运动过程中, 加速度、速度序列近似保持在三维空间的某个平面内, 可使用主元分析方法 ( PCA) 进行降维处理, 可得到二维速度序列:

其中:

, v*为协方差矩阵最小特征值对应的特征向量, 其垂直于V= (v (1) , v (2) , …, v (n) ) 确定的书写平面, 单位向量垂直于v*和惯性系OIXIYIZI的Z轴, 垂直于v*和x。

实验表明速度序列中的极小值点对应笔画的分界, 因此可由下列条件找到所有的笔画分界点:

以手写字符“8”为例, 图2标出了速度序列中的极小值点和对应的书写轨迹。

设满足上式的点共有m + 1个, 则笔画总数为m。单个笔画的方向向量可通过下式得到:

使用方向向量表示笔画后, 图2中的手写轨迹可得到简化, 如图3所示。

取, 则定义第i个笔画的方向为:

式 ( 13) 中, Di取值0, 1, 2, 3分别表示笔画方向为: 向上, 向下, 向右和向左。

笔画长度由下式得到:

则任一笔画i的归一化长度为:

总的笔画的归一化长度为:

综合上述笔画特征, 可定义手势特征码为, 其中, 笔画方向特征码D = ( D1D2, D2D3, …, Dm -1Dm) 表示相邻笔画间的方向变化。将12种笔画方向变化情况: 下 - 左、下 - 右、上- 左、上 - 右、左 - 上、左 - 下、右 - 上、右 - 下、下 - 上、上 - 下、左 - 右、右 - 左依次编码为0 - 9AB, 则D可表示为长度为m - 1的十六进制串;取值由式 ( 16) 得到。

2. 2 手势特征模式库的定义

不失一般性, 设系统预先定义的可识别字符集为S , 共m个字符。手势标准特征模式库的构建可通过采集n个不同书写习惯者的手势, 经编码生成特征码, 并按下列矩阵形式存储:

式中, 表示可识别字符集中第i个字符的第j个特征码; P中第i行共n个特征码对应第i个字符的n个样本, 称为一个模式pi, 即:

2. 3 分类器的实现

本文通过一种基于特征码间差异化度量的多分类器实现模式识别。首先定义特征码间的差异化度量值为:

式中, 为手势总笔画归一化长度之差的绝对值; lev ( D1, D2) 是笔画方向特征码D1, D2间的编辑距离, 又称为levenshtein距离[15] ( 作为一种度量符号序列间差异的方法, 编辑距离被定义为从一个序列变换到另一序列所需插入、删除和替换等操作的最小次数) 。

对于m个可识别字符的分类器, 可由个子分类器{C1, 2, C1, 3, …, C1, m, C2, 3, C2, 4, …, C2, m, …, Cm-1, m}实现, 单个子分类器Ci, j用于模式pi和pj的分类, 其函数形式可基于支持向量机方法定义为:

其中, αi, b为待定系数, 可由样本数据训练得到, k ( x, y) 为核函数, d为分类器的输入, 定义为手势特征码与特征模式库中所有模式pi ( i = 1, 2, …, m) 间的差异化度量:

其中, 为特征码与模式pi间的差异化度量:

分类器用于手势识别时, 对每个模式指定一个计数counti, i= 1, 2, …, m , 对于所有子分类器, 如果Ci, j= 1 , 则counti加1, 如果Ci, j= - 1 , 则countj加1; 最后取所有count值中最大的一个为优胜者, 即: countwin= max{ count1, count2, …, countm} , 编号为win的模式即为最终被识别的模式

3 实验分析

为了验证上述双路MEMS加速度计配置方案和手势特征识别方法的可行性和有效性, 本文搭建了以下实验环境: Ardui-no原型开发 平台用于 采样传感 器数据, 两个ADI公司的ADXL345型三轴MEMS加速度计用于角速度解算和手势特征提取, 一个意法半导体公司的L3GD20型三轴陀螺仪模块用于验证角速度解算精度。相关算法在Matlab和libsvm中进行仿真验证, 分类器选用径向基函数作为核函数, 超参数由5 - 折交叉验证得到。

3. 1 角速度解算实验

按照本文第二部分所述配置方案, 两个加速度计被安排在实验装置的长轴方向上, 间距为10 cm, 陀螺仪模块被安排在装置的中心处, 三个传感器的敏感轴方向保持一致。实验过程中, 对数字0 - 9进行了空间手写, 并按照25 ms的间隔进行数据采样。结果表明, 在三个传感器均存在随机漂移误差的情况下, 经本文算法解算所得值与陀螺仪实测值已经非常吻合。不同手势动作及不同书写速度下, Y向和Z向偏差的平均值基本稳定在0. 15和0. 08左右, 标准差基本稳定在0. 5和0. 7左右。图4为手写数字‘8’时, 解算所得角速度与陀螺仪实测角速度曲线的吻合情况。直观观察可以发现, 在传感器随机漂移存在的情况下, 解算值与实测值间保持了较好的一致性。

此外, 虽然数字‘8’手写过程较其它数字的姿态变化最为明显, 但从陀螺仪三轴输出曲线可以看出, X轴分量较Y、Z轴明显偏小, 其标准差仅为0. 35 ( 而其它两轴标准差分别为1. 28, 1. 6) , 从而验证了手写过程中手持装置横滚角变化不大的假设; 而Y、Z两轴解算值与实测值吻合较好的实验结论, 也证明了将式 ( 7) 中ωx近似为0是合理的。

3. 2 字符识别实验

为了验证本文手写特征识别方法的实际效果, 实验中对10名测试人员手写数字0 - 9、字符a - z和A - Z的过程进行了数据采样, 每名测试人员按照不同的书写速度和姿态对每个字符书写10次。其中5人的样本用于构建字符特征模式库和训练分类器, 另外5人的样本用于字符识别测试。

表1列出了使用本文方法和文献[5]所述HMM方法对数字、大小写英文字母的识别效果比较。由于英文字母数量较多, 表中仅给出了平均识别率。从识别实验可以看出, 除了数字“1”, “2”, “3”, “7”的识别率基本持平外, 对其它数字的识别效果, 本文方法较HMM方法都有较明显优势; 对于英文字母a -z、A - Z的识别效果, 本文方法的平均识别率也较HMM方法有较大提升。分析不难发现, 空间手写过程中存在连笔情况, 数字“0”与“6”, “4”与“9”, “5”与“8”, 字母“a”与“d”, “K”与“R”等都有相近的笔画数和笔画方向特性, 传统方法识别效果并不理想。而由于本文识别方法综合了笔画数、方向变化、归一化长度等多个时域特征, 因此可以较好区分这些字符。

此外, 由于本文方法基于笔画变化特征码间的差异化度量 ( 基于levenshtein距离) 进行分类识别, 分类器对起笔和落笔阶段出现的一些冗余笔画 ( 参见图3所示, 由于手写轨迹难以观察引起) 有较好的适应性。除了在构建字符特征模式库阶段需对样本进行笔画校正外, 识别过程中的采样数据无需做额外处理。

3. 3 算法时间、空间性能测试实验

本文所述空间手写字符的模式识别方法, 其时间开销主要包括: ( 1) 两个三轴加速度计比力输出的采样; ( 2) 角速度和线加速度的解算; ( 3) 线加速度的二重积分; ( 4) 笔画数、方向变化、归一化长度等时域特征的提取和编码; ( 5) 基于多分类器的模式识别。其中, 步骤 ( 1) - 步骤 ( 3) 需在数据采样阶段 ( 即手写过程中) 同步完成, 对时效要求较高; 步骤 ( 4) - 步骤 ( 5) 可在采样结束后进行, 由于两次手写识别间隔时间相对充裕, 时效性要求较低。

本文方法的空间需求主要体现为字符特征模式库的存储。对于待识别的数字、大小写英文字母集合, 共有62个字符; 每个字符对应10位不同书写习惯测试者的手写特征码; 字符的平均笔画数为16, 字符的总笔画归一化长度用无符号短整数表示, 则每个特征码的编码长度约为10个字节。字符特征模式库需要62×10×10约6 KB字节的存储空间。

在本文实验环境下, 考虑到算法步骤 ( 4) - 步骤 ( 5) 对时效性要求较低, 故字符特征模式库的存储、模式识别算法均在微机中进行了模拟仿真。但从上述分析可知, 将相关算法过程和存储移植到单片机或具有射频接口的SOC系统是可行的, 只需在硬件上扩充约6 KB的存储空间。针对算法中对时效性要求较高的步骤 ( 1) - 步骤 ( 3) , 本文分别在Arduino单片机平台 ( 主频为8 MHz) 和射频SOC平台nRF24LE1 ( 主频为16 MHz) 下进行了测试。实验结果表明, 在Arduino系统中, 将加速度计输出的采样周期设置为25毫秒时, 算法步骤 ( 2) 、步骤 ( 3) 可随采样过程同步完成, 而使用nRF24LE1芯片时, 采样周期可进一步缩短到10毫秒而不影响算法的功能。从最终手写字符特征提取结果可以看出, 25毫秒左右的采样周期可完全满足模式识别的要求。因此, 本文所述方案在目前主流嵌入式硬件环境下是可行的。

4 结 语

篇4:基于时间分割的手写输入系统的用户绩效模型

关键词:农业信息;用户兴趣模型;信息推送技术

中图分类号: S126文献标志码: A文章编号:1002-1302(2015)09-0458-03

农业信息化是发展现代农业的动力引擎,而相比于发达国家农业信息化程度,我国农业信息化的发展还相对落后[1]。近年来我国农业和农村经济虽发展迅速,但由于我国农民的知识水平普遍较低使得实现农业全面信息化仍是一项相当艰巨的任务。其中,如何使得从事农业的人员及时获得有效可靠的农业信息是实现农业信息化的重要内容之一[2]。传统的农业信息服务方式已经不能满足农户、农商等从事农业人员对信息的需求。因此,部分传统的农业信息服务诸如信息中心、图书馆、资料室等,必须革新其信息服务方式,充分利用当前先进的信息传播技术实现高效率、高质量的信息服务[3]。与此同时,随着Internet技术的发展,网络上的信息资源呈指数增长,其膨胀趋势日益增多,但采用Internet信息浏览方式获取信息效率低且准确性差,且由于农业从业人员尤其是广大的农民受物质条件和自身科技文化水平的限制,获取信息等能力较弱。因此,如何使用户识别信息、及时获得信息服务是当前农业信息服务面临的实际需求[4]。推送技术是一种新的信息服务模型,根据用户的特定需求,对其搜索的信息进行过滤、处理、分类之后提供个性化的信息服务[5]。推送技术可充分利用已有的信息资源,主动开展信息推送服务,为农业相关人员及时提供市场供需信息、病虫害防治信息、气象信息推送等,进一步深化农业信息化进程[6]。针对如上的问题,本研究构建了农户兴趣模型,利用Web Services技术和信息推送设计实现了个性化农业信息推送系统,该系统可将信息服务提升到知识服务,以便广大农民或从事与农业相关职业的人员实时有效地获得所需的农业科技信息,以此提高我国农业信息服务的水平。

1系统需求分析

个性化农业信息服务的系统主要解决“信息获取”“信息推送”“信息应用”这3个问题,即获取什么信息推送给用户,获取的信息如何推送给用户,推送的信息服务于谁的问题[7-8]。解决这些问题首先需要了解农户的需求,然后采用信息检索技术获取所需数据,最终根据用户的需求将获取的信息利用推送技术推送给用户。农村信息服务的主体对象主要包括广大农民、农村基层农业技术人员、农村党员干部、大学村干部、农业企业、农业经纪人、种养大户、回乡创业者和农业科技园区管理者等,可见农业经营的群体规模十分巨大[8]。目前,大多数农业从业人员的科技文化素质还不高,但他们对信息和知识的需求十分迫切。为了实现信息的准确推送,需要根据用户的需求实现对用户分类即建立用户兴趣模型,满足不同用户对信息的需求[9]。通过需求分析确定了本系统主体架构与流程,如图1所示:系统基于B/S架构进行设计,客户端用户通过浏览器访问站点资源,同时系统通过浏览器和注册信息建立用户兴趣模型。服务器端是推送系统的主要部分,首先服务器端定时从网站采集关于农业的信息资源,存入数据库;同时服务器需采集站点的访问日志并依据技术要求对日志进行处理,建立用户访问模式并结合用户访问网页内容建立用户访问模式描述文件,构建用户兴趣模型库。

2用户兴趣模型

用户兴趣模型是农业信息服务系统个性化信息推送的重要依据,即根据系统获得的用户信息构建用于表示用户个性化需求的模型。目前建立用户兴趣模型的方法多种,如用户信息抽取、用户信息反馈,通常采用多种方式组合的方法进行用户模型构建。图2为本系统的用户兴趣模型构建方法,系统主要采用用户信息抽取(注册、浏览行为、浏览内容等)和用户信息反馈2种方法组合对用户模型进行构建,弥补了仅采用注册信息建立模型不可更新的缺点,并通过用户信息反馈针对性地修改用户兴趣模型,从而建立一个相对全面准确的用户兴趣模型,为农业信息的准确推送奠定基础。

2.1用户信息抽取与反馈

用户兴趣模型初建时提取用户的注册信息,形成用户的初步兴趣库并将提取的信息按照规则存入后台用户兴趣数据库中。由于根据用户注册信息初步构建的模型过于简单,且简单关健词筛选机制容易造成信息的准确性差问题,因此需根据辅助信息(浏览行为、浏览内容等)对用户的模型进行修改。同时,为更准确地表达用户的信息需求,采用用户反馈的方法,即引入用户的兴趣偏好对建立的兴趣模型及时进行修改。

2.2三元组用户兴趣表达

利用三元组实现用户兴趣表达。农业网络信息分类比较简单明确,可以利用关键词对信息进行分类,因此用Keyword表示关键词组向量,用Person表示用户分类,即用表示了用户对信息的需求。为得到更加准确的兴趣模型,采用了用户反馈的方式对该模型进行实时修改。其中用户反馈信息用Situation表示,该特征是用户对所收到的推送信息给予的主观评价,表示了用户的兴趣度。最终将用户兴趣模型定义为一个三元组:。其中Keyword的定义如下:Keyword=,其中R表示关键词之间的逻辑与、或、非关系。Person为上述的用户所期待的目标分类,使用1,2,3,…,n表示分类代号。Situation对应于用户对信息的反馈评价,将situation根据用户对信息的兴趣度按照从高到低的顺序分成5类:很好、好、一般、差、很差,在数据库中分别用数字5、4、3、2、1来表示信息的权值。

2.3用户兴趣模型构建流程

随着用户查询次数和反馈次数的增多,将形成大量的三元组合,对其进一步挖掘,即可构建用户兴趣模型。当用户收到系统推送过来的信息并给出相应的评价后,推送给用户的来自Person(类)含有Keyword(关键词)的信息将属于一个特定的Situation。这样经过用户与系统的反复交互过程,每个Situation都有1个对应于一系列三元向量的词典。初期,词典为空,每收到用户1次反馈信息,都根据对应的Person和Keyword更新对应的Situation词典。若相应第1次出现,则将它记录到词典中,若词典中有该二元向量,则将它的数量传到词典中。由此,将用户接收的来自某一个category含Keyword的信息表示为1个的三元组,每个用户的兴趣都可以描述成多个这样的三元组。每个对应1个Situation,Situation可等于5个不同的值,每个Situation都有1个词典。这几个概念以及实际的数据结构组成了表示用户对特定信息的感兴趣程度,据此建立相应的用户兴趣模裂,如图2所示。由于用户的兴趣、知识等会随时间变化而变化,因而建立的用户兴趣模型也要随之变化。用户兴趣模块会根据每一条用户反馈更新对应的Situation词典,这样就能及时地更新、完善系统对用户兴趣的理解

3系统设计

3.1系统架构

系统的总体架构如图3所示。它主要由服务层、网络层和应用层3部分构成,其中服务层由服务器和中间服务器构成,网络层中数据与信息可通过Internet、3G/WLAN等网络传输。服务层包括农业信息数据库和农业数据仓库,主要信息来自于与农业信息相关的互联网;中间服务器可自动利用Heritrix框架进行特定农业信息的收集,并结合基于Web的数据挖掘技术获取农民直接关心的最新的农业科技信息、市场供求信息、国家政策信息、市场行情等;应用层中的手机客户端是面向android智能手机用户而开发的应用,主要功能包括两大部分,一是农业信息浏览查询;二是农产品供需信息发布。

3.2系统功能模块设计

系统的服务对象主要为涉农人员,例如农民、农产品贸易人员、农技人员、农业科研人员等。系统的目标是针对这些用户的需求,根据用户兴趣模型,定时为农户提供最新农业信息。本系统中信息源主要来自农业综合信息服务平台,所有的农业信息都来自该平台的数据库。系统的功能模块如图4所示:

(1)用户管理模块:用户管理模块对用户信息进行管理,该模块重点实现用户兴趣模型的构建。该模块可抽取用户的注册信息、浏览信息、反馈信息等存入到数据库中,根据兴趣模型的构建方法构建兴趣模型。因此,该模块是系统重要的组成部分,是实现个性化农业信息推送的关键环节之一。

(2)信息采集模块:信息采集模块从农业综合信息服务平台上获取农业科技信息、市场供求信息、国家政策信息、市场行情等农业信息。

(3)信息推送模块:信息推送模块主要包括RSS(really simple syndication,简易信息聚合,也叫聚合内容)信息发布功能、邮件推送功能、短信推送功能。RSS信息发布功能是负责将采集的信息资源进行再组织,使信息资源符合RSS规范再发布,以便供用户使用。邮件推送功能和短信推送功能是系统的最终目的,是根据用户需求选择的服务方式。

(4)后台管理模块:后台管理模块主要对后台的数据库、系统参数及用户的权限等功能进行管理。

3.3系统流程设计

系统的流程设计如图5所示。首先用户注册登录,该步骤可以获得用户的原始信息;然后根据用户的浏览信息、反馈信息等构建用户的兴趣模型;最后,系统将获得的农业信息根据用户兴趣模型,以RSS信息、邮件及短信的方式推送农业信息服务。

3.4关键技术

本系统中涉及的关键技术包括RSS信息发布、信息推送等,具体如下:

(1)RSS信息发布技术:RSS为一种新的推送技术,获得了广泛的应用,并极大地推动了信息服务的发展。RSS信息推送服务的原理为:内容提供者提供RSS feed并根据内容的变化实时更新RSS feed,用户借助RSS阅读器把RSS feed的URL地址添加到阅读器中,定时同步RSS feed的信息即可阅读,同时也可以根据自己的需求进行订阅服务。

(2)信息推送技术:信息推送主要是短信推送和邮件推送。短信推送是该系统的首要设计,该推送技术是继广播、报纸、电视和网络四大媒体之后的一种新兴的大众传播媒体,业内人士称之为第五媒体。由于手机短信具有接收简单、价格低廉、覆盖面广等优势得到了农民广泛的应用。邮件推送则是以E-mail推送的方式,是最简单也是目前应用最广泛的一种推送方式。随着网络的日益普及,电子邮件已经成为人们交流的一种常用工具和人们获取信息的一种重要手段。

4结束语

传统网络环境下的农业信息推送和信息服务扩展到农业知识推送和知识服务,是农村信息服务的必然趋势和发展方向。本研究在Web Service开发平台的基础上,构建了三元组用户兴趣模型,结合RSS发布技术、信息推送技术、数据库技术等分析研究了个性化农业信息推送系统。该系统可构建动态用户兴趣模型并对其实时更新,有效、准确地实现了农业信息推送。通过本系统,用户可以随时随地通过手机学习和了解感兴趣的最新农业科技信息,也可对农产品的需求、价格等信息进行发布与收集,还可实现物流配送往来的信息交流,最终解决农业信息推送和农产品流通难题,提高农民在市场中的竞争力,增加农民收入。

参考文献:

[1]陈威,郭书普. 中国农业信息化技术发展现状及存在的问题[J]. 农业工程学报,2013(22):196-205.

[2]孙艳梅,谭峰. 农业信息化发展的意义与对策[J]. 农民致富之友,2013(13):122-122.

[3]李期位. 农业信息智能推送技术的研究与实现[D]. 北京:中国农业科学院,2006.

[4]戴起伟,董钊,曹静,等. 面向农村社区的信息推送服务平台技术设计与应用[J]. 科技与经济,2009,22(4):49-52.

[5]綦科,谢冬青. 基于内容的短信分类系统的设计与实现[J]. 广州大学学报:自然科学版,2011,10(5):43-47.

[6]孙小华,王福顺,杨会英,等. 基于智能手机的农业信息服务系统研究[J]. 科技和产业,2013,13(6):33-36.

[7]沈典. 基于信息推送的领域垂直搜索引擎研究[J]. 电子世界,2012(8):86-87.

[8]李志芳,冯秀芳,赵红旗. 基于用户兴趣模型的信息推送系统研究[J]. 太原理工大学学报,2011,42(5):503-505,509.

篇5:基于时间分割的手写输入系统的用户绩效模型

用户的输入内容是千变万化的,很难发现隐藏在其中的用户输入模式。例如,当用户打开一个文档时,无法预测到他将要输入的内容。尽管如此,在许多情况下,还是存在一些有迹可循的用户输入的模式和规律,尤其是对于用户界面的单行输入框。现有的一些方法仅能在某种特殊情况下使用,局限性很大,不能适应一般情况。目前,相关的研究有很多[1-6】。但是这些技术都存在一些问题,比如:内容分析受限、有效上下文选择和推荐范围过窄等问题,因此,为了满足用户自动化输入要求,本文提出了基于SVM的用户输入推荐模型。

2 基于SVM的用户输入推荐模型

在用户操作界面上,用户的操作行为可以看作是一个个动作组成的序列。每一个动作包含若干参数,当用户在界面的输入框内输入内容时,利用相关的信息来预测用户的输入值,这些相关信息包括的内容有当前参数和历史数据。

基于以上的思路,本文提出了基于SVM的用户输入推荐模型,如图1所示。

由上图所示,该模型主要包括两部分,预测分类和模式挖掘。预测分类器是依据用户输入的实例的当前上下文信息来预测输出与某模式对应的模式标签。模式挖掘器的主要的功能是找出潜在的动作序列模式,从而可以对样例输入模式起到筛选作用。实例在经预测分类后器处理后进入模式挖掘器,模式挖掘器则会依据用户输入的历史记录挖掘出用户的输入模式,并且向用户给出预测推荐值。在特定的用户输入界面下,为了规范化模式挖掘算法,引入了文献[7]以提供模式挖掘的相关定义。模式挖掘的相关算法如时间序列模式挖掘[8]、频繁模式挖掘[9]、聚类模式挖掘[10]的研究文献以及各算法应用的研究文献[11,12,13]都表明模式挖掘技术的研究也是数据挖掘领域内的热点。

3 预测分类算法

根据用户输入推荐模型可以看出,新实例首先进入预测分类器,根据实例的特征信息输出模式标签,模式标签对应于模式,模式挖掘器根据模式类型生成预测推荐值,该预测分类算法流程如图2所示。

支持向量机(Support Vector Machine, SVM)[14]是一种传统的机器学习方法[15]。它将输入的样本特征向量集合变换到高维空间,在高维空间中构造最优分类超平面来使样本进行分离。SVM算法的分类函数在形式上类似神经网络,输出是中间节点的线性组合,每个中间节点对应一个支持向量,向量之间只进行点积运算。SVM用于分类的表达式为:

如果采用核函数,就可以避免在高维特征空间进行复杂的运算。该过程可以这样描述:首先将输入向量x通过映射:Rn->H映射到高维Hibert空间H中。该函数K满足,显然不同的核函数决定了不同的决策曲面(即支持不同的向量机)。核函数的形式是多种多样的,例如以下几种常用的核函数:

多项式核函数:

径向基核函数:

神经网络核函数:

实际上,SVM的核心思想是利用核函数将输入样本空间映射到高维特征空间,在这个空间中求一个最优分类面f(x)=wT·x+b=0,根据f(x)构造新的符号函数g(x),根据g(x)的取值将数据点即样本进行分类。简言之,SVM算法的原理就是给分类对象找到合适的核函数以构造最优分类决策平面,达到对输入样本进行分类的目的。

由于SVM分类器是一个两类分类器,只能实现两类划分,在解决多类划分的问题时则需要作进一步处理。通常通过组合多个SVM分类器来实现多类划分问题。对于本课题的用户输入推荐模型中用户动作序列模式可以构造一对多型分类器,构造N个两类分类器,通过比较分类器的输出来判定分类结果。

SVM决策树是将SVM分类算法和二叉决策树[16]结合起来构成的分类算法。针对本文用户输入推荐模型中的动作序列,[A1(P11,P12…P1j…P1k),A2(P21,P22…P2j…P2k) ……Ai(Pi1,Pi2…Pij…Pik)……AN(PN1,PN2…PNj…PNk)] (其中,Ai是动作序列中的一个动作,Pij是动作中的一个参数)设计SVM决策树[15]算法。该算法的基本思想是:先将所有的动作合成两大类,再将每一大类分成两个子类,如此进行下去,直到得到最基本的所有单个动作类别为止,这样就形成了一棵二叉树,在每棵树非叶子节点都使用一个SVM分类器,叶子结点代表类别。一个N类可分的SVM决策树共需要构造N-1个SVM分类器。简单假设有动作A、B、C、D,可以构造SVM决策树如图:

为了构造一个SVM分类器,需要确定决策树的结构以及每一个非叶子结点的类划分方案,即采用不同的数组作为结点SVM分类器的正例类集合和反例类集合。各个分类器的性能取决于正反例类集合之间的可分性,类集合的可分性取决于构成这两个类集合的各类之间的相互可分性。各类间的可分性越好,则分类器的性能越好。

4 基于SVM决策树的用户输入值推荐详细步骤

根据上文提及的动作序列进行分析:

由此可以看出用户动作是很多的,与其对应的动作参数也是很多的,这样诸多的动作和与之对应的参数之间的交涉就形成了一系列的动作序列,而经过训练后在这些动作序列中发现的特征和规律就形成了规范化的动作序列模式。每个动作模式对应一个模式标签。

用户输入推荐模型中预测分类与模式挖掘的具体步骤如下所示:

(1)当用户进入用户操作界面,首先做出一个引发动作A,例如该动作可定义为界面点击。

(2)用户动作涉及相关动作参数p,如选定对象的标题、窗体界面上的按钮等。

(3)用A(p0)表示动作事件的触发实例,构造该实例所引发的个各关联动作及其参数之间的动作序列:(A(p0)->A(p11)->A(p12) ··· A(p1i),A(p0)->A(p21)-> A(p22) ··· A(p2i),···A(p0)-> A(pk1)-> A(pk2)···A(pki))。用点击动作描述这一序列就是用户在进行点击操作时由于所选参数不同而执行不同的操作路径。

(4)记录数据

1)记录数据:用户动作A(pki)被执行的次数Num。

2)记录数据:动作序列中前后关联动A(pk(i-1)) ---> A(pki)之间的用户输入值Value,作为历史记录。

(5)以Num和Value作为支撑数据对用户输入值进行预测分析,过程如下:

当用户做出触发动作事件A(p0)时,首先在模式库中找出A(p0)引发的动作序列中发生次数最多的路径作为首要预测模式;然后系统将预测模式推荐给模式挖掘器,模式挖掘器结合相应历史记录和用户输入过程的关键字产生最优推荐值Value1给用户。

1)当用户接受推荐值Value1时则说明预测分类器成功,可以将该实例增加到训练样本中,作为训练记录的增加量。

2)当用户没有接受推荐值Value1时,即用户的输入值为Value2,则应该将Value2与其他模式产生的预测值进行比较。

① 当在其他模式下产生的预测值和Value2相同时,说明原预测分类是失败的,然后将新的实例添加到训练样本中。

② 当在其他模式中未发现未能发现产生的预测值与Val⁃ue2相同时,模式挖掘器将会以Value2作为关键字,分析特征值和历史数据,建立一个新的模式Npattern,(Value2,Npattern)则构成新模式Npattern下的实例,定义其对应的模式标签作为该模式的唯一标识。

5 总结

(1) 就挖掘效果而言,采用传统算法挖掘潜在的用户动作序列模式代价是很高的,是因为用户的操作习惯的不同导致动作序列的千差万别,因此从大量的动作序列中去发现有迹可循的动作序列模式是很复杂的。纵使预测值的精度可以达到很高,但是挖掘模式的效果不够理想,为用户提供的帮助具有很大的局限性。该模型根据经过训练的历史数据来挖掘用户的输入模式,在用户输入操作特定的情况下,生成最优预测推荐值。经过大量的训练、特征查询则会发现隐藏在其中的序列模式,此过程则实现了模式序列挖掘工作。

(2) 就挖掘效率而言。本文采用基于SVM决策树的分类算法,把原动作序列映射到高维空间,通过在高维空间构造分类函数来实现原动作序列的模式划分,解决了维数灾难问题,此外该算法有效地降低了在线计算时间,进行预测分类的效率较高。

(3) 就应用前景而言。随着计算机领域技术的飞速发展,人机交互成为了人们处理工作的主流模式,人机交互技术的发展则成为研究领域内炙手可热的焦点。用户输入推荐模型作为一种智能的人机交互处理技术,理论上为用户解决日常繁琐的输入任务提供便捷高效的服务,无疑是人机交互技术中的一大突破,因此,用户输入推荐技术的应用前景十分广阔。

篇6:基于时间分割的手写输入系统的用户绩效模型

【关键词】网络信息;混合型用户兴趣模型;二层树状结构

1.存在问题

用户兴趣模型是个性化信息过滤系统实现个性化的关键。目前的个性化信息过滤系统都不能很好的为用户提供个性化服务。分析其原因,用户兴趣模型主要存在以下问题:

(1)描述用户对半结构化的Web数据的兴趣,现有的方法采用一个多维向量或者一组向量来表示。实验证明,这种表示模型不能完全描述出用户的真正兴趣所在,而且独立的向量也给兴趣的更新带来不便。

(2)现有的系统大多要求用户清楚地表述他们的兴趣,然而有时让用户准确而清楚地描述他们的信息需求是相当困难的,因为用户往往对模糊而好奇的东西会产生比较浓厚的兴趣。

(3)现阶段很多系统都假设用户兴趣很少改变,但这与事实情况并不相符。当用户兴趣模型与用户的实际兴趣不一致时,查准率和查全率必然低。

2.模型建立

为了解决现有用户兴趣模型不能区分短期和长期兴趣的问题,本文提出了一种混合用户兴趣模型,将用户兴趣模型分为短期兴趣模型和长期兴趣模型,短期兴趣模型中存储用户的近期兴趣,长期兴趣模型中存储用户的长期偏好。同时提出了基于时间向量的二层树状结构来表示用户兴趣模型,节点采用加入时间因素的向量空间表示法表示,然后通过层次和划分结合的聚类算法把用户兴趣特征项聚类成不同的主题

系统通过收集用户浏览过的网页,除去不感兴趣的页面,得到用户感兴趣的页面。把用户感兴趣的页面进行预处理后,采用树状向量空间表示,并进行聚类分析得到用户的兴趣度,同时收集用户的浏览行为,调整用户的兴趣度,由此建立短期兴趣模型。系统通过用户初次使用时填写的注册信息建立短期兴趣模型,当用户的某一短期兴趣加入时间间隔达到一定程度,则认为该兴趣为用户的长期兴趣,把此兴趣加入用户的长期兴趣模型中,并在短期兴趣模型中删除此兴趣。用户的兴趣模型采用基于优化时间窗兴趣漂移的遗忘机制进行更新。

3.基于时间的二层树状空间向量模型表示

用户兴趣模型表示是对从网页中抽取的元数据(特征值)进行量化,以结构化的形式描述和存储用户兴趣信息,用户模型的表示决定了模型反映用户真实信息的能力和可计算能力,也在一定程度上限制了建模方法和模型更新算法的选取,同时是决定算法简繁优劣的重要因素之一,用户兴趣模型表示是建立用户兴趣模型的重要工作。

用户通常对多方面的内容感兴趣,并且其兴趣不断变化。用户的一些长期兴趣很少发生变化,而短期兴趣却会经常发生变化。这就要求用户模型既能够考虑到用户的长期兴趣演变,也能够迅速捕获短期的兴趣变迁,表达用户当前的兴趣。鉴于此,本系统需要能区分不同时期兴趣的用户兴趣模型表示方法。本系统要求系统响应时间短,而处理的数据量大,分析现有的用户模型表示方法,向量空间模型能将文本和查询简化为易于数学处理的特征项及权值集合的向量表示,但是向量空间模型不能区分用户的长短期兴趣,所以在向量空间模型的基础上进行了扩展,在其中加入时间向量来表示用户兴趣模型。但同时只采用加入时间向量的空间向量表示法并不能区分用户的不同兴趣类别,易造成用户兴趣混乱,故此本课题参考网易搜索引擎的“开放式目录(ODP)”管理方式,把用户兴趣模型表示成二层树类结构,上层父概念类是对下层所有子类的共同属性的概括,而下层子概念类则是从不同角度对上层父概念类加以细化,所有子节点之间形成平等的兄弟关系,这能满足本系统能区分不同兴趣类别的要求。

综上所述,本系统通过基于时间向量的二层树状结构来表示用户兴趣模型,第一层节点表示用户的兴趣主题,一个主题可以有很多主题特征项,第二层节点表示用户某个兴趣主题下的特征项,兴趣主题和特征项采用加入时间因素的向量空间模型表示,这样的二层树状结构模型既具有特征项和权值表示用户兴趣类的特点,也具有类型层次结构模型的层次性,同时还能通过特征项主题加入时间的不同来区分短期和长期兴趣。

因此整个模型树分为两级节点:第一级节点代表用户的兴趣类别,用一组兴趣主题词(I1,I2,…,In)来代表用户的n个兴趣类别,每一兴趣类 Ii 根据用户兴趣度的高低赋予一定的权值Wi,且记录加入时间Si。因此用户的兴趣可以表示为((i1,w1,s1),(i2,w2,s2),…,(in,wn,sn))的加权矢量形式。第二级节点,即叶子节点,它代表用户某一兴趣类别下的特征项,以加入时间因素的向量空间表示成(T,W,S)形式。

在向量空间模型中加入时间向量S(s1,s2,...,si,...,sn),记录新的特征项加入的时间,表示用户对某一特征项的兴趣持续程度。这样每个用户兴趣特征项D由一个三元组(T,W,S)构成。其中,T为特征项,W为特征项的权重,S为特征项的时间参数。得到的每个网页表示为一个规范化特征矢量P(d)={(t1,w1,s1),…(ti,wi,si),…(tn,wn,sn)}。当把一张网页加入短期兴趣模型时,首先通过Web网页预处理表示成向量形式P(d)={(t1,w1,s1),…(ti,wi,si),…(tn,wn,sn)},其加入短期兴趣模型的时间表示为S。文档的加入时间以绝对时间表示,如从2000年1月1日零点到当前时间的秒数,进行程序设计时,使用一个long型变量来表示时间参数。

为了适应用户兴趣的变化,把用户兴趣分为长期兴趣和短期兴趣,对应的也就用两棵兴趣树来分别表示。基于时间的树状模型能够准确地描述用户兴趣所在,根据树状模型的第一级节点,就可以大概地知道用户的兴趣类型,及其对每一兴趣类的兴趣度高低。由于用户兴趣类型是根据对用户浏览的内容页面进行聚类分析所得,每一兴趣类的主题词采用概化的方法在相应聚簇的特征向量中归纳得到,每一兴趣类的权值通过权值计算公式计算得到,所以这样得到的兴趣模型能够满足兴趣模型的准确性和完整性要求。树状模型的第二级节点是加入时间因素的向量空间模型表示的特征项,这样就能通过加入特征项的时间判断此特征项是长期兴趣还是短期兴趣,而且能通过特征项的权值判断用户对此特征项感兴趣程度。

4.总结

现有的信息过滤系统存在不能有效提取用户兴趣、用户兴趣变化得不到及时反馈等问题,究其原因是没有很好地平衡系统准确性、适应性以及用户负担之间的矛盾。本课题拟从统计学习、人工智能相结合的角度研究网络提取系统的关键问题,关注如何在提高系统的准确度和稳定性的前提下,最终达到向用户提供高效率的个性化检索的目的。该系统的研究将促进网络信息提取技术的发展,提高现有的信息过滤技术。

【参考文献】

[1]张卫丰,徐宝文.基于WWW缓冲的用户实时二维兴趣模型.计算机学报,2004,27(4):461~470.

[2]邵志峰,李荣陆,胡运发.基于中图分类法的用户兴趣模型研究.计算机应用与软件,2007,24(8):85~86.

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:66553826@qq.com

上一篇:基于多岛遗传算法的多状态动力学模型并行修正方法论文 下一篇:基于虚拟现实技术的配网关键作业模型及事故仿真培训系统建设