信息提取

关键词: 语义 话题

信息提取(精选十篇)

信息提取 篇1

关键词:话题语义信息,话题抽取,事件要素,Text Rank

随着网络的高速发展,不仅网民呈现爆炸式增长,而且导致信息量也大幅度的增长,这为我们带来了很多好处,在搜集信息的时候我们能够很快地找到大量的相关信息,但是同时也带来了很大的麻烦,那就是信息量过大,我们怎么样才能够快速找到对我们有价值的信息成为当前计算机领域的热点问题。显然,通过对信息进行语义化的重组和表达,形成便于人们理解的语义信息将是解决这一难题的关键技术。网络新闻作为互联网数据的重要组成部分,越来越体现出对于社会大众的影响力,日益赶超传统媒体新闻,成为人们获取社会资讯的主要方式。面对大量的新闻事件,如何快速有效的从中获取有价值的语义信息,意义重大,也逐渐成为Web数据挖掘的研究热点。已有的研究方法[1,2]仅通过提取关键词来表示话题,缺乏对话题语义的分析以及事件要素的提取,以关键词包构成的新闻话题挖掘结果大大影响用户对新闻事件的理解。针对该问题,本文提出一种针对网络新闻的话题语义信息抽取方法,从话题事件要素入手,建立话题语义模型,利用浅层语法特征抽取话题语义信息。实验结果表明,本文算法能有效提取新闻话题要素,抽取结果具有一定的话题语义表达能力。

1话题语义模型

几乎所有致力于新闻学研究或者新闻报道写作的人们都沿用了Mott[3]提出的新闻5Ws(Who、What、When、Where、Why) 要素学说作为新闻结构的基本准则从不同角度挖掘新闻话题的具体含义。中文网络新闻作为新闻题材的一个分支,其结构也应满足5Ws准则。这样的五元素结构可以完整地表示新闻话题而不受限于新闻格式或者语言,日益成为当前主流的新闻表示结构。基于对600篇中文新闻网页的分析统计,我们发现分别有98%、100%、72.67%、84.83%和37.33%的新闻包含Who、 What、Where、When和Why元素,Who、What、Where和When四个元素相对Why具有更大的比重。同时,我们注意到新闻用户使用新闻搜索引擎时,查询的关键词也主要来源于Who、What、 Where和When四类元素,说明这四类元素在话题表达上更具有代表性。

同时,针对新闻标题,我们进行了中文分词和词性标注,得到如表1所示的统计结果。从表格数据不难发现新闻核心四元素主要集中来源于五类词语,即名词、动词、非谓语形容词、 时态词以及数词。因此,对于标注后的结果我们只需要关注以上五类词语,在细化抽取对象的同时排除助词、连词等噪声词语对于话题抽取的干扰。

2话题信息提取

根据第二节中关于话题模型的讨论,本文对网络新闻进行中文词性标注和命名实体识别,选取具有话题语义特征的关键词作为话题模型元素,同时采用Text Rank模型[4]计算话题特征权重,根据阈值设置提取关键词构成新闻话题语义信息。

2.1词性标注与命名实体识别

中文分词是将汉字序列切分成词序列,对于输入句子的词序列,模型给句子中的每个词标注一个词性标记。因为在汉语中,词是承载语义的最基本的单元,分词成了是包括信息检索、 文本分类、情感分析等多项中文自然语言处理任务的基础。词性标注是给句子中每个词一个词性类别的任务。这里的词性类别可能是名词、动词、形容词或其他。针对本文的话题模型, 我们主要选择五类词语,即名词、动词、非谓语形容词、时态词以及数词。命名实体(Named Entity,NE)[5]是文本中基本的信息单位,是文本中的固有名称、缩写及其他唯一标志,是正确理解文本的基础。狭义地讲,可以把命名实体分为人名、地名、组织名等。广义地讲,命名实体还可以包括时间表达式,数值表达式等,在各种应用领域,还可以根据具体的需要定义其他类型的命名实体,例如,在某个具体应用中,可能需要把住址、电子信箱、电话号码、会议名称等作为命名实体。简单来说实体识别即识别文本中具有特定意义的实体,主要包括人名、地名、 机构名、专有名词等。与词性标注相同,我们通过命名实体识别筛选具有话题语义特征的关键词。

2.2话题语义特征抽取

新闻报道的核心思想(话题)是由文中的词项来体现。通过词语间的语义关系分析,找出最能代表该新闻核心内容的特征词项。为了弥补传统方法(TF-IDF模型)只计算文中词语词频而没有考虑词项之间语义关系的不足,本文通过构建词项间的Text Rank模型[4],分析多文档间词项的语义关系,抽取出有效关键词。

Text Rank与Google提出的Page Rank非常类似,它本质是在以词汇作为顶点、词之间关联作为带权或无权,有向或无向边的图上进行random walk的过程[6]。Text Rank模型表示为一个带权有向图G=(V,E),由点集合V和边集合E组成,E是V×V的子集,图中两点i,j之间的权重为Wji。对于一个给定的点Vi, In(Vi)为指向该点的点集合,Out(Vi)为点Vi指向的点集合。点Vi的分数定义为:

其中,d为阻尼因数,取值范围为0到1,代表从图中某一特定点指向其他任一点的概率。在使用Text Rank算法计算图中点的分数时,需要给图中的点指定任意的初值并递归计算知道某个词语分数收敛,收敛后每个点都获得一个分数,代表该点在图中的重要性。需要注意,点的最后分数不受给定初值的影响,点的初值只影响该算法达到收敛的迭代次数。根据基于图排序算法的基本理论,可以在具有语义关系的词语之间连线构建Text Rank模型。根据词语之间的相互“投票”,递归计算词语分数,选择分数较大的词语为重要词语,其中不和任何词语有连线的词语为孤立点。

构建Text Rank模型是根据待选关键词词语之间的语义相似关系大小来决定是否在两个词语之间建立边。因此,Tex Rank图是带权无向图,边的权重为两个词语之间的关联度,通过词语间的投票递归计算出权重,关键词的选取按分数序列从高到低选择,选取范围可以根据需要设置。

3实验结果与分析

为了评测本文算法的有效性,我们利用从网易爬取的50篇新闻进行话题语义信息抽取算法的实验分析。对抽取结果本文结合搜狗地图,以可视化的方式进行展示,为用户带来一种全新的新闻浏览体验。

3.1话题语义信息抽取结果

因为一个新闻事件中可能存在多个人名、地名、名词和动词,如何确定将那些人名、地名、名词和动词作为一个事件的事件要素,这就需要对事件要素进行权重计算,利用Text Rank算法算出众多事件要素的权重,进行筛选,得出最核心的事件要素作为一个新闻话题的关键词。实验中将得到的关键词如图所示。

3.2抽取结果可视化展示

我们调用搜狗地图,对事件地点进行定位,通过比较事件要素的权重大小可以获得事件地点,然后添加事件描述(即新闻事件的标题,时间以及抽取下来的其他话题要素),对事件进行可视化展示。如图2所示,在图中我们可以清晰地看到有三个地方做了位置标记(金昌市、白银市、太原),这三个地方分别是从三个话题中抽取出来的话题地点,而每个话题中可能有多个地点,但是它们的权重都是不同的,所以通过比较权重很容易确定时间的发生地点。其他的话题要素也是通过比较它们的权重得出的。

如图2所示,当鼠标点击地理位置时,就会出现关于该地方最近发生的新闻事件内容摘要,该内容摘要正是新闻话题语义信息提取结果整理后的文字表达。

参考文献

[1]罗凌,陈毅东,曹茂元.微博观点句识别的话题影响研究[J].电脑知识与技术,2014,01:123-127.

[2]谈成访,汪材印.基于LDA模型的新闻话题分类研究[J].电脑知识与技术,2014(16):3795-3797.

[3]Mott F L.Trends in Newspaper Content[J].Annals of theAmerican Academy of Political and Social Science,1942,219:60-65.

[4]陈宏,陈伟.基于突发特征分析的事件检测[J].计算机应用研究,2011,28(1):117-120.

[5]向晓雯.基于条件随机场的中文命名实体识别[D].厦门大学,2006.

信息提取题 篇2

信息提取题是近年来中考试卷中出现的新题型,往往通过文段、图表设题,伴之以一定的字数限制,考查学生的观察能力、领悟能力、信息筛选能力、语言概括能力和语言表达能力。现就今年中考语文试卷中的“信息提取题”作一下分析和归纳。

一、表格分析

例 今年是世界反法西斯战争和中国抗日战争胜利60周年。下表是部分国家在第二次世界大战中死亡人数的统计,根据表内提供的资料,按要求回答。(5分)国家军人死亡数

中国28,000,000

672,000

苏联13,700,000

1,600,000

南斯拉夫300,000

153,000平民死亡数国家军人死亡数平民死亡 30,000,000日本1,850,00013,000,000德国3,500,0001,200,000意大利77,500

(1)从上表中,你发现了哪些有价值的信息请写出两条。①_____

②_____

(2)看了上表,你想说些什么,写出你最想说的一句话。

解析:这道图表题的选材充分体现了新课标语文教学要引导学生关注生活、关注社会热点的理念。问题的拟设富有探究性,突出了对考生整合能力、感悟能力、表达能力的考查。要解答好此类题目,学会“读

表”是关键。对表格中的数据需要从纵向、横向两个方面进行比较,力求用简洁连贯的语言概括出表格所反映的信息。如对图表进行纵

比,我们会发现:①在抗日战争中,中国军民死亡人数是全世界最多的。②在第二次世界大战中,各国军民死亡人数均以十万、百万,甚

至千万计算。横比后会得出:③在战争中,大多数被侵略国家平民死

亡人数多于军人死亡人数。④侵略国军人死亡人数一般多于平民死亡

人数。同时还要善于挖掘出图表中的隐含信息:如,战争给交战国双

方都带来了深重的灾难。根据要求,我们只需要选择其中两点即可。

谈看法,说感想,则要结合信息,观点明确,言之成理:如:①我们

要和平,不要战争。②让和平永驻人间。③让战争远离人类。④以史

为鉴,珍惜和平。⑤让世界充满爱。

二、信息概括

例 阅读下面这则新闻报道,请用一句话概括新闻主要信息。(不超

过25个字)

本报讯,(见习记者 何明洁)为了引导学生文明健康上网,日前由成都市教育局、共青团成都市委和清华同方三方主办的“绿色上网”

万人签名活动,在成都三原外国语学校举行。活动当天,三原师生制

作了1600多件征文作品和电脑软件。参加活动的同学一致表示,要

文明健康上网,远离精神污染。

据了解,此次“绿色上网”万人签名活动将途经20站,历时4个月,三原外国语学校是该活动的第12站。(选自2005年山东济南市中考

试题)

解析:这类考题往往以消息压缩类、说明概括类、议论总结类形式出

现。着重考查了学生的筛选信息能力和语言概括能力。说明类语段要

仔细分析说明对象以及说明对象的特征,加以整合。议论类语段可以

根据语段中的事实论据和道理论据来分析推测中心论点。这道例题是

一个新闻类语段,这类语段往往具备人物(事物)、时间、地点、事

情等信息,只要保留下主要信息“谁”或“什么”“干什么”或“怎

样”。如这则语段对象:三原外国语学校(或“绿色上网”万人签名

活动),事情:“绿色上网”万人签名活动。对它们加以整合,就可

以概括为:“绿色上网”万人签名活动在三原外国语学校举行。(或

三原外国语学校举行“绿色上网”万人签名活动。)

相关链接:

1.为下面的消息写一则标题(不超过25字),写在横线上。

中国日报网站消息:联合国负责人道救援事务的副秘书长扬·埃格兰

1月3日在每日例行新闻发布会上表示,印度尼西亚苏门答腊岛西部

地区和亚齐省的遇难人数可能会增加数万人。埃格兰说,印度洋海啸的遇难人数迄今已经突破15万人,这个数字还将进一步上升。有些

人虽然目前侥幸存活,但由于药品紧缺,他们可能因一些常见病死亡。

2.根据下面的内容,用简洁的语言拟写一个新闻标题。(不超过12

个字)

据台湾媒体报道,宋楚瑜率领亲民党大陆访问团于13日下午3时40

分许返抵台北。亲民党主席宋楚瑜在桃园机场发表谈话表示,亲民党

带着两岸同胞共同追求和平的愿望回到台湾。宋楚瑜说,这次访问期

间看到大陆的很多变化,也看到大陆乡亲和我们一样,都愿意追求和

平。

3.下面是盐城市某报的一则新闻,请为这则新闻拟一个标题。(不超

过20字)

本报讯3月29日,在上海世博局举行的世博会会徽设计颁奖仪式上,上海市有关领导为世博会会徽中标者、盐城市青年广告设计师邵宏庚

颁发了获奖证书和20万元奖金。

邵宏庚今年34岁。去年年底,当他得知上海世博会正在征集会徽后

马上行动,接下来的时间里把所有精力都投入到设计中。今年2月他

将自己最满意的第1加1件作品送到上海,这件作品最终从9046件

应征作品中脱颖而出,被正式确定为上海世博会会徽。

4.导语是对消息核心内容的概括。请在下面这则消息的横线上补写导

语。

抗日战士聚徐州

本报讯,今天是徐州沦陷纪念日,____。记者了解到,9名老人

分别来自上海、北京、镇江、济南、南京、长沙等地,但都是徐州籍,年龄最大的86岁,最小的也已83岁。值抗日战争胜利60周年之际,老人们相约在徐州沦陷日前夕,相聚到徐州,重话昔日的峥嵘岁月,再游当年生活、战斗过的地方。

前日上午,他们参观后感叹徐州的变化太大了。这些耄耋老人谈起徐

州沦陷前后的战斗经历,激昂慷慨,还激动地唱起了《救亡军歌》。

5.根据语段内容,在方框内写一句恰当的话。(4分)在科学创造方面,我们可以列举历史上一些著名人物取得成果的年

龄:伽利略17岁发现钟摆原理;牛顿20岁创立微积分,24岁提出

万有引力定律;爱迪生21岁取得第一项专利,30岁发明留声机,32

岁发明白炽灯,33岁发明电车;徐霞客22岁开始周游各地,进行地理考察;杨振宁34岁时与30岁的李政道共同发现了宇称不守恒原理,荣获诺贝尔物理奖„„上述事实证明____:

6.分析下面的表格内容,把表格传达的主要信息补写完整。

世界城市化进程:拥有800万人口以上的大城市数量。1975年1995年2015年

全世界

361123

发达国家(和地区)

666

发展中国家

30517

1995年全世界拥有800万以上人口的大城市数量,由1975年的11个发展到23个,其中增加的12个全都来自发展中国家。预计到2015年,____。由此可见,发展中国家在世界城市化进程中____。(选自江西省2005年中等学校招生试题)

[参考答案]

1.印度洋海啸的遇难人数迄今突破15万人。

2.楚瑜访问团返抵台北。

3.此题为开放题,答案不惟一。要包含人物、事件等关键信息。(2分)示例一:上海世博局重奖盐城小伙邵宏庚;示例二:盐城青年邵宏庚获世博会会徽设计大奖(答“盐城青年邵宏庚作品被确定为世博会会徽”等给1分)

4.九名抗日老战士相聚徐州

5.示例:青年时期是一个人成才的关键时期。

生物图表信息提取策略 篇3

一、紧扣关键字眼,提取有效信息

图表类型的题目中,有些图表的含义、曲线横纵坐标的含义以及图表的一些特殊条件信息往往都会在题干文字表述中有所体现,这些信息对于解决图表问题至关重要,尤其是一些呈现于题干中的特殊条件。

例1 甲、乙、丙、丁四个烧杯,分别加入100mL体积分数为3%的过氧化氢溶液,分别将它们的pH调节到3、5、7、9,取等量新鲜萝卜的提取液分别加到四个烧杯中,都有气体产生;将加入四个烧杯中提取液的量减半,重复上述实验,在30℃和相同的时间内,分别测量两次实验中过氧化氢的含量变化,结果如下图:

下列判断正确的是( )

A.曲线B是第一次实验的结果

B.这两次实验的差异是由pH值不同造成的

C.曲线A和B反映出提取液的量不同,过氧化氢酶的最适pH不同

D.用点燃的卫生香检验气体产生情况时,pH为7的一组更容易熄灭

解析 共做了2次实验,测量了2次。但每次实验包含4个实验组,第一组的自变量是PH的不同。第二组组内比较也是PH的不同。而两组之间的相比有一个变量就是提取液的量减半,提取液中含有过氧化氢酶,也就是酶的量减半。

答案 A

点拨 该类题目一般题干较长,内容多,信息量大。解答此类题目时,可以先快速阅读题干和选项,在了解题目大概内容之后,再细读题干部分,把与选项有关的题干信息充分提炼出来。像上题中,“第二次实验时将提取液的量减半”就是一条十分重要的信息。

二、不要盲目解题,避免定势思维误导

在解决图表问题尤其是一些比较熟悉的图表问题时,同学们易受熟悉图形的干扰,往往不会仔细研读图表的详细信息和含义,没有弄清图形含义就盲目解题,在思维定势的影响下很容易出错。其实要准确解答图表题一定要有一个好的习惯,即认真查看横纵坐标,明确图表的正确含义并排除误导信息。

例2 下图为人体内细胞在分裂过程中每条染色体的DNA含量变化曲线。下列有关叙述正确的是( )

[细胞分裂时期][a][b][c][d][e][f] [每条染色体中的

DNA含量]

A.该图若为减数分裂,则基因的分离和自由组合都发生在cd段某一时期

B.该图若为减数分裂,则cd期的细胞都含有23对同源染色体

C.该图若为有丝分裂,则细胞板和纺锤体都出现在bc时期

D.该图若为有丝分裂,则ef期的细胞都含两个染色体组

解析 曲线的纵坐标不是每个细胞内的DNA含量变化,而是每条染色体上DNA含量的变化。

答案 A

点拨 在本题解答过程中,同学们极易根据熟悉的曲线形状把纵坐标误认为是一个细胞中的DNA的含量变化,从而把该图错误地定位为有丝分裂。在做题时一定要养成一个良好的习惯,就是在分析曲线图之前,仔细查看曲线的横纵坐标的含义以及取值范围等细节信息。只有明确了坐标含义,才能真正避免思维定势的误导。

三、注意把握曲线图的“三点一势”

图形中图的形状、大小、位置、颜色、图中的箭头以及曲线图中起点、终点、折点、交点、图形的走势等,都可能是题目中的一些有用的信息,要学会对图形本身信息的识别,把隐藏在图形内的信息解读出来。

例3 下图表示某种植物的非绿色器官在不同氧浓度下CO2的释放量和O2吸收量的变化,实线和虚线相交于C点,以下叙述正确的有( )

A.C点时,植物既进行无氧呼吸,又进行有氧呼吸

B.C点时,植物只进行有氧呼吸,此时无氧呼吸被完全抑制

C.B点时,无氧呼吸强度最弱

D.B点时,植物呼吸作用最弱

解析 ①氧气浓度为0时,只有无氧呼吸;CO2的释放量和O2呼吸量相交时,只有有氧呼吸;而上述两点之间则两种呼吸兼而有之。②由B点CO2的释放量最少可知B点呼吸作用最弱。

答案 BD

点拨 在曲线图中信息的提炼尤为重要。分析一条曲线,一定要准确的把握曲线的“三点一势”,即起点、终点、转折点、曲线的走势。起点标志一个变化发生前的初始状态,而终点标志变化的结束状态,两点对比,可以体现曲线的变化类型(如有丝分裂和减数分裂中染色体数量的变化曲线)、变化范围;转折点一般能够分析出变化中的一些影响因素;曲线的走势能够综合体现曲线的变化情况。如果分析多条曲线,还需要具体分析多条曲线的交点,以了解曲线间的相互关系。

四、反向思维,从选项中挖掘信息

大多数题目信息都体现在题干和图形中,但是也有少数的题目中关键且具有提示性的信息隐藏在选项中,针对这样的情况,从选项中挖掘有用信息就很有必要了。

例4 下图表示某生态系统中甲、乙两种群在一段时间内数量变化情况。下列有关叙述错误的是( )

A.由于甲的数量增加或减少先于乙,所以两个种群间能量流动方向是甲→乙

B.由于M点以后甲的数量在下降,所以M时甲种群的出生率小于死亡率

C.两个种群数量变化说明了信息传递是双向的

D.两种群数量波动幅度减小说明生态系统正在衰退

解析 选项A中“甲的数量增加或减少先于乙”;选项B中“M点以后甲的数量在下降”;选项D中“两种群数量波动幅度减小”都是很重要的信息。准确把握题干内信息,往往可以起到迅速排除干扰项的目的。

答案 D

点拨 在一些题干比较简单,图像隐含的信息不容易看出时,我们会感到无从下手。在这时,我们不妨先看看选项的信息,从问题入手,寻找一些提示性的信息,然后利用这些信息所提示的方向对相应的问题进行解答。

1.如图为平衡时的渗透装置,烧杯中的液面高度为a,漏斗中的液面高度为b,液面差m=b-a,在此基础上继续实验,以渗透平衡时的液面差为观测指标。下列对实验结果的预测,正确的是( )

A.若吸出漏斗中高出烧杯液面的溶液,平衡时m将增大

B.若向漏斗中滴入等浓度的蔗糖溶液,平衡时m将不变

C.若向漏斗中滴入清水,平衡时m将减小

D.若向烧杯中加入适量清水,平衡时m将增大

2.甲、乙、丙三图分别表示探究几个环境因素对马铃薯光合作用速率影响的实验结果。下列分析中正确的是( )

率][光合速率][P Q][P Q][P Q][强光照][一般光照][弱光照][低CO2浓度][高CO2浓度][中CO2浓度][10℃][30℃][20℃]

A.甲图所示实验主要研究光照强度和温度对马铃薯光合作用速率的影响

B.甲图P点时,限制马铃薯光合作用速率的因素为光照强度和温度

C.乙图Q点时高CO2浓度条件下,可通过进一步增加光照强度来提高马铃薯光合作用速率

D.丙图Q点之后三条曲线的走势为保持平稳

3.下图为基因组成为Aa的动物在形成精子过程中某一时期示意图。下列相关叙述中正确的是( )

A.2号染色单体上与A相同位置的基因最可能是a

B.1个该细胞经过两次连续分裂,最终可以形成4种类型的精细胞

C.若同源染色体正常分离,但姐妹染色单体没有分离,则分裂后会形成性染色体组成为XY的精子

D.同源染色体的非姐妹染色单体交叉互换将导致染色体结构变异

4.细胞增殖过程中DNA含量会发生变化。通过测定一定数量细胞的DNA含量,可分析其细胞周期。根据细胞DNA含量不同,将某种连续增殖的细胞株细胞分为三组,每组的细胞数如下图。从图中所示结果分析其细胞周期,不正确的是( )

A.将周期阻断在DNA复制前会导致甲组细胞数减少

B.细胞分裂间期的时间比分裂期长

C.丙组中只有部分细胞的染色体数目加倍

D.乙组细胞正在进行DNA复制

5.鱼鳞藻、脆杆藻是鱼类的饵料,微囊藻会产生有毒物质污染水体。某研究性学习小组调查了当地部分湖泊营养化程度对藻类种群数量的影响,结果如图所示。下列有关说法中,不正确的是( )

[鱼鳞藻][脆杆藻][微囊藻][藻类数量][贫营养化][中营养化][富营养化][N、P等元素含量][O]

A.可用抽样检测法调查藻类的种群密度

B.在水体富营养化的过程中,水域生态系统的抵抗力稳定性降低,分解者数量增加

C.用脆杆藻能够控制富营养化水体中微囊藻的数量而净化水体

D.中营养化的水体最有利于养殖鱼类的生长,流入水域生态系统的能量可更多地流向人

高寒山区植被信息的提取研究 篇4

对于植被遥感的研究先后经历了从利用各种植被指数进行植被宏观监测以及生物量估算-包括作物估产、森林蓄积量估算、草场蓄草量估算等, 发展到近些年的定量化、实用化的植被遥感, 人们对植被遥感正层层深入, 取得的成果也越来越喜人。

此次研究高寒山区植被信息的提取, 却有着与以往大多数研究不同的目的, 本次研究的目的是为利用遥感影像提取矿化蚀变信息剔除植被干扰因素而服务的。众所周知, 利用遥感影像提取矿化蚀变对矿物勘探有着重要的实际意义。而遥感影像中的矿化蚀变信息是一种“弱信息”, 要想准确提取这种信息必须要排除一些重要的干扰因素, 这其中植被信息就是一种重要的干扰因素。因此, 本次研究针对新疆西天山巴音布鲁克一带高寒山区的植被, 提出有效的植被信息提取方法, 为后期进行这一地区的遥感矿化蚀变信息准确提取做准备工作。

一、研究数据和方法

(一) 研究区地质概况

本次研究区实地选在了新疆西天山中部的和静县巴仑台———巩乃斯以北, 该区域具有深切割中高山的地形特点, 海拔一般都在3500~3800米, 高山区常年降雪, 气候寒冷。2900米以下多为高山草甸型植被, 基岩裸露区风化强烈, 山顶、山脊基岩裸露, 山坡多为残积坡积物, 山底多被植被覆盖。根据已做过的地质调查研究状况, 认为在石炭纪期间, 本区属于博罗科努石炭纪活动陆缘带, 分布有大面积的钙碱性火山岩套和钙碱性花岗岩, 该活动陆缘带形成于伊连哈比尔尕古洋盆向南侧的B形俯冲过程, 俯冲带的位置大体上位于以巴音沟蛇绿岩套为代表的北天山蛇绿岩带所在的位置。在二叠纪期间, 天山地区出现了后碰撞伸展环境下的裂谷化过程, 产生了数量较多的双峰式火山岩和A型花岗岩。研究区内构造活动强烈, 火山机构十分发育, 成矿地质条件十分有利。本区矿产资源丰富, 是寻找与火山活动有关的岩浆型和火山热液型铁铜多金属矿床和斑岩型铜矿最有利地区之一。

(二) 方法和数据预处理

本次研究所用的遥感影像来自美国马里兰大学的免费ETM+数据, 考虑了植被的光谱特征, 实验中只选用1, 2, 3, 4, 5, 7六个多光谱波段, 成像时间是2000年8月7号, 正值当地植被最为茂盛的时间, 选用的影像为144/30这一景, 影像中心位置的地理坐标是:43°11'22"N, 85°9'56"E, 使用影像原始的UTM地图投影, 影像成像质量满足要求。

对于植被遥感, 植被指数是首选的用来定性和定量评价植被覆盖及其生长活力的方法。但由于植被光谱受周边各种环境的混合复杂的影响, 以及包括植被本身变化的多样性, 导致对植被的光谱研究一直是遥感应用界的一个难题, 人们很早就建立了矿物的光谱库, 但却始终无法建立起植被的光谱库, 因此基于植被光谱特征的植被指数也没有一个普适性很好的值。但人们研究结果普遍表明, 利用在轨卫星的红光和红外波段的不同组合进行植被研究能取得非常好的效果。而红光对应ETM+的是第三波段, 红外波段对应的是ETM+的第四波段。因此, 本次研究就是针对研究区的具体植被情况, 基于对植被光谱特征的分析研究, 提出切实有效的植被信息提取方法, 为后期的蚀变信息提取做准备。

由于本次研究所使用的ETM+是种宽波段的遥感数据, 通过对研究区部分地区的实地考察所掌握的植被情况, 此次研究我们为了使图像具有了明确的物理意义, 将遥感数据从原始的灰度值图像转变为地表反射率图像。采用了常用的转化公式:

其中: (1) 式中的L为地物在大气顶部的辐射亮度, DN是像元灰度值, 增益 (gain) 和偏移值 (bias) 可从原始数据的头文件中得到, ρ是地物反射率, ds为日地天文单位距离, E0为大气顶部的太阳辐照度, θ为成像时的太阳天顶角, 这些信息都可以从图像的头文件中获取。

(三) 植被信息提取

利用遥感影像进行信息的提取的主要依据是地物在遥感影像上所表现出的波谱特性, 这与地物本身性质和遥感影像的特点都有着紧密的关系。对于植被在ETM+影像上的波普特征主要是:在二波段上有一个小反射峰, 而在三波段是强吸收, 四波段是强反射。我们对研究区的部分实地做了调查分析, 发现研究区内的植被主要是高山草甸型植被和少量的常年绿叶的高大松树林等, 如图1和图2所示。

1. 训练样本的选取

本次研究我们主要采用监督分类和非监督分类的多种方法进行比较研究, 分析出最为合理可行的方法来。在进行监督分类提取植被信息前, 重要的一项工作是要选取可靠的训练样本, 训练样本选取的质量将对信息提取的精度产生重要的影响。根据李小文、王锦地的观点, 由于测量尺度的不同, 地物波谱数据分为:材料波谱、端元波谱和遥感像元波谱。地物的非均一性导致了有的地物波谱虽然名称一样, 其所表征的地物并不相同。因此, 为了消除一些复杂的影响因素, 此次试验我们直接从遥感影像中选取了训练样本。我们根据野外实地调查时用手持GPS机实地测定的植被位置, 然后再在遥感影像上找到相对应的地理坐标位置的影像像素作为训练样本。由于两者都采用的都是WGS-84椭球, UTM投影, 对于本次研究可以认为定位的精度达到了要求。图3就是在影像上选取的40处训练样本然后求的平均值的反射波谱。从波谱曲线可以明显的看出, 研究区的植被在ETM+数据的2波段上有个弱反射, 这与实际观察到的植被本身的绿色实际情况相符, 并且由于植被所含叶绿素和植被结构的光谱特性, 导致植被在3波段有较低的反射率, 而在4波段有着较高的反射率。

2. 植被信息提取

本次研究我们分别采用了监督分类中的最大似然法、波谱角制图法、支持向量机法和非监督分类中的NDVI指数法、Iso Data法、K-Means法, 通过多种方法来比较研究针对研究区的植被信息提取效果。图4为ETM+321合成的真彩色遥感影像图, 图5为采用最大似然法提取植被的结果, 相似概率阈值选择的为0.1, 其中红色部分为植被信息。图6是采用波谱角制图法提取植被信息的结果, 其中通过反复试验发现最大角度阈值选择为0.25效果最佳。图7为采用支持向量机法提取的植被信息结果, 核函数选择的为径向基函数, 通过实验反复比较, 其中σ参数取0.167, 惩罚参数C取100, 分类概率阈值取0.001时能取得最佳的提取效果。图8为采用NDVI植被指数法提取的结果, 图9为采用的Iso Data法提取的结果, 图10为采用K-Means法提取的结果, 三种方法中都采用了最优密度分割法来确定提取信息阈值区间, 其中NDVI法中确定的阈值范围是0.5142~0.9094为最佳效果。

二、结果分析

对于此次研究试验的结果, 我们通过对比分析了试验所提取的植被信息结果与已有的研究区部分区域野外实际调查成果, 发现本次植被信息提取的结果是:总体上监督分类法提取的效果要好于非监督分类法。在监督分类法中, 波谱角制图法的效果最好, 支持向量机法的效果最差;而在非监督分类法中, NDVI法效果较好, 但也有“过提取”的现象, Iso Data法和K-Means法的效果差别不大, 都有“漏提取”的情况。

因此, 由以上的分析可以看到, 本次针对新疆西天山高寒山区植被信息的提取采用波谱角制图法能取得较好的效果, 这也实现了本次研究的目的。

三、结语

本次研究我们通过大量的实验证明, 有着充分数据源的ETM+多光谱遥感数据对在一些高寒山区提取植被信息有着重要的研究价值, 对今后类似地区的植被信息提取, 本次所得的方法研究也有着重要的参考价值。

摘要:从遥感影像中准确的提取植被信息有着重要的理论和现实意义。本文中, 作者利用ETM+多光谱数据, 针对新疆西天山地区特殊的高寒山区特点, 实验对比了最大似然法、波谱角制图法、支持向量机法、NDVI指数法、IsoData法、K-Means法等多种方法, 最终确定波谱角制图法在研究区进行植被信息提取能达到理想的效果。

关键词:遥感,植被,波谱角制图

参考文献

[1]赵英时等.遥感应用分析原理与方法[M].北京:科学出版社, 2003.

[2]邹林, 杨自安, 朱谷昌等.多光谱遥感蚀变信息提取新方法研究[J].地质与勘探, 2006.

高考历史有效信息提取能力 篇5

2011-4-21 8:29:29 看不清楚?可以调整字体大小:【最大 很大 一般】 阅读:22 次

高考历史有效信息提取能力——关于材料解析题解法之探索

摘 要:部分高考生在解答材料解析题时,存在着提取有效信息不全面和不准确等缺陷。为此,我建议从重视审题训练、忠实于材料、注意材料与教材的有机结合、学会透过现象看本质、加强语言文字的训练和加强对非文字信息源的关注等方面培养学生提高历史有效信息的提取能力。

关键词:高考;试题;有效信息;缺陷;提取能力;新一轮课程改革

“从历史材料中最大限度地获取有效信息,分析问题,提炼观点,或从中选取某些有效信息支持特定观点。”这是高考考试能力的基本要求。根据上述要求,近年来在全国高考各种模式试卷的历史试题中,考查考生信息提取能力的试题频繁出现。如:2003年全国高考文科综合卷第36题就是典型的一例。该题第二则材料引用了4幅《嘉峪关地区魏晋墓砖壁画》,该题第2问直接提出了信息提取能力的要求:“嘉峪关魏晋墓砖壁画生动地反映了当时河西地区的经济发展与社会风貌,透过材料二你获得了什么重要历史信息?”因此,我们在平时的教学中要有针对性培养学生这方面的能力。

一、学生在历史有效信息提取能力方面的缺陷

提取有效信息的能力要求在高考历史试题中频繁出现,但如何提高此种能力却没有引起学生足够的重视,且在学习和复习时此种能力要求往往被纳入审题的范畴。正因为如此,我们的学生在这一方面存在着不少的缺陷。

1.提取信息不全面

●浅尝辄止,一叶障目

由于年龄的缘故,中学生普遍具有浅尝辄止、一叶障目的毛病,看到一段材料、一则试题,往往得到一点信息就以为全面理解了。2003年全国高考上海历史卷第3题与1998年全国高考历史试卷第7题就用几乎相同的图片内容命题:“图中犁耕方式开始于何时?”部分学生不仔细观察就选择了A项(春秋战国),因为牛耕最早出现于春秋时期。但是图片反映的是一种比较先进的牛耕方式二牛一人犁耕法,这种方法却是西汉时期农业生产技术进步的主要表现。

●只见树木,不见森林

目前,全国高考历史试题中出示的材料往往为一组,但学生最容易出现的问题是孤立地分析每则材料,而无法将所有材料联系起来进行整体思考。2003年全国高考上海历史试卷第36题要求“以世界眼光观察与理解”6幅图片材料,自拟题目,写一篇小论文。这一试题对材料的整体思考提出了较高的要求,因为每则材料既有一个标题,又有一个说明,如第5则材料是“1972年周恩来与尼克松在宴会上”的照片,照片的说明文字是“跨越太平洋的碰杯”。该题的注意事项第2条明确提出“应突出一个主题,并涉及本题提供的所有材料”。因此,要想很好地回答这一问题,就应该对题示所有的6则材料的主题进行提炼,要从整体上考虑所有6则材料所反映的核心问题。

●只见表面,不见实质

2002年全国高考上海历史卷第28题要求从“秦砖汉瓦”中提取有效信息,并在题干中作了如下提示:“人们从商周青铜器不仅看到了那一时期的各种器皿、兵器和工具,而且了解到当时的冶炼技术、生产水平、文字、艺术和社会生活等各种情况。”这段提示提醒考生,不仅应注意表面现象(即显性信息),如“各种器皿、兵器和工具”,而且要深入思考善于发现表面现象背后的深层问题(即隐性信息),如“冶炼技术、生产水平、文字、艺术和社会生活等各种情况”,遗憾的是学生却无法从秦砖汉瓦所显示出的文字看出中国文字的变化(由小篆向隶书的变化),无法从秦砖汉瓦中看出秦汉时期的建筑技术的进步。

●只见主体,不及其余

在目前的全国高考历史试题信息源中,既有文字又有图表和图片;既有材料正文还有一些辅助信息,如材料来源、材料提示语、图片和表格标题。在答题时,有的学生往往只注意材料正文而忽视其他信息源。如2003年全国高考上海历史卷第28题,该题在题干中“观察下列关于唐代妇女的三彩陶俑照片”的字样对图片作了重要补充,它透露出以下信息:时间属唐代;主要对象是妇女,原素材唐三彩是彩陶且为陶俑(俑是古代的一种殉葬品,往往与当时的现实生活有着密切的联系)。从学生的回答来看,许多学生忽视了唐三彩为彩陶这一重要信息,没能得出当时的“陶瓷工艺具有较高水平”这样的结论。

2.提取信息不准确

●不能理解喻意

1995年全国高考上海历史卷第45题是一道值得借鉴的高考试题:“西方某学者说:‘美国没有童年,只有青壮年’。这一说法你是否同意?请简要解释你的回答。”在此,我们只能从其材料的喻意角度来分析该题,这里西方某学者所言并非本意,“美国没有童年”并不是说在美国没有小孩子,而是喻指美国历史没通常所说的原始社会、奴隶社会和封建社会,美国“只有青壮年”则喻指的是美国一建国就确立了成熟的资本主义制度。此题如果不能理解其喻意,根本无法解答。在该题出现多年后,我将这一问题用于课堂练习,发现许多同学仍对此题颇感迷惘。

●不能排除无效信息

在部分材料尤其是表格材料中,有的信息起到一种迷惑作用。2003年全国高考文科综合卷第41题第2小题引用了4幅饼状图表,要求从中概括出2001年我国跨省流动人口的主要流向,图表中的“其他”事实上就是起到干扰作用的无效信息。中国有34个省级行政机构,表中四川、安徽、湖南、江西、河南、湖北6省占流出人口的59.3%,而其他28个省级行政机构合计流出人口才占40.7%,这足以说明流动人口以前述6省为主,而这6个省处于中国内地,相对东部沿海地区而言属经济欠发达地区,至此结论已经可以得出。另一组图即“流动人口城乡结构”同样属无效信息,对解答该题不起决定性作用,因为这一组能提取的信息是人口由乡村流向城市但选项中却没有类似的表述。

●不能结合特定的语言环境准确理解材料的真实意思

在阅读历史材料时,囿于年龄和经验,学生往往忽视特定的历史条件,从而作出错误的判断。1992年全国高考历史卷中“人说惠王”一题就需要结合特定的历史条件才能作出正确的判断。该题题干为“孝公死,惠王代后。人说惠王曰:‘大臣太重者国危,左右太亲者身危,今天下妇女儿童皆言商君之法莫言大王之法,是商君反为君大王更为臣也。’”然后问文中的“人”代表了哪个阶级的利益。这里的“人”对惠王说的这段话的真实意思是什么,是肯定商鞅变法还是否定商鞅变法呢?材料已经提供了一定的历史条件“孝公死,惠王代后”,即支持商鞅变法的秦孝公已逝,新的秦王刚刚即位,在这种新旧交替的时候,“人”委婉地说商鞅已经对惠王构成威胁(“大王更为臣”),其真实意图是借惠王之手中止商鞅变法,由此可见此“人”代表的是商鞅变法触犯了其既得利益的没落的奴隶主贵族的利益。

二、如何培养学生提高历史有效信息的提取能力

发现问题是解决问题的第一步。上文已经就学生在信息提取能力方面的种种缺陷作了剖析,在此我提出几点建议,希望能对参加全国高考的文科考生提供一些帮助。

以下题为例:

阅读下列材料:

材料一 一战舰,二火器,三养兵练兵之法。

——《海国图志》

材料二 师夷智以造炮制船。

——《曾文正公全集》

材料三 “欲制西人以自强,莫如振兴商务”;“初则学商战于外人,继则与外人商战”;“君主者权偏于上,民主者权偏于下,君民共主者权得其平”;“欲行公均,莫要于张国是;欲张国是,莫要于得民心;欲得民心,莫要于通下情;欲通下情,莫要于设议院”。

——郑观

应语

材料四 变法之本,在育人才;人才之兴,在开学校;学校之立,在变科举,而一切要求大成,在变官制。

——《变法通议》

请回答:

(1)上述材料分别反映了哪些政治派别的观点? 概述其基本思想。

(2)比较材料一、二的异同点。

(3)材料三所说“商务”指什么? “与外人商战”是什么意思?(4)在学习外国方面材料三比材料二有何进步?

1.重视审题训练

在审题训练中,我强调审时间、审地点、审关键词句、审提示语、审材料来源、审问题,这些都可以作为信息提取能力培养的基本方法,如果我们将这些方法用之于信息提取能力的训练,就可起到事半功倍的效果。

●审问题

即带着问题阅读材料。做材料解析题,一般是先阅读材料后面的问题,再带着问题,有针对性地阅读有关材料,分析解决有关问题。这样既可以节约答题时间,又可以提高答题的准确性。比如我们做上面的题目时,先阅读题后的每一个问题,再分别到材料的对应位置寻找答案。像第(1)题问的是政治派别和基本思想,那我们就从材料与出处思考这两个问题,不用去花时间想这些派别、思想的背景、影响与表现等。第(2)题比较材料一与材料二的异同点,我们就直接到材料一、二寻找答案。

●审关键词句

即学会抓住关键词句。阅读材料有一个技巧,就是要抓住材料中的关键词句,这样看问题又准又快。像这个题目中的材料三,抓住关键词句“商战”、“君民共主”、“设议院”,就掌握了这段材料的中心思想。材料四的关键词句是“一切要求大成,在变官制”。这是阅读材料的一条捷径。

●审材料来源

即注意引文出处。材料解析题的材料由材料内容与材料出处两部分构成,材料内容固然重要,材料出处也不可小视,更不能忽视。因为材料出处一般能让我们知道材料的作者、时间、地点与引用的文章等。这方面的信息经常能帮助我们准确地理解把握材料的内容与思想。比如上面的材料告诉我们分别出自《海国图志》、《曾文正公全集》、“郑观应语”和《变法通议》,《海国图志》与《变法通议》在书本上有所交待,我们结合教材能更清楚地理解有关材料。《曾文正公全集》与“郑观应语”告诉我们作者是谁,我们不用看材料,只回顾所学知识也知道他们所代表的派别与思想。

2.忠实于材料

材料解析题所选材料有的出自教材内容,更多的出自我们没学过的文章,其对有关历史现象与本质的认识不一定与教材保持一致,那么我们做题时,在所给材料与教材内容相矛盾时,首先要忠实于材料。特别是题目要求“根据材料”、寻找依据、概括思想、比较异同、分析现象等,就要老老实实地从材料中找答案,不能因为与教材一致就脱离材料。比如本题中的第(4)题:在学习外国方面,材料三比材料二有何进步?我们就要到材料二与材料三中找答案:洋务派只主张学习西方先进的生产技术,早期维新派还主张学习西方的政治制度,实行君主立宪制。就不要因为书本上介绍早期维新派时交待了其经济、政治、文化等方面的主张,就一股脑地搬上去。

3.注意材料与教材的有机结合

我们做材料解析题,一般是以教材为依托,一是教材的内容,一是教材的观点。我们反对照搬教材,要求忠实于材料;也反对脱离教材,一味地自由地发挥。一是材料与教材间有以上关系,一是材料很多时候也会要求我们结合教材来思考问题。本题就能落实到教材上像新思潮的萌发、洋务运动、维新变法运动的有关章节,这样很容易解答政治派别与基本思想,还有其他具体问题。因为教材上有对于地主阶级抵抗派、洋务派、早期维新派、维新派的基本思想的介绍与评价。在题目中有要求结合教材,结合所学知识,或者什么也没说时,我们都要联系教材相关内容,结合教材寻找正确答案。

4.学会透过现象看本质

做材料解析题还要学会透过现象看本质,运用马克思主义的有关原理观察事物,解决问题。比如以上题目就要我们从有关观点判断政治派别,说到“商务”,就要知道是指新生的民族资本主义,“与外人商战”是主张发展资本主义、抵制外国资本主义的经济侵略。这一般要求我们能读懂材料,还要能回归教材,才能看到问题、现象的本质。有时候,材料提供的是一些与事实不符合的言论,或反动的观点,我们就要能运用马克思主义的立场、观点与方法,来进行正确的判断与推理,分析其本来面目。当题目要求我们结合材料谈自己的认识或启发时,更要透过现象看本质,通过对材料的整体把握,获得认识事物、分析解决问题的方式方法、经验教训。

5.加强语言文字的训练

目前的一些重要考试对一些问题的关键词都采取加着重号(或加粗、或用不同字体表示)的方式,为考生避免犯审题的错误而发挥出真实水平提供了便利条件。但此举也养成了部分学生的依赖心理,他们认为考试中既然已经给了我们提示,就没有必要再多费心思。但是目前全国高考试卷中信息源尤其是非文字信息源的大量采用,着重号无法标注,这往往使得平时缺乏训练的考生手足无措。因此,平时训练中我们应该在语言和文字方面加强训练。文字训练时应该重点隐含,即对关键词不作标注。语言训练时教师可以故意用平淡的语气来叙说重点字词。正常情况下我们可以用停顿、加重、放慢等语气来突出重点,但训练时则恰恰相反,各种可能突出重点的方法全部隐含,模拟考场上无人提示的情况。

6.加强对非文字信息源的关注

如何从材料中提取有效信息 篇6

例1 白居易有首诗:“机梭声札札,牛驴走纭纭。……有财不行商,有丁不入军。家家守村业,头白不出门。”诗中的描述反映了( )

①男耕女织的自然经济 ②重视农业的观念 ③家庭手工业的发展促进了商品流通 ④安土重迁的思想

A. ①②③ B. ①②④

C. ①③④ D. ②③④

解析 此题要求从文字型材料中提取信息,属于客观题。第一步,审题。抓住题眼“反映了”,这是典型的考查从材料中提取信息,而且是获取直接信息。第二步,解读材料,挖掘材料中的信息。“机梭声札札,牛驴走纭纭” 对应①男耕女织的自然经济;“家家守村业”对应②重视农业的观念;“头白不出门”对应④安土重迁的思想;③家庭手工业的发展促进了商品流通在材料中体现不出来。

答案 B

点拨 做此类题要把握的一个基本原则就是要尊重材料,从材料本身出发,既要充分挖掘材料中所包含的信息,又要防止主观臆断,节外生枝。

例2 阅读下列材料,回答问题。

材料 若夫美、法民政,英、德宪法,地远俗殊,变久迹绝,臣故请皇上以俄大彼得之心为心法,以日本明治之政为政法也。然求其时地不远,教俗略同,成效已彰,推移即是,若名书佳画,墨迹尚存,而易于临摹,如宫室衣裳,裁量恰符,而立可铺设,则莫如取鉴于日本之维新矣。

……考其维新之始,百度甚多,惟要义有三:一曰大誓群臣以定国是,二曰立对策所以征贤才,三曰开制度局而定宪法。……日本之强,效原于此。

——康有为《应诏统筹全局折》

根据材料指出康有为建议光绪帝“取鉴于日本之维新”的理由(不得照抄原文),指出这份奏折在戊戌变法中的地位。

解析 此题要求从文字型材料中提取信息,属于主观题。第一步,审题。该题有两问,其中,第一问:根据材料指出康有为建议光绪帝“取鉴于日本之维新”的理由(不得照抄原文)就是典型的考察从材料中提取信息的模式。

第二步,解读材料。材料一有两段,第一段讲为什么要取鉴于日本,第二段讲怎么样取鉴于日本。所以,答案主要在第一段之中。第一段在讲述理由时,又分了两个方面,即为什么不学欧美(若夫美、法民政,英、德宪法,地远俗殊,变久迹绝)和为什么要学日本(然求其时地不远,教俗略同,成效已彰,推移即是,若名书佳画,墨迹尚存,而易于临摹,如宫室衣裳,裁量恰符,而立可铺设)。

第三步,形成答案。

答案 欧美各国距中国较远,习俗与中国不同,变革的时间相隔太久,不易效仿;日本距中国较近,文化习俗相似,维新时间较近,成效显著,便于直接效法。

点拨 做此类题的一般步骤为:(1)审题。这类题一般要求:根据材料,概括(指出或反映)……的观点(背景、原因、措施、内容、方式、特点、影响等等)。另外,分值也是很重要的信息。正确的审题是解题的前提。

(2)解读材料,主要是划分层次。历史材料的段落结构一般是(总)—分—(总)模式,提取信息的区域一般是分述的内容,所以划分层次主要是在这部分内容。划分层次的主要依据有三个:首先是内容的关联性;其次是标点符号,主要有句号、分号、省略号等;再者是分值,一般情况下,一个点是2分。充分的解读材料是解题的关键。

(3)形成答案。答案的形成要注意两点:一是要依托一定的书本知识背景;二是尽量不要照抄原文,不管题目里面是否要求不得照抄原文。

例3 下表为1870~1900年世界铁路发展状况(单位:千米)

[年份\&世界总里程\&欧洲\&美国\&1870\&210 000\&105 000\&85 277\&1880\&373 000\&169 000\&144 000\&1890\&617 000\&224 000\&269 010\&1900\&790 000\&284 000\&320 133\&]

表中信息反映的情况不包括( )

A. 30年间美国铁路发展超过欧洲总和

B. 1870年欧洲资本主义经济处于领先地位

C. 铁路的发展扩大了欧美之间经济联系

D. 欧洲地区内及美国国内贸易不断扩大

解析 此题要求从表格中提取信息。第一步,审题。抓住题眼“反映的情况不包括”,特别要注意否定词,否则就会前功尽弃。第二步,解读材料,挖掘材料中的信息。材料以表格的形式呈现,比较直观。表格中主要有两个方面的内容,即时间和铁路里程。时间为1870~1900年,铁路里程包括世界、欧洲和美国。表格第四、五行的内容可以印证A选项,第二行的内容可以印证B选项,第三列和第四列的内容可以印证D选项。C选项在表格中体现不出来。

答案 C

点拨 表格型材料是近几年高考比较受欢迎的出题形式,以表格的形式呈现材料比较直观便捷,但也会增加无效信息,所以在做此类题的时候首先要做的一个工作就是对信息进行筛选,剔除无效信息,保留有效信息。

例4 服饰是—个时代政治、经济和思想文化的具体体现。下图是明太祖命制并颁行全国的三种男式帽子,你从中得到的确切信息是( )

一统河山巾 四方平定巾 六合一统帽

A. 朱元璋关心民众生活

B. 朱元璋鼓励发展纺织业

C. 明朝极力加强专制皇权

D. 明朝百姓服饰都有统一规范

解析 此题要求从图中提取信息。第一步,审题。抓住题眼“你从中得到的确切信息是”,设问很直接。第二步,解读材料,挖掘材料中的信息。材料以图片的形式呈现,比较直观、形象。图片下面有文字注释,抓住关键词“一统河山”、“四方平定”、“六合一统”做进一步的归纳,涉及的都是专制统治方面的内容。

答案 C

点拨 图片型材料题也是眼下比较流行的题型之一,以图片的形式呈现材料,直观、形象、生动,可以增加历史的趣味性,但在做题时要注意抓住有效信息,结合书本知识对图片进行准确的解读。

1. 明代《闽部疏》载:“凡福之紬(绸)丝……福漳之桔,福兴之荔枝,泉漳之糖,顺昌之纸,无日不走分水岭及浦城之小关,下吴越如流水。其航大海而去者尤不可计,皆衣被天下。”材料反映明代福建( )

A.海陆交通十分发达

B.商品经济活跃

C.成为全国经贸中心

D.出现资本主义萌芽

2.以下是明代洪武至弘治年间(1368~1505)徽州祁门土地买卖契约情况表。

[时间\&使用通货类别及契约张数\&洪武年间至永乐年间\&宝钞23、银1、布1\&宣德年间至景泰年间\&宝钞4、银27、布42、稻谷4\&天顺年间至弘治年间\&银52、稻谷1\&]

该表反映了( )

A.宝钞在民间的信用降低

B.社会经济大幅度衰退

C.生活资料均可作为支付手段

D.白银始终是主要流通货币

3.下图是甘肃嘉峪关、酒泉一带魏晋古墓中发现的以庖厨为题材的彩绘墓砖。这两幅图( )

A.反映了魏晋时期当地百姓民族构成情况

B.证实了魏晋时期男女劳动分工状况

C.展现了魏晋时期当地动物养殖状况

D.有助于了解魏晋时期饮食生活状况

4.历史学家哈孟德夫妇说:“工业革命带来了物质力量的极大发展,也带来了物质力量相伴着的无穷机遇……然而,这次变革并没有能建立起一个更幸福、更合理、更富有自尊心的社会,相反,工业革命使千百万群众身价倍落,而迅速发展出一种一切都为利润牺牲的城市生活方式。”材料反映了工业革命( )

①促进了生产力的飞跃 ②造成了贫富差距扩大 ③打击了对理性王国的憧憬 ④加剧了唯利是图的社会风气

A.①③ B.①②④

C.②③④ D.①②③④

5. 阅读下列材料,并回答相应问题。

材料 唐律继承了汉晋以礼入律的传统,明确规定:“德礼为政教之本,刑罚为政教之用。”标志着礼治法律化已经达到了很高的程度。唐律的法律形式也已经相当完备,律、令、格、式各有其用。“凡律以正刑定罪,令以设范立制,格以禁违止邪,式以轨物程事。”在刑罚的类别上,经过汉魏的演变,至唐代形成了新的“五刑”制度,即笞、杖、徒、流、死五种刑罚,其中笞分五等(十至五十),杖分五等(六十至一百),徒分五等(一年至三年),流分三等(二千里至三千里),死分两等(绞、斩)。在法律的实施上,唐代统治者强调慎狱恤刑,特别是完善了死刑复核程序,有效防止了滥用刑罚。

唐代在法制监督上有了新的进展,沿用了汉晋以来的御史台建制,以御史台总管监察。御史台下设台院、殿院和察院,分别由侍御史、殿中侍御史、监察御史分负其责。侍御史主要监督司法,推鞫狱讼。殿中侍御史主要监督殿廷礼仪,京城巡视。监察御史主要分巡地方,弹劾官吏。在司法监督上,大理寺初审,刑部复审,御史台监督,合称“三法司”。法司判决有称冤屈的,则由中书舍人、给事中和监察御史联合审理,称“三司受事”。御史台监督的重点在于纠察百僚,肃清吏治。

——《中国历史十五讲》

信息提取 篇7

山东半岛是我国著名的水果生产基地, 也是我国北方重点水果出口基地之一, 素有“水果之乡”的美誉。随着遥感技术发展和应用的深入, 使用中、高分辨率影像快速、准确地获取其面积及分布状况, 成为水果生产业健康发展和科学管理的客观需求。研究区的地貌以丘陵为主, 果园与林地、农田等背景地物在空间上相互交错和镶嵌, 构成复杂的混合体, 同时还受地形和阴影的影响, 使得果园信息的自动提取有着相当的难度。

CART (分类回归树, Classification and Regression Tree) 是一种有效的知识挖掘和应用方法, 在遥感图像处理领域的应用方兴未艾[1,2,3,4]。本文将在细致分析研究区影像和果园信息各种特征的基础上, 探讨了将光谱值、纹理熵、植被盖度、地形坡度等多种信息作为测试样本和分类条件, 使用CART方法对果园信息进行自动提取的方法。

1 方法原理与数据准备

1.1 分类回归树原理

分类回归树是Breiman于1984年提出的一种数据分析的非参数统计算法, 其原理是对1个由测试变量和目标变量构成的已知类别的训练样本集依据一定的规则进行二分, 形成二叉树结构, 并对每一个子节点循环二分, 直至不可再分成为叶节点[5,6,7,8]。

设样本集wj={w1, w2, w3, …, wn, y}。其中, w1到wn为测试变量, y为目标变量, 当y有序时称为回归树, 当y离散时称为分类树。理想的CART应当具有相对较少的分枝和中间节点, 而具有较高的预测或分类能力。

CART的生长开始于一个包含所有样本集的根节点t, 根据每个测试变量 wi的类型定义测试变量的标准问题集, 根据一个判决规则对根节点t进行分枝, 除叶节点外的每一个节点都被继续分割为左节点tL和右节点tR。

设i (t) 为节点t的熵, 则有

undefined (1)

其中, p ( wj | t ) 为wi在节点t处属于wj的概率。i (t) 值越小, 表示节点t越纯。

设s为节点t分割为子节点tL, tR的判决规则, pL, pR为tL, tR产生的概率, 则有

Δi (s, t) =i (t) -PLi (tL) -PRi (tR) (2)

式 (2) 称为杂质消减, 在理想的分类回归树中, 杂质消减最大。

每个节点重复上述操作, 当节点再次分割所产生的两个子节点的熵无明显减少时, p ( wj | t ) 达最大值, 节点不可再分成为叶节点, 一棵完整的分类回归树生长完成。

该算法具有结构清晰、易于理解、实现简单、运算速度快、准确性高等特点, 可以有效地处理大量高维数据, 可以方便地用影像的光谱信息和空间结构信息, 而且可以综合应用关于地物分布的地学知识和专家经验, 使得遥感影像的分类过程更加符合人类专家解译的过程, 从而在很大程度上提高分类的精度。

1.2 数据准备

采用山东省龙口—栖霞地区2007年6月13日SPOT-5影像一景作为分析数据, 其具有B1 (0.49~0.61μm) 、B2 (0.61~0.68μm) 、B3 (0.78~0.89μm) 等3个波段, 该影像质量良好, 无云, 无坏线。以校正后的1∶500 000数字化地形图为参考对遥感影像进行精确配准。将地形图等高线矢量化, 生成DEM和坡度图。

鉴于本文的重点在于研究从SPOT-5影像提取丘陵地区果园信息的方法, 研究采用影像中丘陵地区随机选择256×256像元的子区域作为试验区。该区域基本包括了研究区的主要土地利用/覆盖类型, 满足研究要求。根据试验区土地利用特点和实地考察的结果, 将试验区地物类型划分为建设用地、干河床、水体、农田、果园、林地等6大类。分别给各类地物选取一定数目的训练样本, 获取它们在不同波段的亮度信息, 生成光谱响应曲线, 如图1所示。

1.3 典型地物特征分析

同果园相比, 建设用地、干河床、水体等地物的光谱特征差别较大, 易于区分。在平原地区, 农田同果园光谱特征差别较大, 仅利用光谱特征可以区分;而在丘陵地区, 林地同果园的光谱重叠率高, 且在各波段的变化节律十分相似, 仅利用光谱特征很难区分。经分析发现, 在丘陵地区, 林地面积较大, 内部较均匀;果园的分布较为散乱, 往往与旱田交错, 盖度不均匀, 内部差异大, 纹理复杂, 因而可尝试对影像做纹理分析, 抽取特定纹理特征将林地和果园加以区分。

利用纹理分析可以得到一系列的纹理特征统计量, 如熵 (Entropy) 、能量 (Energy) 、角二阶矩 (Second Moment) 、对比度 (Contrast) 、同质度 (Homogeneity) 等。其中, 熵主要检测图像空间的复杂性和混乱程度, 纹理复杂的地方熵值较大, 反之较小。果园分布散乱, 纹理复杂, 其熵值应大于林地, 其计算公式为

undefined (3)

2 提取实验与结果

2.1 CART构建和果园信息提取

根据分析, 将分别在SPOT-5原始影像、地形图、纹理熵等图像中采集一定数目的训练样本作为测试变量, 以建设用地、干河床、水体、农田、果园、林地等6类地物作为目标变量, 对分类回归树进行训练。以原始影像为分类树的根节点, 树中每一节点都赋予一条判决规则对遥感影像进行分类, 判决规则采用产生式的表示方法, 即“IF <条件> THEN <结论>”的形式。评估后得到有6个层和11个节点的最终决策树, 分类模型如下:

If (B1>B2) THEN 植被

If (B1/B2>1.6) THEN 果园、林地、农田

If (DEM<100 And Slop <10)

If (B1<163 And B2>168) Then 果园 Endif

Else

If (Entropy>1.6) Then 果园 Endif ……

运行模型后取得了较好的分类效果, 经局部降噪后得最终分类结果, 如图2所示。

2.2 数据准备

在遥感信息自动提取研究中, 分类精度的评价是十分重要的一步。一方面, 它可以对分类器的效果进行评价, 从而改造分类器, 提高分类效果;另一方面, 也是对遥感分类成果的最终评价, 即对分类图中错误的理解, 全面评价分类结果的可靠性。

本研究采用随机方法生成一定数目评价样本像素, 通过比较试验样本的分类数据和实地调查的结果计算出混淆矩阵 (如表1所示) , 由混淆矩阵最终得分类精度。在随机抽取的128检验样本中有7个非果园像元被误判为果园, 有10个果园像元被错判为非果园, 分类精度为87.04%, 参考精度为82.46%, 总精度为86.72%。

3 结论

水果种植业山东半岛地区重要的农业产业, 从遥感影像中及时有效地获取果园相关信息对指导当地生产实践和规划有着重要意义。研究区内的果园主要有苹果园、葡萄园、梨园、樱桃园等类型, 种类繁多, 且各种果园的纹理、光谱、空间分布等特征均十分相似, 类间差距小, 套种、间种现象普遍, 可分性差。故本文只研究了将果园信息作为一个整体进行提取的方法, 而未对果园作进一步分类。

CART是一种非参数化的分类与回归方法, 在用于遥感影像自动分类时, 可以方便地应用多源信息, 以提高分类精度。本研究将包括地物光谱、纹理、地形等在内的多种信息作为CART的测试样本进行果园信息的提取, 克服了单纯利用光谱特征进行分类的不足, 取得了86.72%的分类精度, 这说明用CART方法进行果园信息提取是可行的。

参考文献

[1]赵萍, 傅云飞, 郑刘根, 等.基于分类回归树分析的遥感影像土地利用/覆盖分类研究[J].遥感学报, 2005, 9 (6) :708-716.

[2]Yang C C, Prasher Shiv O., Enright Peter, et al.Application of decision tree technology for image classification using re-mote sensing data[J].Agricultural Systems, 2003, 76 (3) :1101-1117.

[3]Bittencourt H.R., Clark R T.Use of classification and re-gression trees (CART) to classify remotely-sensed digital images[J].IEEE International Geoscience and Remote Sens-ing Symposium, 2003, 7 (6) :3751-3753.

[4]Sugumaran Ramanathan, Pavuluri, Manoj Kumar, et al.The Use of High-Resolution Imagery for Identification of Urban Climax Forest Species Using Traditional and Rule-Based Classification Approach[J].IEEE Transactions on Geosci-ence&Remote Sensing, 2003, 41 (9) :1933-1939.

[5]Bittencourt H.R., Clark R T.Use of Classification and Re-gression Trees (CART) to Classify Remotely-sensed Digital Images[J].IEEE International Geoscience and Remote Sens-ing Symposium, 2003, 7 (6) :3751-3753.

[6]Chyon-Hwa Yeh.Classification and Regression Tree (CAR T) [J].Chemometrics and Intelligent Laboratory Systems, 1991, 12 (1) :95-96.

[7]Michelle A.Johnson, C.Hendricks Brown, Susan J.Wells.Using Classification and Regression Tree (CART) to Support Worker Decision Making[J].Social Worker Research, 2002, 26 (1) :19-29.

信息提取 篇8

关键词:3S技术,土地利用,变化信息提取

我国幅员辽阔, 然而随着近几十年对土地的过度利用和对生态资源的过度开采, 从而使得土地利用变化和生态环境问题已经逐渐成为了当前土地管理所面临的焦点问题。这些问题不仅制约了我国的经济发展, 而且还严重的威胁到人类社会的可持续发展, 因此, 如何能够科学合理的将这些问题解决就显得尤为重要。而随着可持续发展这一科学发展观的贯彻落实, 人们逐渐认识到可持续发展的重要性, 并且随着生态环境和资源问题的日益严峻, 保持以及维护土地生态环境的平衡和稳定不信关系到我国的经济可持续发展, 而且还与整个民族的生存和发展息息相关。随着科学技术的日新月异, 在当前的土地利用动态监测中也应用到了各种先进的技术和理论, 其中3S技术就是一种较为先进的技术, 该技术具有精确定位和快速提供波段信息等功能, 随着该技术在土地利用动态监测中的应用, 不仅极大的提高了土地利用变化信息提取的效率, 而且还大幅度提升了土地利用动态监测的水平。本文从3S技术及其应用出发, 对3S技术进行了深入的分析研究, 然后对基于3S技术的土地利用变化信息提取进行了详细阐述。希望能够起到抛砖引玉的效果, 使同行相互探讨共同提高, 进而为我国今后的土地利用变化信息提取起到一定的参考作用。

1“3S”技术及其应用

1.1 GPS技术

GPS全称“Global Positioning System”。由美国国防部于20世纪70年代开始设计、研制, 于1993年全部建成。经过20年, 耗资超过300亿美元, 是继阿波罗登月计划和航天飞机计划之后的第三项庞大的空间计划。其目标为实时地提供三维位置、三维速度和高精度的时间信息, 从根本上解决人类在地球上的导航和定位问题, 以满足各种不同用户的需要。

1.2 RS技术

遥感, 即遥远的感知, 是非接触的、远距离的探测技术。一般指运用传感器对物体的电磁波辐射、反射特性的探测, 并根据其特性对物体的性质、特征、状态进行分析的理论、方法和应用的科学技术。

1.3 GIS技术

地理信息系统是有计算机硬件、软件和不同方法组成的系统, 支持空间数据的采集、管理、处理、分析和显示, 以便解决复杂的规划和管理问题。GIS独特的空间查询、空间分析能力以及可视化表达、地理过程的演变模拟和决策支持, 使其广泛应用于政府国土、环境、人口等资源的调查、统计、分析、管理及决策, 区域规划管理和城市基础设施, 行业规划管理, 大型工程规划设计、市场分析、商业与服务管理等方面。

1.4 3S集成技术

3S集成技术是指将上述三种对地观测新技术及其它相关技术有机地集成在一起, 是目前对地观测系统中空间信息获取、贮存、管理、更新、分析和应用的三大支撑技术。总的来说, RS与GPS为GIS提供高质量的空间数据, 而GIS则是综合处理这些数据的平台, 并且反过来指导RS与GPS的数据的采集, 它们是个有机的整体。3S技术中, RS相当于传感器, 进行数据采集;GPS相当于定位器, 进行实时定位;GIS相当于神经中枢, 进行空间分析和综合处理。三者有机结合, 能够准确的把握土地利用资源利用变化区域的特征, 实现土地资源的动态监测, 有着传统调查方法无法比拟的优越性。

2 基于3S技术的土地利用动态变化的研究

2.1 遥感数据的选择

关于遥感数据的选择, 可以根据研究对象的空间尺度和指标, 采用不同的遥感平台及数据。土地利用变化状况因其时间上和空间上的不确定呈现出十分复杂的地表形态, 卫星数据以其宏观、快速、准确、实时的特点被广泛的应用于土地利用动态监测中。对于省市或区县级尺度以上的土地利用动态变化研究, 陆地资源卫星Landsat遥感数据是十分有效的, Landsat TM/ETM数据的多光谱性、空间分辨率、可获取性、性能价格比等, 目前依然是其它遥感数据无法比拟的。

在实际的应用研究中, 最理想的是选择几何畸变小、影像质量高、无噪声、获取季节相同或接近的多时相遥感图像, 这样可以减少因季节差异二产生的伪变化信息, 提高土地利用变化监测的精度。

2.2 遥感数据的预处理

2.2.1 遥感图像的校正与配准

由于卫星遥感影像在成像过程中受到很多因素的干扰, 是从卫星传感器上获取的影像发生了畸变, 主要包括辐射畸变和几何畸变。

由传感器的灵敏度特性、太阳高度角及地形以及大气的影响而产生的畸变成为辐射畸变。这种畸变可以用严格的数学公式加以描述来校正, 称为几何粗校正。一般从地面卫星站获取的遥感影像都经过了几何粗校正。

2.2.2 遥感图像增强处理

为了使图像上感兴趣的特征得以加强, 使图像变得清晰、解译性高, 通常要进行遥感图像增强处理, 以便于显示、观察、进一步分析与处理。图像增强包括空域增强方法和频域增强方法。空域方法又可分为点运算 (线性变换、非线性变换、直方图修正、图像间运算) 、邻域增强 (图像平滑、图像锐化) 、彩色增强 (假彩色增强、伪彩色增强、真彩色增强) ;频域方法包括低通滤波、高通滤波、同态滤波。

2.2.3 遥感数据融合

图像融合是将多种遥感平台, 多时相遥感数据之间以及遥感数据与非遥感数据之间的信息组合匹配的技术。

数据融合是通过对某一研究对象的多源遥感图像数据进行综合分析处理, 产生比较单一的信息源, 从而实现对地物更精确、更可靠的分析和识别。其优点是扩大时空覆盖范围、提高图像的清晰度和空间分辨力, 减少模糊度, 增强解译精度和动态监测能力, 以及有效的提高遥感图像的利用率。

结束语

身份证相关信息的提取方法探讨 篇9

当前计算网络与大型数据库的广泛使用, 使决策者与经营者面临巨量的数据而无所适从, 用智能信息处理方法解决这一问题是当今信息社会的重要手段。

智能信息处理的主要目的就是要制造出具有学习、理解和判断能力的人工智能系统。其本质就是要研究一些算法来提取出信号中的有用信息, 从而实现系统的智能控制。身份证作用无处不在, 例如:选民登记、户口登记、兵役登记、婚姻登记、入学、就业、办理公证业务、前往边境管理区、办理出境手续;参与诉讼活动、办理机动车 (船) 驾驶证和行驶证、非机动车执照、办理个体营业执照、办理个人信贷事务、参加社会保险、领取社会救济、办理搭乘民航飞机手续、投宿旅店办理登记手续、提取汇款或邮件、寄卖物品、办理其他事务、上网登记、出入境登记等等。身份证中含有众多的信息, 照片、住址、出生信息等等, 拟计划还将加入指纹等, 甚至会添加血型等与工作、生活密切相关的信息。本文将讨论身份证中相关信息的快速提取。

一案例导入

在实际处理信息时, 我们以Excel为例, 讨论根据个人身份证号, 一劳永逸地提取出生日期、性别等个人信息, 实现个人信息的自动录入。

应用案例:单位需要上报人事局一份职工信息, 其中既有个人身份证号, 又有出生日期、性别等信息。由于人员众多, 输入麻烦, 且易出错, 弄不好还得返工。能否有个一劳永逸的办法, 又快又准地录入出生日期、性别等个人信息呢?图例:

我们首先输入一些必要的信息如身份证号, 然后一次性推出其性别、出生日期等信息。

二性别信息的提取

我国的身份证号分为两种, 一种为15位, 一种为18位。在15位的老版身份证中, 第7到12位为出生日期数, 最后一位为性别代码, 偶数为女, 奇数为男。18位的新身份证中第7到14位为出生日期数, 倒数第2位为性别代码, 同样偶数为女, 奇数为男。

先学习几个函数:mid, text。MID返回文本字符串中从指定位置开始的特定数目的字符, 该数目由用户指定。

Text是包含要提取字符的文本字符串。TEXT将数值转换为按指定数字格式表示的文本。语法:TEXT (value, format_text) Value为数值、计算结果为数字值的公式, 或对包含数字值的单元格的引用。Format_text为“单元格格式”对话框中“数字”选项卡上“分类”框中的文本形式的数字格式。

MOD (number, divisor) 函数返回两数相除的余数。

VALUE (text) 将代表数字的文本字符串转换成数字。

以身份证XXXXXX19911014XXXX存放在K2单元格内为例, mid (K2, 17, 1) 取出倒数第2位数, 用mod函数判断奇偶。

然后编写公式:=IF (MOD (VALUE (MID (K2, 17, 1) ) , 2) =0, "女", "男") , 用公式复制完成。

三出生年月信息的提取

Mid函数的用法同性别的提取, TEXT (value, format_text) 函数将数值转换为按指定数字格式表示的文本。Value为数值、计算结果为数字值的公式, 或对包含数字值的单元格的引用。Format_text为“单元格格式”对话框中“数字”选项卡上“分类”框中的文本形式的数字格式。从第7个开始取8个位出生日期, 按照格式“00年00月00日”输出。

四多样的要求解答

第一, 如果出生日期用“一九九一年十月十四日”的形式来表示, 则年公式写成:=TEXT (MID (K2, 7, 1) , "[dbnum1]") &TEXT (MID (K2, 8, 1) , "[dbnum1]") &TEXT (MID (K2, 9, 1) , "[dbn um1]") &TEXT (MID (K2, 10, 1) , "[dbnum1]") ;月的公式写成=IF (VALUE (MID (K2, 11, 2) ) <10, TEXT (MID (K2, 11, 2) , "[dbnum1]") , IF (VALUE (MID (K2, 11, 2) ) >10, "十"&TEXT (MID (K2, 12, 1) , "[dbnum1]") , "十") ) ;日的公式写成:=IF (VALUE (MID (K2, 13, 1) ) <>1, TEXT (MID (K2, 13, 2) , "[dbnum1]") , "十"&IF (MID (K2, 14, 1<>0, TEXT (MID (K2, 14, 1) , "[dbnum1]") , "") ) 。

第二, 如日期“20010225”写成2001-02-25格式, 可以使用mid公式, 假定日期放在E2单元格:=mid (E2, 1, 4) &"

第三, 对于第二代身份证的位数输入不满18位的错误判定可以借助len函数, LEN返回文本字符串中的字符数, 使用公式:=if (len (k2) <>18, "错误", "") , 结果单元格无显示, 则表示没有错误的输入, 如果出现“错误”字样则有错。-"&mid (E2, 5, 2) &"-"&mid (E2, 7, 2) 。

举一反三, 不仅可以从身份证中提取性别和出生日期, 还可以提取年龄, 判断身份证正确与否, 所属省份, 所属地区, 生肖, 星座, 幸运日等。应用灵活, 使用范围很广。

函数的应用很广泛, 不仅仅在复杂的编程中离不开函数, 在Excel电子表格、Flash动画制作等众多的应用软件中巧妙地利用函数也可以起到意想不到的重要作用与效果。

参考文献

[1]Exce Home编著.Excel实战技巧精髓[M].北京:人民邮电出版社, 2007

[2]罗刚君编著.Excel VBA程序开发自学宝典[M].北京:电子工业出版社, 2009

[3]Excel Home编著.Excel函数与公式实战技巧精粹[M].北京:人民邮电出版社, 2008

Web信息提取技术研究与应用分析 篇10

1 web信息提取技术的研究的意义

传统的信息提取技术起源于80年代末, 兴起于90年代, 它的蓬勃发展主要得益于消息理解系列会议的召开, 并随着web挖掘项目的成立, 得到了进一步的发展。但是目前, Web信息的提取技术中仍然存在检索方式不科学, 索引方法不合理, 结果显示单一, 个性化能力差等一系列问题, 有待于相关人员的进一步研究。另外, Web信息提取技术还具有很强的实用性, 是其他应用系统构建的基础。它不仅仅是web数据挖掘的重要组成部分, 还是信息集成首先要解决的关键技术之一, 另外, 一些新颖的实际应用如, 网上比较购物系统、构建企业竞争情报系统等, 也离不开web信息抽取技术的支持。因此, 加大web信息提取技术的研究力度, 技术是符合信息技术发展趋势的。

2 web信息提取技术的分类及其优缺点

Web信息提取的任务就是将网页中用户感兴趣的信息准确的提取出来, 以更具有语义、更结构化的形式保存下来。其主要信息提取技术和包括以下六个方面;

2.1 基于正则表达式的信息提取

正则表达式是用某种模式去匹配一类字符串的一个公式。在采用该web信息提取技术时, 首先, 应当把web文档看作为一个字符流的文件来处理, 并制定出合理的正则表达式去匹配待提取的信, 最后再提取想要的信息。通过利用正则表达式, 能够很容易的依据新闻网页的相关特征, 获取其标题和内容等相关信息, 进而, 在得到纯文本的文件后, 便可以利用分类聚类算法, 从而扩大了传统技术的适用范围, 使其能够对网页进行分类聚类。总体而言, 较高的准确性是使用该信息提取技术的最大优点之一, 同时, 它还起到了排除网页噪音, 大大节约了存储空间的作用。其缺点是对于未知特征的信息无法编写正则表达式, 使得对其信息的提取表现出了一定的局限性。

2.2 基于本体的信息抽取

本体原属于哲学上的一个概念, 在计算机科学中, 本体是一种共享的概念化模型的明确的形式化规范说明。概念化是指对世界中的一些现象标识相关概念, 明确是指概念的类型和这些概念使用上的约束都有了明确的定义, 形式化是指本体是可以被机器可读的, 共享则是指本体反应的是共同认识的知识, 是相关领域中公认的概念集。

2.3 基于自然语言处理的信息提取

这类信息抽取主要适用于源文档中包含大量文本的情况 (特别针对于合乎文法的文本) , 在一定程度上借鉴了自然语言处理技术, 利用子句结构、短语和子句间的关系建立基于语法和语义的抽取规则实现信息抽取。目前采用这种原理的典型的系统有RAPIER, SRV, WNISK。利用该中信息提取技术的缺点也较为明显, 其主要表现在以下两个个方面。其一, web网页中有很多的超链接, 还有很多文本是被各种HTML标记所修饰的, 并不是其完整的句子, 使得该技术的应用受到了一定的局限性。其二, 提取的实现没有利用web文档独特于普通文本的层次特征, 提取规则表达能力有限, 缺乏健壮性。

2.4 基于HTML结构的信息提取

该类信息提取的特点是, 根据web页面的结构定位信息。在信息抽取之前通过解析器将web文档解析器成语法树的操作实现信息提取。该系统自动的根据结构模式进行信息提取, 实现了了全自动的信息提取, 是web信息提取领域一个很出名的系统。但其也存在着一定问的题。一是结构模型确定的数据也提取出了大量客户不需要的信息;二是该提取系统需要经过大量的样本训练, 并且在样本选择上, 也能对生成的结构模式产生影响。。

2.5 基于web查询的信息提取

Web查询的思想是把万维网看成是一个巨大的数据库, 将Web信息抽取转化为使用标准的Web查询语言对Web文档的查询, 具有通用性。采用该类技术的典型的系统有:Web-OQL以及自主开发的原型系统PQAgent.而目前, 该系统技术还处于理论探讨阶段。

3 结语

综上所述, web信息提取是网络信息挖掘和信息检索的一个非常重要的前处理步骤, 在实际的工程项目和信息获取中存在着明确的需求。但当前, 由于web页面自身所具有的复杂性与特殊性, 没有那一项信息抽取工具, 能实现所有的web信息抽取任务, 各种技术都有各自的优势和不足。因此, 研究人员只有进一步加大学习和研究力度, 进一步提高信息提取的准确性, 并提高web信息提取技术的自动化程度, 才能尽最大可能的方便用户的使用。

参考文献

[1]毛楚祥, 郑益.混合数据管理引擎[J].情报资料工作, 2012 (01) .

[2]郭银蕊, 陈荣.基于遗传算法的Web信息抽取[J].模额式识别与人工智能, 2013 (01)

[3]张海粟, 马大明, 邓智龙.基于维基百科的语义知识库及其构建方法研究[J].计算机应用研究, 2012 (01) .

[4]Hans Jochen Scholl, 李重照, 郑拓, 高臻.移动政务野外作业的决策支持与信息管理[J].电子政务, 2011 (03) .

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:66553826@qq.com

上一篇:信息自动提取 下一篇:蒽醌及其衍生物的提取及应用