矢量数据(精选十篇)
矢量数据 篇1
地理信息系统的一个重要部分就是数据。在GIS工程里, 空间数据的获取占有很重要的地位。实际上, 整个地理信息系统都是围绕空间数据的采集、加工、存储、分析和表现来展开的。为了充分利用已有的数据, 降低成本, 实现信息资源的共享, 在GIS工程实施过程中, 经常需要利用不同来源的各种空间数据。
由于GIS软件的多样性, 每种软件都有自己特定的数据模型, 造成数据存储格式和结构的不同。从数据结构上来说, 矢量和栅格是地理信息系统中两种主要的空间数据结构。在数据的使用过程中, 由于数据来源、结构和格式的不同, 需要采用一定的技术方法, 才能将他们合并在一起使用, 这就产生了数据的融合问题。数字制图是GIS的重要组成部分, 也是GIS的主要表现和输出形式。本文讲的空间数据的融合涉及GIS和数字制图, 但侧重于在数字制图中, 将同一地区相同坐标系统, 相同比例尺的多种不同来源或不同格式的空间数据根据需要合并成一种新的空间数据。从需求分析上讲, 需要进行数据融合的情况一般为对数据信息进行更改、更新、增加或者为了某种特定的需要。随着因特网的发展和GIS应用的日益广泛, 多源数据的融合已成为迫切需要解决的问题。
2 栅格、矢量数据结构的概念
基于栅格模型的数据结构简称为栅格数据结构, 是指将空间分割成有规则的网格, 在各个网格上给出相应的属性值来表示地理实体的一种数据组织形式;而矢量数据结构是基于矢量模型, 利用欧几里得 (EUCLID) 几何学中的点、线、面及其组合体来表示地理实体的空间分布。对于空间数据而言, 栅格数据包括各种遥感数据、航测数据、航空雷达数据、各种摄影的图像数据, 以及通过网格化的地图图像数据。如, 地质图、地形图和其他专业图像数据。从类型上看, 又分为:二值图、灰度图、256色索引和分类图 (单字节图) 、64K的高彩图 (索引图、分类图和整数专业数据) (双字节图) 、RGB真彩色图 (3字节图) 、RGBP透明真彩色叠加图等等。常用的数据格式的有TIFF、JPEG、BMP、PCX、GIF等。而矢量数据就更多, 几乎所有的GIS软件都有自己特定格式的矢量数据。目前, 最常用的矢量数据格式有Arc/info的Coverage、e00, 方正智绘的mrg, Mapinfo的mif, AutoDesk的dxf、dwg, Intergraph的dgn等等。在GIS和数字制图中, 同种数据结构本身以及两种数据结构之间的融合构成了空间数据融合问题的主要内容。
3 栅格数据之间的融合
在数字制图中和GIS工程中, 经常用到不同来源、不同精度、不同内容的栅格图像数据进行复合而生成新的栅格图像。目前, 使用的各种多源图像处理与分析系统为栅格型地理信息系统的实现开辟一条新的途径, 可实现栅格数据的各种融合。而在数字制图中, 多源栅格图像数据之间的融合已经非常普遍。
3.1 融合方法
在数字制图中, 图像融合涉及色彩、光学等领域, 在专业的图像处理软件 (如, ERDAS、PCI、PHOTOMAPPER) 或一般的图像处理软件 (如, PHOTOSHOP) 都可进行, 主要是通过图像处理的方式透明地叠加显示各个图层的栅格图。一般要经过图像配准、图像调整、图像复合等环节。具体过程如下:
(1) 图像配准。各种图像由于各种不同原因会产生几何失真, 为了使两幅或多幅图像所对应的地物吻合, 分辨率一致, 在融合之前, 需要对图像数据进行几何精度纠正和配准, 这是图像数据融合的前提。
(2) 图像调整。为了增强融合后的图像效果和某种特定内容的需要, 进行一些必要的处理, 如, 为改善图像清晰度而做的对比度、亮度的改变, 为了突出图像中的边缘或某些特定部分而做的边缘增强 (锐化) 或反差增强, 改变图像某部分的颜色而进行的色彩变化等。
(3) 图像复合。对于两幅或多幅普通栅格图像数据的叠加, 需要对上层图像做透明处理, 才能显示各个图层的图像, 透明度就具体情况而定。在遥感图像的处理中, 由于其图像的特殊性, 他们之间的复合方式相对复杂而且多样化, 其中效果最明显、应用最多的是进行彩色合成。
4 矢量数据之间的融合
矢量数据是GIS和数字制图中最重要的数据源。目前, 很多GIS软件都有自己的数据格式, 每种软件都有自己特定的数据模型, 而正是这些软件的多样性, 导致矢量数据存储格式和结构的不同。要进行各系统的数据共享, 必须对多源数据进行融合。矢量数据之间的融合是应用最广泛的空间数据融合形式, 也是空间数据融合研究的重点。目前, 对矢量数据的融合方法有多种, 其中最主要的、应用最广泛的方法是先进行数据格式的转换即空间数据模型的融合, 然后是几何位置纠正, 最后是重新对地图数据各要素进行的重新分类组合、统一定义。
4.1 数据模型的融合
由于各种数据格式各有自己的数据模型, 格式转换就是把其他格式的数据经过专门的数据转换程序进行转换, 变成本系统的数据格式, 这是当前GIS软件系统共享数据的主要办法。如, Arc/Info和MapInfo之间的融合, 需要经过格式转换, 统一到其中的一种空间数据模型。该方法一般要通过交换格式进行。许多GIS软件为了实现与其他软件交换数据, 制订了明码的交换格式, 如, Arc/Info的E00格式、ArcView的Shape格式、MapInfo的Mif格式等。通过交换格式可以实现不同软件之间的数据转换。在这种模式下, 其他数据格式经专门的数据转换程序进行格式转换后, 复制到当前系统中的数据中。目前得到公认的几种重要的比较常用的空间数据格式有:ESRI公司的Arc/Info Coverage、ArcShape Files、E00格式;AutoDesk的DXF格式和DWG格式;MapInfo的MIF格式;Intergraph的dgn格式等等。
4.2 几何位置纠正
对于相同坐标系统和比例尺的数据而言, 由于技术、人为或者经频繁的数据转换甚至是由于不同软件的因素, 数据的精度会有差别。在融合过程中, 需要进行几何位置的统一。如, 对精度要求不高, 为了提高工作效率, 在允许范围内, 应该以当前系统的数据精度为准, 对另一种或几种数据的几何位置进行纠正。如, 为了获得较高的精度, 应以精度高的数据为准, 对精度低的数据进行纠正。
4.3 地图数据要素重新统一定义
融合后的空间矢量数据, 应重新对要素分层、编码、符号系统、要素取舍等问题进行综合整理, 统一定义。
(1) 统一分类分层、编码。
对于空间数据, 一般都按地图要素进行分层, 如水系、交通、地形地貌、注记等, 而每层又可根据需要分为点、线、面三类, 并采用编码的方式来表述其属性。对融合到当前系统的数据, 应根据地图要素或具体需要, 以当前数据为标准或重新制定统一的要素层和要素编码。
(2) 统一符号系统。
这是目前矢量数据转换的一个难点, 由于各GIS软件对符号的定义不同, 在符号的生成机制上可能差别很大, 经转换后的数据在符号的统一上有一定难度, 而且在符号的准确性上可能与原数据有差距。
(3) 数据的综合取舍。
同一区域不同格式的空间矢量数据, 要涉及到相同要素的重复表示问题, 应综合取舍。一般有以下原则:详细的取代简略的, 精度高的取代精度低的, 新的取代旧的等等, 但有时为了突出某种专题要素, 或为了适应某种需要, 应视具体情况综合取舍。
数据转换模式的弊病是显而易见的, 由于缺乏对空间对象统一的描述方法, 转换后很难完全准确地表达原数据的信息, 经常性地造成一些信息丢失, 如, Arc/Info数据的拓扑关系, 经过格式转换后可能已经不复存在了。
5 矢量数据和栅格数据的融合
空间数据的栅格结构和矢量结构是模拟地理信息的截然不同的两种方法。过去人们普遍认为这两种结构互不相容。原因是栅格数据结构需要大量的计算机内存来存储和处理, 才能达到或接近与矢量数据结构相同的空间分辨率, 而矢量结构在某些特定形式的处理中, 很多技术问题又很难解决。栅格数据结构对于空间分析很容易, 但输出的地图精确度稍差;相反矢量数据结构数据量小, 且能够输出精美的地图, 但空间分析相当困难等等。目前两种格式数据的融合已变得可能而且在广泛应用。在GIS工程中, 很多的GIS系统已经集成化, 能够对矢量和栅格结构的空间数据进行统一管理。而在数字制图中, 两种数据结构的融合也在广泛应用。
5.1 栅格图象与线划矢量图融合
这是两种结构数据简单的叠加, 是GIS里数据融合的最低层次。如, 遥感栅格影像与线划矢量图叠加, 遥感栅格影像或航空数字正射影像作为复合图的底层。线划矢量图可全部叠加, 也可根据需要部分叠加, 如, 水系边线、交通主干线、行政界线、注记要素等等。这种融合涉及到两个问题, 一是如何在内存中同时显示栅格影像和矢量数据, 并且要能够同比例尺缩放和漫游;二是几何定位纠正, 使栅格影像上和线划矢量图中的同名点线相互套合。如果线划矢量图的数据是从该栅格影像上采集得到, 相互之间的套合不成问题;如果线划矢量图数据由其他来源数字化得到, 栅格影像和矢量线划就难以完全重合。这种地图具有一定的数学基础, 有丰富的光谱信息和几何信息, 又有行政界线和其他属性信息, 可视化效果很好。如, 目前的核心要素DLG与DOM套合的复合图已逐渐成为一种主流的数字地图。
5.2 遥感图像与DEM的融合
这是目前生产数字正射影像地图DOM常用的一种方法。在JX4A、VIRTUOZO等数字摄影测量系统中, 利用已有的或经影像定向建模获取的DEM, 对遥感图像进行几何纠正和配准。因为, DEM代表精确的地形信息, 用它来对遥感、航空影像进行各种精度纠正, 可以消除遥感图像因地形起伏造成图像的像元位移, 提高遥感图像的定位精度;DEM还可以参与遥感图像的分类, 在分类过程中, 要收集与分析地面参考信息和有关数据, 为了提高分类精度, 同样需要用DEM对数字图像进行辐射校正和几何纠正。
6 结语
GIS是上世纪60年代才发展起来的一门新技术, 由于发展水平较低, 很多技术都不太成熟, 如, 建设成本过高、实用性不强、理论研究滞后等。特别是建设成本高居不下, 严重影响GIS的发展前景。由于GIS处理的数据对象是空间对象, 有很强的时空特性, 周期短、变化快, 具有动态性;而获取数据的手段也复杂多样, 这就形成多种格式的原始数据, 再加上GIS应用系统很长一段时间处于以具体项目为中心孤立发展状态中, 很多GIS软件都有自己的数据格式, 造成GIS在基础图形数据的共享与标准化方面严重滞后, 这是制约GIS发展的一个主要瓶颈。以目前的发展水平, 各种空间数据的融合是GIS降低建设成本最重要的一种办法, 但其中很多的技术问题还需要解决, 还需要进一步深入研究。
摘要:地理信息系统的迅速发展和广泛应用导致了空间多源数据的产生, 给数据的集成和信息共享带来不便。多数据格式是多源空间数据融合的主要原因, 本文对矢量、栅格两种地理信息系统中的主要空间数据结构的融合问题进行初步探讨, 并展望了多源数据融合的发展方向。
关键词:空间数据,栅格结构,矢量结构,数据融合,展望
参考文献
[1]黄杏元, 马劲松, 汤勤.地理信息系统概论[M].高等教育出版社, 2001, 12.
[2]邬伦, 张晶, 赵伟.地理信息系统[M].电子工业出版社, 2002, 5.
[3]陆守一, 唐小明, 王国胜.地理信息系统实用教程 (第2版) [M].中国林业出版社, 2000, 1.
矢量数据 篇2
本文首先从ArcGIS的空间数据模型(GeoDatabase)入手,在ArcGIS的版本管理方案基础上提出基于工作流的分层存储的`数据管理方案,以实例介绍这一方案的基本情况.
作 者:邱文 崔蓓 袁森林 Qiu Wen Cui Bei Yuan Senlin 作者单位:邱文,Qiu Wen(武大吉奥信息工程技术有限公司,湖北,武汉,430223)崔蓓,Cui Bei(南京市规划编制研究中心,江苏,南京,210029)
矢量数据 篇3
关键词:地理国情; 地表覆盖; 数据质量
地理国情是指地表自然和人文地理要素的空间分布、特征及其相互关系,是基本国情的重要组成部分。地理国情普查是获取国情国力信息的重要手段,是掌握自然资源、生态环境以及人类活动基本情况的综合性、基础性工作。通过该项目的实施,可以全面查清我国自然和人文地理要素的现状和空间分布,为开展常态化地理国情监测奠定基础,为政府、企业提供决策依据,为公众提供地理信息服务。项目成果数据质量的好坏,决定着成果应用的成败。成果质量检查是一项非常重要的质量控制措施,通过成果质量检查发现错误进行修改完善,从而最终得到满足质量要求的成果。各级质量检查部门严把成果质量检查关对保证地理国情矢量数据的质量意义重大。
1地理国情普查矢量数据概述
1.1地表覆盖分类数据成果
按地表覆盖分类要求采集的反映地表自然与人文地理要素基本情况的空间数据成果。
1.2地理国情要素数据成果
以地理实体形式采集的道路、水域、构筑物以及地理单元四类地理要素数据成果。
1.3地理单元
按一定尺度和性质将地理要素组合在一起而形成的空间单位。普查的地理单元包括行政区划单元、社会经济区域单元、自然地理单元以及城镇综合功能单元。
1.4分类体系与数据分层
按照地表覆盖分类方式采集的内容包括其中的10个一级类,46个二级类和77个三级类;按照实体要素方式采集的地理国情要素内容包括其中的5个一级类,16个二级类和53个三级类。地表覆盖分类数据存储在LCA层中,地理国情要素数据根据要素类型存储在其他36个矢量图层中,矢量数据共37个图层,形成地理国情普查矢量数据库成果。
2成果质量元素
成果质量元素是成果满足规定要求和使用目的的基本特性,说明质量的定量、定性组成部分。地理国情矢量数据有空间参考系、时间精度、逻辑一致性、采集精度、分类精度、位置精度、属性精度、完整性、表征质量八个质量元素。
2.1空间参考系
空间参考系包括大地基准、高程基准、地图投影参数三个方面。
2.2时间精度
时间精度包括原始资料如影像数据、行业资料等数据源的现势性及成果数据的现势性。
2.3逻辑一致性
逻辑一致性包括概念一致性、格式一致性、拓扑一致性三个方面。概念一致性指的是数据集层的定义是否符合要求,层的属性项如名称、类型、长度、顺序数等定义符合要求。拓扑一致性指地表覆盖数据面缝隙、面重叠、面连续错误(面连续错误指属性一致、位置相邻图斑不连续),地理国情要素是否重合、重复、悬挂,伪节点、相交处是否打断等,以及国情要素与地表覆盖、国情要素内部要素之间的空间、属性逻辑关系等。
2.4采集精度
数据采集平面精度,即地表覆盖数据采集的地物界线和位置与影像上地物的边界和位置的对应程度。采集精度分为几何位移精度(即图斑边界与正射影像套合超限)、矢量接边(图斑几何位置接边超限)精度。
2.5分类精度
分类精度分为属性精度和完整性两项。其中属性精度也即分类正确性,指地表覆盖数据与正射影像、外调资料等比对检查图斑分类错误;完整性,指地表覆盖数据是否按要求分到子类,分类码是否为空,填写是否规范,接边错误、遗漏、多余图斑等图斑分类错误。
2.6位置精度
位置精度指国情要素与正射影像数据成果套合位置是否超限以及国情要素数据与地表覆盖数据套合合理性。
2.7属性精度
属性精度指国情要素分类正确性,即要素实体与正射影像、外调资料、基础地理信息数据、行业专题资料等比对检查分类正确性以及属性值填写正确性。
2.8完整性
完整性指国情要素是否存在多余或遗漏。
2.9表征质量
表征质量是图形几何表达方面的质量,指地表覆盖小的不合理面、面边界不合理,国情要素极短的不合理线、折刺、回头线、粘连、自相交等。
3质量检查方式与方法
地理国情矢量数据质量检查采用计算机自动检查和人工检查相结合的方法进行。计算机自动检查的内容主要有空间参考系、逻辑一致性、表征质量,人工检查的内容有采集精度、分类精度及其他需要人工核对的内容。数据质量检查分总体概查、采集精度与检查、分类精度检查、人工核对检查四个主要环节。
3.1总体概查
总体概查以辖区成果为单位运用质量检查软件对地表覆盖数据和国情要素数据进行自动检查,包括空间参考系、概念一致性、格式一致性、空间拓扑关系等。
3.2采集精度与位置精度检查
采集精度主要检查地表覆盖数据图斑边界与正射影像套合是否超限。影像上分界明显的地表覆盖分类界线和地理国情要素的边界以及定位点的采集精度应控制在5个像素以内。特殊情况,如高层建筑物遮挡、阴影等,采集精度原则上应控制在10个像素以内。如果采用影像的分辨率差于1米,原则上对应的采集精度应控制在实地5米以内,特殊情况应控制在实地10米以内。重点检查独立房屋建筑、道路、水面。对于国情要素的位置精度,应重点检查库塘、水渠、河流等水域的最高水位线采集是否合理,道路中心线、河流结构线采集是否正确,行政村、单位院落位置点采集合理性。
3.3分类精度检查
分类精度检查分为分类属性精度检查和分类完整性检查。分类属性精度,对于没有明显分界线的过渡地带内覆盖分类应至少保证上一级类型的准确性。分类精度的常见错误有要素漏采、要素混分、要素综合过大。容易漏采集的情况有大片水田中的坑塘、独立房屋建筑,房前屋后的旱地,林地中的草地,达到采集标准的农村道路,此外图幅接边处要素容易漏采集。由于概念理解差错、判别条件复杂或可识别程度影响等各种原因,地表覆盖中的一些类型容易混分。如旱地易与其他类型草地、园地、林地、温室大棚、水田、泥土地表混分,露天堆放场易与露天采掘场、堆放物、其他人工堆掘地混分,泥土地表易与碾压踩踏地表、硬化地表等混分。由于采集指標、归并尺度把握不当,容易造成某些地表覆盖类型综合过大。容易综合过大的要素类型有房屋建筑区。房屋建筑区内部实地连片大于1600平米或房屋建筑区毗邻的外围实地连片面积达到400平米的林地、草地,容易由于归并指标的掌握尺度不当,被归并到房屋建筑区中;由于影像可识别程度原因,房屋建筑区中容易将低矮房屋建筑区、多层以上房屋建筑区、高层独立房屋建筑综合到一起。此外,还要检查单位成果(图幅)、辖区对采集指标的把握是否一致,如影像纹理表现一致,分类属性不一致,且又没有进行外业核查的图斑。
3.4人工核对检查
地表覆盖、国情要素质量检查除了计算机自动检查外,还需人机交互进行属性精度、完整性核对检查。首先应对软件检查出来的错误进行人工排查,如国情要素的道路没有落到地表覆盖对应道路面内,图层LCA中的要素超出与其相交的最高水界范围,微小面是否位于图幅接边处,以及由于图幅裁切引起的错误。
地表覆盖和地理国情要素两套数据,同一个要素表达是否一致,如堤坝、尾矿堆放物、道路、达到采集指标的水渠与河流、库塘等是否在两套数据中同时采集,道路、水系在两套数据中分类、属性是否一致等。国情要素中县级及县级以上等级公路、桥梁、隧道,五级及五级以上的河流及相通的湖泊、水库与基础地理信息数据中的要素比对检查,查看其走向、分布是否一致,属性内容填写是否正确。
4 结束语
地理国情普查工作是一项技术要求高、质量要求高、综合性的系统工程。各项目任务承担单位应严格按照技术规定进行生产,认真落实过程检查和单位质检机构的最终检查工作。质检人员要严格执行普查标准和规定,严把质量关,确保普查成果质量。
参考文献
[1]国家测绘地理信息局.地理国情普查内容与指标[G].北京:国家测绘地理信息局,2013.
[2]国家测绘地理信息局.地理国情普查数据规定与采集要求[G].北京:国家测绘地理信息局,2013.
矢量数据 篇4
关键词:燃气管网,GIS,风险数据库,空间数据标准
引言
目前, 我国还没有专门针对城市燃气管网矢量空间数据制定的数据标准。数据是系统的灵魂, 标准是数据的灵魂。数据质量决定系统的功能和有效性, 无效的系统甚至不如没有系统。近年来, 我国燃气系统事故频发, 损失惨重。水火不留情, 人命关天。为保障城市燃气系统安全高效运行, 通过充分利用信息技术发展成果, 提高燃气系统管理的现代化水平, 是当前城市燃气管网系统管理部门和企业的重要任务。
地理信息系统 (GIS——Geographic Information System) 技术发展成熟, 成为城市燃气管网风险管理系统建设的首选。为保证城市燃气管网风险数据库系统建设有效进行, 保证空间数据满足系统各项功能和性能上的需要, 并充分考虑未来新技术发展对系统可能产生扩充、升级的需要, 制定科学、先进的矢量空间数据标准及其体系至关重要。
一、矢量空间数据
(1) 信息要素。城市燃气管网空间数据涵盖城市燃气管线、场站、各种阀门、仪表及相关附属设施、固定设备等信息要素。
GIS由空间地理信息及信息应用和管理功能构成, 其数据是图形信息与相关文字、数字等属性信息的无缝集成。其空间分析功能远超电子地图, 信息管理功能也远超纯粹的管理信息系统。在图形表达上, 地理实体按照一定的比例尺被抽象为点、线、面几何图形或其组合。属性数据是对图形数据所表达的地理实体的文字和数字说明。
(2) 图形。城市燃气管网矢量空间数据的图形, 是燃气管网空间信息的直观的、形象化的空间位置和关系的几何表现。一般情况下, 城市燃气管网矢量空间数据比例尺越大, 抽象度越低, 信息表达越具体。由于GIS在计算机上运行, 图形数据与传统纸质地图在功能上会产生巨大差异。传统纸质地图一旦比例尺确定, 对地理实体表达就产生了限制。但对于GIS来说, 地图图形可以进行无级缩放, 可以对地物进行分层抽象。因为, 一些地理实体, 在小比例尺上以点要素表达的信息, 在大比例尺下, 可能被分解, 通过一组要素来进行表达。在功能上, 图形信息是空间计算 (距离、长度、高度、面积、体积、空间统计等) 和空间分析、拓扑分析的基础。
(3) 属性。城市燃气管网空间数据的属性, 以数据表来存储, 是燃气管网空间信息要素本质内涵的组成部分。属性是对空间信息要素不能通过图形的位置、尺寸、面积等表达和计算的信息的文字和数字说明。在GIS中, 属性表现为数据表。一般情况下, 为了适应应用开发的灵活性, 地理空间信息要素的属性内容, 限制在最基本的永久不变部分, 即除非实体更新, 属性不会变化。而对那些易变的不同应用所需的不同信息, 则通过关系表链接到系统中, 以扩展更多的应用功能。
二、标准体系内容
城市燃气管网矢量空间数据标准体系主要内容可以概括为:分类编码标准、数据字典标准、图式符号标准, 以及数据采集处理规程等。
(1) 分类编码。城市燃气管网矢量空间信息的分类编码是系统数据标准化的核心。分类编码可以再细分为分类体系和编码体系。分类体系会对数据应用的功能产生巨大影响;编码体系会对数据管理和数据应用的性能产生巨大影响。当需要系统对某种事件发生产生即时反应时, 对信息要素编码体系的科学性要求更显得突出。从某种意义上说, 没有对失量空间数据进行信息要素编码, 相应的数据是有巨大缺陷的。应用系统开发或数据开发需要有非功能设计的内容, 以保证系统应用的非功能需求。
为此, 需要城市燃气管网空间数据的信息要素按现实实体的功能和作用进行分类, 用6 位数字进行编码是合适的。6 位数字码分为四级, 前两级为大类和中类, 分别以单个数字表示, 为闭空间, 既不能扩充, 也不能修改;后四位为小类和子类, 以两两为一组, 为开空间, 可以扩充, 但不能够更改。最大扩展空间为最大两位数。编码空间足以保证城市燃气管网矢量空间信息要素的扩展需要。这与一般的国际国内地理信息要素编码体系一致。
(2) 数据字典。数据字典是对空间数据信息要素属性表的数据结构和几何表示形式及几何关系的定义。属性表数据结构, 通过关系数据库的字段进行定义。同时规定字段名称、类型和长度。
几何表示形式通过在信息要素码后加一位数字图形码进行规定。图形码按一般地理信息要素编码规则, 因受GIS软件要素表达机制约束, 分为点、线、面、有向点、有向线。
(3) 符号图式。GIS中, 图示符号是地图制图的需要。无方向的点状符号用以表示对方向不敏感的、被抽象为点要素的空间信息;线状符号用以表示线状地物, 可以通过颜色、宽度、虚实相间、双向对称的锯齿来细分要素类别;面状符号是封闭多边形, 可以在面的内部统一部署 ( 填充) 制图符号;有向点用以表示对方向敏感的、被抽象为点要素的空间信息;有向线用以表示对方向敏感的、被抽象为线要素的空间信息。为了直观形象地表达地物信息, 有些地图符号需要制作成有方向要求的形式。
城市燃气管网矢量空间数据标准的制图符号, 在系统中需要统一形式、样式、尺寸, 以及颜色值。符号应尽可能制作美观、形象, 符合视觉规律和思维习惯。
(4) 数据采集处理规程。城市燃气管网矢量空间数据来源, 主要有4 个方向:从老系统中导出, 竣工图数据, 纸质图纸扫描数字化, 实地探测测绘。不同的数据来源, 需要不同的作业方法、作业流程。从内容上讲, 主要有数据采集和处理的作业流程规范、精度要求、质量控制、成果验收和提交程序。
数据采集处理规程, 主要是围绕信息要素分类代码、数据字典标准和数据精度以及数据关系的要求, 对作业程序和方法、质量控制程序和方法进行规定, 并在数据采集处理过程中, 通过严格执行这些程序, 保障数据质量。
质量元素是质量控制和质量测定的抓手。质量元素包括:①空间参考系与数据格式:最终成果为规定的平面坐标系、投影和高程基准;②完整性:数据经过严密接边, 数据完整, 没有遗漏数据要素和内容;③逻辑一致性:数据真实, 空间拓扑关系无误, 要素代码无误;④位置精度:平面坐标值、高程值接近真值的程度 ( 以误差衡量) ;⑤属性精度:属性数据采集和填写无误, 要素分类正确, 对于“有条件必填”项属性, 须如实填写;⑥表征质量:图面“点”、“线”、“面”绘制完整, 线性要素没有多余顶点, 连续的实体表示上不能间断, 没有悬挂点, 共点共线表示正确, 没有“垃圾要素”等;⑦时间准确度:如实填写数据采集时间;⑧附件质量:提交成果内容完整, 装帧整洁;元数据填写完整、正确, 说明清楚;数据文件文件夹层次清晰, 有文件目录。
(5) 相关标准参照。城市燃气管网矢量空间数据, 需要相应的探测和测绘手段来采集和处理。数据标准是对结果的要求, 数据采集处理规程是对过程的要求。
城市燃气管网矢量空间数据的空间参考系、数据格式、位置精度要求一旦确定, 为使成果实现数据标准的要求, 需要引用许多外围标准。
①控制加密和管线系统要素的探测及测量, 需要参考或参照《城市地下管线探测技术规程 (CJJ61-2003) 》、《工程测量规范 (GB50026-2007) 》、《全球定位系统 (GPS) 测量规范 (GB/T 18314-2009) 》;
②当需要补充大比例尺带状地形图时, 需要参考或参照《城市测量规范 (CJJ/T 8-2011) 》和《基础地理信息要素分类与代码 (GB/T 13923-2006) 、《基础地理信息要素数据字典 (GB/T 20258.1-2007) 》、《国家基本比例尺地图图式 (GB/T20257.1-2007 ) 》;
③项目实施过程的质量检查和验收参照《数字测绘成果质量检查与验收 (GB/T 18316-2008) 》、《地理信息质量原则 (GB/T 21337-2008) 》、《地理信息质量评价过程 (GB/T21336-2008) 》, 以及有关项目管理 ( 项目发包、施工监理等) 规范等。
三、燃气管网标准化数据应用展望
矢量数据 篇5
本文根据铜陵市基础地理信息系统成功建设经验.介绍了大比例尺矢量地形图数据生产与入库的技术方案,主要包括制定生产与建库标准、属性信息录入、数据质量检查与处理、数据监理与入库等.
作 者:操瑞红 作者单位:安徽省地勘局321地质队,安徽铜陵,244000 刊 名:江西测绘 英文刊名:JIANGXI CEHUI 年,卷(期): “”(3) 分类号: 关键词:矢量地形图 AutoCAD GIS 数据入库
矢量数据 篇6
图形是一种比较自然的信息表达方式, 图形对象可以理解为一幅具体画面中的一个部件或实际存在的基本图形元素。图形对象的类结构可用下列集合表达式表达:总类一{文本类, 图形类}。
图形类一{基本图形类, 组合图形类, 复杂图形类, 图元类基本图形类一{点, 直线, 矩形, 圆, …};
组合图形类一{子图类, 合图类};
图元类={普通图元类, 广义图元类, 属性类};
普通图元类一{立体图元类, 平面图元类};
属性类={色彩, 线型, 填充方式, …}。
图形对象是本系统数据结构中最基本的对象, 是使用面向对象方法设计图形编辑系统的基础, 它可以用一个五元组表示为:GN
2 图元模型
图元在SVG中的表示必须既包含几何形状的信息, 又要包含实际的应用属性信息。根据这些要求, 图元可以用BNF描述表示如下[]:<图元) ::=<几何形状定义) [<应用属性定义) <交互事件定义>];
<几何形状定义>::=<几何信息>[<风格样式><动画效果>];
<几何信息>::一<基本图形>[{<基本图形>}];
<基本图形>::=<图形类型><坐标位置>[<坐标单位>];
<应用属性定义>::一<应用属性>[{<应用属性>}];
<应用属性>::={
<交互事件定义>::=<交互事件>[{<交互事件>}];
<交互事件>::={<事件名>=<响应函数>}。
由此可见, 图元的SVG表示可由几何形状、应用属性和交互事件组成。图元的几何形状可以表示为图元所包含的基本图形的组合。
3 SVG文档的解析模型
由于SVG文档是一个基于XML的文本文件, 在对SVG文档进行加载和保存时必须借助XML语法解析器。根据对文档的不同处理方式, XML解析器可分为基于DOM的解析和基于SAX的解析。本系统采用DOM接口对SVG文档进行解析。
D0M是一种树状模型。利用DOM接口对SVG文档进行分析之后, 其中的信息都会被转化成一棵对象节点树。在这颗节点树中, 有一个根结点即Document节点, 所有其他节点都是根结点的后代节点。节点树生成后, 就可以通过E0M接口访问、修改、添加或删除树中的节点和内容。我们以下面的Test.svg文件为例, 其文档可用图1所示的D0M树表示。
< xmlversion=“1.1”standalone~“no”?>
http:}}.w3.org/TR/2003/CR—SVG一20030114DTD/svg一20030114.dtd”>
在这棵D0M树中, SVG文档的所有内容都用节点表示。一个节点又可以包含其他节点, 节点本身也可以包含些属性信息, 如节点名、节点值、节点类型等。
本文所述的矢量图形编辑系统提供了一个对SVG文件进行可视化编辑的人机交互环境, 它可以直接读取保存在本机或服务器上的SVG文件, 经过解析以图形界面的形式显示在屏幕上, 从而可方便地进行可视化编辑, 还可以通过预先定义好的图元库来提高绘制效率。此外, 该系统编辑好的SVG图形文件可存放在数据库服务器中供Web页面直接调用显示, 大大提高了编程效率, 具有很重要的推广应用价值。
参考文献
矢量数据 篇7
因为测绘项目需求以及相应数据管理更新维护,对需要进行数据更新的范围重新进行测量空间数据采集,并对原空间数据库的相关数据进行更新处理。由于原数据(待更新数据)中矢量数据具有连续性,首先需要对该数据进行裁剪。目前矢量数据裁剪主要使用GIS软件自带工具,例如ArcGIS系列产品中具有“Clip”、“Erase”等,但在应用过程中主要存在对复杂的数据情况处理不完善、进度非正常停止、处理时需要启用整个GIS软件以及可移植性低等问题。本文采用ArcObject进行矢量数据裁剪工具二次开发,对矢量数据更新工序提供一定的帮助和完善。
1 矢量数据裁剪与ArcObject
矢量数据是在直角坐标系中,用X、Y坐标表示地图图形或地理实体的矢量数据位置和形状的数据。矢量数据一般通过记录坐标的方式来尽可能将地理实体的空间位置表现的准确无误[1]。拓扑关系是指图形元素之间相互空间上的连接、邻接关系并不考虑具体位置,是矢量数据表达和操作的关键所在。这种拓扑关系是由数字化的点、线、面数据形成的以用户的查询或应用分析要求进行图形选取、叠合、合并等操作[2]。对矢量数据进行裁剪工作,需要利用计算机对需要裁剪的矢量数据进行拓扑分析和拓扑关系处理,最终实现裁剪结果。
ArcObject作为ArcGIS可重用的通用二次开发组件集,以其强大的功能类库,对地理信息系统(GIS)的功能实现和扩展表现得十分出色。其拓扑分析功能支持多种类型矢量数据以及不同类型矢量数据之间的拓扑关系判定和处理[3]。虽然ArcGIS桌面应用(ArcMap、ArcCatalog)所包含的ArcToolbox中AnalysisTools下有已经实现的矢量裁剪工具(Erase和Clip),但是该工具遇到待处理矢量数据将会停止并报错。而利用ArcObject进行矢量数据裁剪工具的二次开发,不但能解决此类问题,而且能够对矢量数据裁剪功能进行个性化完善。
2 功能实现与问题解决
基于ArcObject二次开发实现矢量数据裁剪,需要对数据进行预处理、空间参考信息获取、拓扑关系的判断等内容,其处理流程如图1所示:
2.1 数据预处理
一般常见的矢量数据有单要素Shapefile形式存储以及要素集(FeatureClass)中的Feature形式存储。由于数据生产以及检查的遗漏问题,进入空间数据库的矢量数据也可能出现一定的错误。例如,要素的属性表(Attribute)中所在列表的要素项,实际空间大小为0,即不存在空间大小。在对该类数据使用ArcGIS桌面应用提供的Clip或者Erase工具处理时,必将产生剪切进度停止并报错,例如“ERROR:9999”等ArcGIS工具未知错误。
0值数据只是简单的存在于要素记录中,并不存在于空间实体,但具有空间大小属性,即空间大小为0。一般0值的线状类型(Polyline)和面状类型(Polygon)数据在拓扑关系判断中会出现一定的问题。由于运用组成Polyline与Polygon的结点复杂而不容易操作,因此利用0值Polyline与Polygon的几何矩形外框(Envelope)东北角以及西南角坐标均为0值(或均相等)的特点,也就是Envelope属性中XMax、XMin、YMax、YMin四个值均相等,遍历Polyline与Polygon属性表,对符合该条件的要素进行删除操作即可。
2.2 空间参考信息提取
该裁切支持任意绘画裁剪范围,以增大操作的自由度。由于待裁切数据情况复杂,为了防止新建面状裁剪范围数据(需为Polygon)出现空间参考信息赋值错误,而无法正确进行裁切工作,需要提取待裁剪数据的空间参考信息,并对裁剪范围数据进行赋值。主要步骤如下:
(1)判断该裁剪范围数据是否为面状数据。部分操作人员可能并不会仔细查看工具的使用说明而新建了线状的裁剪范围数据(Polyline),即判断FeatureClass属性中ShapeType是否为esriGeometryPolygon
(2)由于IFeatureClass并不存在可读的空间参考信息属性SpatialReference,因此需要将已经读取的IFeatureClass类型强制转换为具有可读空间参考信息的IGeoDataset类型。
(3)运用IGeometry创建的对象提取裁剪范围的几何图形信息,并将之前提取的空间参考信息赋值予该类型的空间参考信息属性SpatialReference。
2.3 拓扑关系判断
拓扑关系判断是矢量数据裁剪的核心内容。正确并充分运用拓扑信息才能对矢量数据之间的拓扑关系做出判断[4]。以下拓扑关系判断就是对待裁剪数据与裁剪范围数据进行拓扑关系的比对。
2.3.1 接口的选择
ArcObeject中与拓扑关系相关的有三个接口:ITopologicalOperator(拓扑操作接口)、IRelationalOperator(关系操作接口)、ISpatialFilter(空间关系滤镜接口)[3]。本文尝试以下两种方法:
(1)只使用ITopologicalOperator接口
ITopologicalOperator接口提供基于拓扑关系的利用现有几何图形构建新几何图形的成员方法[3]。该接口能直接对满足某种拓扑关系的多个几何图形进行拓扑操作。
(2)同时使用IRelationalOperator接口与ISpatialFilter接口
IRelationalOperator接口是将两个几何图形进行对比,之后返回一个布尔逻辑值,该值表明所要求的关系是否存在[3]。该接口仅仅表示两个几何图形的拓扑关系,而最终利用该关系处理包含(Contains)关系,再调用ISpatialFilter接口,对每个要素的属性表进行查询操作,满足查询条件之后,利用IFeature接口中的方法对数据进行操作,从而处理拓扑相交关系。
两种方法对比下发现,使用ITopologicalOperator接口虽然对拓扑关系的一体化操作十分直接,但主要使用其中的Intersect与Different方法,并且需要遍历所有要素,导致效率不是十分理想。若对矢量数据进行裁剪,需要先使用Intersect方法获得相交部分,再运用Different将原数据与相交部分不同的几何形状保存并替换原数据。此种方法对普通拓扑关系简单的数据进行操作比较理想,若数据中同一要素中存在两个或多个拓扑关系为分离的几何图形(该类数据是因为数据生产人员将拓扑关系并不为相邻的数据进行融合(Merge)所造成的),将造成拓扑关系混乱,而导致最终结果会在裁剪范围中出现许多碎小几何图形(碎小要素)。使用IRelationalOperator接口和ISpatialFilter接口则可避免该类情况的发生。实际上,IRelationalOperator接口对拓扑包含(Contains)的判断效率最高,而ISpatialFilter接口先判断是否拓扑相交,再对要素属性表进行空间查询(设置查询条件为逐个查询),从而查找出符合拓扑关系要求的数据,从而无须进行一系列的拓扑操作而直接对数据进行删除处理。
2.3.2 关系查询顺序
先进行IRelationalOperator中拓扑关系Contains查询判断,再利用ISpatialFilter进行拓扑相交查询选取对应要素。对要素的删除操作应用IFeature接口下Delete方法。ISpatialFilter设置方法(代码)大致如下(以判断相交关系为例):
2.4 3D数据处理
部分矢量数据,特别是面状数据在创建时会选择“Coordinates indude Z Value.Used to store 3D data”,即创建3D数据集。在拓扑关系处理完之后,若直接将处理完成的几何形状(Geometry)存储代替原数据,裁剪将无法进行直接报错。因此对处理完成的几何形状需要进行Z值赋值操作,主要方法(代码)如下:
2.5 裁剪结果
为了验证裁剪结果,本文选择某地区矢量数据集(Dataset)进行实际裁剪。该矢量数据集包含点(Point)、线(Polyline)、面(Polygon)、注记(annotation)等要素,如图2—图4所示:
对裁剪完成的矢量数据进行质量检查后的结果表明,原数据中包含的0值数据已经被完全清理,现数据的属性信息保留完整,且原数据中所包含的岛状数据等拓扑信息复杂的数据均实现有效裁剪。
3 结语
对于矢量数据入库更新过程中并没有十分完善的矢量数据裁剪功能的问题,本文利用ArcObject二次开发的灵活性主要解决了裁剪中会遇到复杂的数据情况处理不完善、进度非正常停止以及可移植性低等问题,为裁剪工作提供了便利。该方法可以移植至独立的二次开发系统中,对于不同的开发环境只要对代码进行转换即可使用,对GIS二次开发能发挥较好的应用移植作用。
参考文献
[1]陈述彭.地理信息系统导论[M].北京:科学出版社,1995:32-33.
[2]黄杏元,马劲松,汤勤.地理信息系统概论[M].北京:高等教育出版社,2005:33-34.
[3]ArcObject Help for VBA[Z].Arcobject帮助文档.
矢量数据 篇8
随着空间数据获取技术的进步和地理应用的广泛开展,空间数据量从TG级快速增长到PG级,传统的关系数据库在大规模数据存储方面面临着扩展性差、存取效率低等一系列问题,并且GIS系统复杂,系统中不仅有空间数据,还有属性数据,空间数据存储对其至关重要[1]。云计算环境下的非结构化数据库是一种新型的数据库技术,具有大规模扩展、高并发读写的特性,可以提供无限的数据存储能力和非常高的读写性能,将非结构化数据存储应用于GIS是解决大规模空间数据存储问题的有效手段,也引起了一些专家学者的研究。
文献[2,3]中结合Hadoop平台的分布式文件系统(HDFS),把空间数据存储在HDFS的文件中,研究了分布式文件系统(HDFS)处理大数量小文件效率低的问题,通过将空间数据的小文件整合成大文件,提高分布式文件系统(HDFS)读写大量小文件空间数据的性能;文献[4]中基于Hadoop平台研究了地理空间数据的存储方式、建立地理空间数据索引的问题,并和传统的Oracle Spatial空间数据库在属性查询方面相比较,具有较高的效率;文献[5]中基于Google的GFS分布式文件系统,研究了异构地理空间数据的组织存储问题,设计了地理数据分布式文件系统管理框架,以解决多源地理空间数据存储和查询效率低的问题;文献[6]提出一种hadoop处理小文件的方法,提高了小文件的存取效率,为进一步研究Hadoop的应用奠定了基础。但怎样使用非结构化数据库HBase直接对空间数据进行存储缺乏相关的研究,并且已有的矢量数据存储模型缺乏对拓扑关系的描述。
本文基于非结构化数据库HBase,研究矢量空间数据的存储模型,用开源软件Geo Tools对现有的Shapefile格式的矢量空间数据进行转换,以实现非结构化数据库对矢量空间数据的存储,为大规模矢量空间数据存储提供了有效的方式。
1 HBase数据库和GeoTools
1.1 HBase数据库存储机制
HBase是Aphace Hadoop的分布式、面向列存储模型的数据库[7]。它存储数据介于键值映射(key/value)和传统关系型数据之间,它可以使用本地文件系统,也可使用HDFS文件系统,但使用HDFS作为文件系统可以发挥HBase处理数据的能力,提高数据的可靠性和系统的稳健性。
HBase是一个基于列模式的、稀疏存储、排序的映射表,每一个表包含行、列和时间戳,每一个列属于特定的列族[8];由于稀疏存储,所以同一张表里的每一行数据可以有截然不同的列;时间戳标记数据库所有数据的更新,每更新一个版本都对应一个时间戳表示。表1是HBase数据的逻辑视图,表中有两个列族:c1和c2,每一条数据对应一个用数据表示的时间戳。
在物理存储上,HBase是按照列来保存的,逻辑视图上空白的列,实际不会被存储,每一个列簇都由几个文件保存,不同的列簇文件是分离存储的,区别于传统关系数据库基于表格和行模式的保存,这种特性使得HBase更适应大规模数据和互联网的应用需求。
1.2 GeoTools
由于很多商用的GIS软件收费较高,Geo Tools是由Freesoft Foundation用Java语言开发的开源GIS工具包,代码丰富,包含很多开源的GIS项目,并且基于标准的GIS接口,提供了很多GIS算法,在各种数据格式的读写方面性能良好[8,9]。Geo Tools采用JTS作为实力空间数据模型的实现,遵循OGC简单要素规范,实现OGC规范下坐标系统参考及其转换服务,提供一些标准的坐标参考系统和坐标转换功能【10】。支持多种GIS数据源的访问,具体包括:矢量文件、栅格文件、关系型数据库、OGC规范下WMS地图图片服务、OGC规范下WFS矢量要素服务等[11,12]。
2 矢量空间数据存储
矢量数据比栅格数据的组织更复杂,不仅考虑比例尺、图层,还要考虑点、线、面等要素,且数据结构复杂,存在着复杂的空间拓扑关系[13],为了利用Hadoop高效的存储矢量数据,应分析矢量空间对象模型,设计适合HBase数据库的矢量空间数据存储模型,以实现在非结构化数据库平台下有效的组织存储矢量空间数据。
2.1 矢量数据逻辑存储模型
矢量数据一般由坐标数据、属性数据、拓扑关系数据组成,基于HBase数据库的存储模型,根据矢量数据特点,设计HBase平台下矢量空间数据的存储模型。在表2中,包含三个列族:Coordinate(空间坐标信息)、Attribute(属性信息)、Topology(拓扑信息),分别记录空间数据的坐标、属性、拓扑数据信息,其中拓扑关系包括节点关联的弧段、弧段两端的节点、构成面的弧段这三种简单的拓扑关系,要判定更多复杂的拓扑关系需要大量的计算,每种数据的存储类型都为字符串,使用时按照矢量数据类型字典解析成相应的数据类型[14]。
以下基于HBase建立矢量空间数据存储表结构的部分代码,其中变量Table Name为表的名字,变量Columns为表包含的列族:
2.2 矢量数据物理存储
由于HBase是基于列模式存储数据的,虽然从逻辑视图上看由很多行组成,但根据HBase物理存储机制,表2矢量空间数据的存储表结构中Fea_ID1,在物理存储时表现为以表3、表4、表5所示。
从以上可以看出HBase在物理上是按列式模型来保存数据的,在逻辑视图上空白的列不被存储,这使得在进行数据存储方法设计和程序开发设计时要和传统关系数据库有所区别。
3 实验设计与对比分析
3.1 实验设计
利用2台电脑当作宿主机,安装VMware 8.0虚拟机,虚拟出3台计算机。一台虚拟机作为HMaster、HRegion服务、Slave Node,一台虚拟机作为Zookeeperhe、HRegion服务Slave Node,另一台作为HRegion服务和Slave Node;在HMaster虚拟机和Slave Node虚拟机上部署HDFS、HBase、MapReduce,在Zookeeper上部署Zookeeper,每台Slave Node上部署Region Server,其配置结构如图1所示。其中虚拟机:操作系统是Red Hat Enterprise 5,内存1 GB;Hadoop-1.0.4,HBase-0.94.0,JDK1.7.5-38;开发环境:Eclipse 4.3,实验数据:1∶5万矢量数据(2.03 MB)。
在图1试验环境配置结构图中,HMaster负责Slave Node的负载均衡,利用HRegion服务器调整数据块(HRegion)的分布,在Slave Node停机后,负责失效HRegion服务器上数据块的迁移;Zookeeper服务器来监控HRegion服务器和Slave Node各个服务器的健康状况,并把Slave Node的健康状况反馈给HMaster;HRegion服务器记录Slave Node存储数据的元数据,定期整理Slave Node节点上的缓存数据,并使用Region.flushcache()方法把缓存内容写到HDFS文件中,用户利用HRegion服务器获取Slave Node上相应数据;Slave Node主要负责响应用户I/O(读写)请求,向HDFS文件系统中读写数据,管理一些数据。
3.2 矢量数据导入
本文采用Geo Tools-8.4.0开源项目读取客户端导入的Shapefile数据,并进行相应的转换,使用put()方法将数据导入HBase数据库中。在Geo Tools中使用Data Store、Feature Source、Feature Collection类库读取Shapefile数据,并使用put()方法对数据进行入库操作,核心部分代码如下:
3.3 矢量空间数据查询方法
根据HBase数据库的查询机制,对存储的矢量空间数据使用get()或scan()方法进行查询。使用get()查询单条记录,通过Bytes[]获取对应列的值;为了对空间数据进行范围查询,需通过scan()方法的set StartRow()与set StopRow()来限定范围。核心操作代码如下:
3.4 实验分析与对比
在HBase客户端,使用scan()方法查询1∶5万矢量数据中的道路层数据,查询读取到道路层1377条记录(0.519 MB),用时1.33 s;使用Oracle Spatial空间数据库读取同样数据的时间是1.52 s,可以看出HBase数据库存储空间数据的效率比传统关系数据略高,但由于数据量太小,HBase在处理大规模数据时效率高,在处理小数据量数时效率不是很明显。
基于Geo Tools,在客户端设计中间件对上述数据导入、数据读取方法封装,可以使HBase数据库直接存储矢量空间数据。在中间件中融合Geo Tools中的feature、feature Builder、feature Collection、Shapefile Data Store类控件创建为Shapefile文件,对读取的数据进行展示,如图2所示。
4 结语
矢量数据 篇9
矢量数据是带有属性和拓扑关系的几何数据,它是地理信息系统中一种重要且基础数据格式。在实际应用中,矢量线数据往往是海量存储的,例如,一幅数据量比较大的1∶5万矢量等高线的弧段数量级是千万级的,由此可以推断全国2万副图的弧段数量级可以达到上千亿级。因此,在实际显示和地理目标的计算时有必要预先进行压缩。矢量数据压缩的目的是删除冗余数据,减少数据的存储量,节省存储空间,加快后继处理的速度。矢量数据的压缩往往是不可逆的,数据压缩后,数据量变小了,数据的精度降低了,因此必须在兼顾效率的情况下寻找到一种方法既能最大限度地淘汰不必要的数据结点,还要提供较为精确的表示。针对于矢量线数据,现有的算法主要有间隔点选取法[1]、垂距法[1]、偏角法[1]、道格拉斯—普克法[1]和光栅法[1]等。
1 模拟退火优化算法与粒子群优化算法的介绍与分析
模拟退火算法是Kirkpatrick等将模拟退火思想引入组合优化领域,提出一种解大规模组合优化问题,特别是NP完全组合优化问题的有效近似算法[2]。粒子群优化算法PSO是基于鸟群觅食行为提出的[5]。其优势在于简单容易实现,同时又有深刻的智能背景,既适合于科学研究,又特别适合于工程应用。因为基本粒子群优化算法主要针对连续函数进行搜索运算,而许多实际工程问题都描述为离散的组合优化问题,所以很多学者提出了离散粒子群优化算法的改进。
将模拟退火算法和粒子群算法相结合,不仅可以增强全局收敛性,而且还可以提高收敛速度和解的精度。
2 基于模拟退火的离散粒子群优化算法实现矢量线数据压缩
矢量线数据压缩是指对矢量线数据的结点进行合理地抽稀,压缩后的矢量线数据要求尽可能地保持原有数据的特征,因此矢量线数据压缩是典型的NP难问题。一方面,现有的算法大多以贪心算法的思想为指导,难以在全局范围内搜索到较优解;另一方面,一般的优化算法比如模拟退火算法,虽然可以在全局范围内搜索,但是其收敛速度较慢。针对以上问题,将模拟退火算法和粒子群算法相结合,通过粒子群中粒子间的合作,即可以在全局范围内搜索,又可以提高其收敛速度。此外,考虑到矢量线数据的存储是离散的。综合以上分析,对于矢量线数据压缩问题,本文提出了一种模拟退火的离散粒子群优化算法(SA-QD-PSO)。
2.1 离散粒子群算法
矢量线数据是以结点的形式来存储的,在选取保存结点时,可以用一个n维向量x=[x1,x2,…,xn]来表示,向量的每一位xi只可取0或1,0表示去掉,1表示保留。这里称x为结点的选取向量,一个特定的选取向量对应某个特定的矢量线数据压缩的可行方案。根据压缩方案可行解的表示形式,离散量子粒子群优化算法最为实用。
离散量子粒子群优化算法[8]QD-PSO(quantum discrete PSO)于2004年由Yang等提出。算法将量子粒子群算法中的粒子离散化,成为离散的粒子矢量。离散量子粒子群算法的粒子群表述为:
X=[X1,X2,…,XM]
Xi=[x
其中,M为粒子群的群体规模,N为粒子离散化后的位数。离散粒子每一位x
其中,rand()为分布在[0,1]范围内的随机数;0<α、β<1为速度控制参数;ω为惯性系数(惰性系数);c1为社会系数;c2为认识系数。
QD-PSO只是将解空间离散化使其具有实际意义,具体步骤还是按照基本粒子群优化算法的步骤来执行。因为在不同的应用中抽象出来的数据模型很可能是不同的,所以在实际应用中还要根据数据模型的具体特点来制定合理的速度更新公式和离散方法。
2.2 基于模拟退火的离散粒子群优化算法实现矢量线数据压缩
2.2.1 解空间
本文所研究矢量线数据压缩是在保有原排序的前提下,对采样点数据进行合理的抽稀。如图1所示,对于一组采样点数据{p1,p2,…,pn}的任意一个保有原排序的组合{p′1,p′2,…,p′m}均是问题的一个解。其中,并且默认p1=p
2.2.2 目标函数
矢量数据的压缩往往是不可逆的,数据压缩后,数据量变小了,数据的精度降低了。因此在抽稀压缩时必须尽量保证数据的精度。待优化的目标函数必须要反映抽稀后数据的精度,函数值越大表示精度越低,函数值越小表示精度越高。鉴于以上分析,可以选择矢量线数据抽稀前的折线长度与抽稀后的折线长度之差作为目标函数。
对于矢量线数据{p1,p2,…,pn},πi={p′1,p′2,…,p′m}是它的一个保有原排序的组合,di,j表示{p1,p2,…,pn}第i个点与第j个点的距离, d′i,j表示{p′1,p′2,…,p′m}第i个点与第j个点的距离。
目标函数为:
f(πi)=∑
根据两点之间直线距离要小于折线距离,抽稀后的点的折线距离会变小,如果抽取的是折线的主干,此时f(πi)很小,精度很高,如图2所示。
2.2.3 连续空间的离散化
因为矢量线数据是由结点构成的,所以抽稀后的解也是离散的。但基本粒子群优化算法主要针对连续函数进行搜索运算,因而有必要将粒子位置更新公式离散化。
对于一组结点数据A={p1,p2,…,pn}的一个解用Zn来表示,Zn是一个由0、1组成的n维向量,其中任意一个分量zi对应A中的一个分量,如果zi=0表示pi被舍去, zi=1表示pi被保留。如果目前Zn是A当前抽取L(L<n)个点的解,那么Zn的分量中应该有L个1和n-L个0,为了使其更新后还具备抽取L个点的解的特性,规定如下操作:
设定两个阈值a(a < 0),b(b > 0),Zn更新后的解为Z
(1) C=Z
(2) 对C中的分量进行遍历,对于任意一个分量ci来说:
如果ci>b并且zi=0,则将i放入集合S1,这样得到p1个元素;
如果ci<a并且zi=1,则将i放入集合S0,这样得到p0个元素。
这样可以选取改变趋势较大和有改变条件的点放入备选集合。
(3) 取p1和p0中较小者为pmin。
将S1中的pmin个整数所对应分量ci赋值为1;
将S0中的pmin个整数所对应分量ci赋值为0。
这样舍去或是保留的点成对地交换地位,不仅保证了粒子通过自我总结和向群体中优秀个体学习来更新自己的位置,而且保证了解的特性不会影响到特有的性质。
2.2.4 新解的产生
为保证在全局范围内搜索,采用一种交换保留结点与删除结点的方式产生新解。设πi={p′1,p′2,…,p′m}是矢量数据{p1,p2,…,pn}的当前解。新解产生的方式如下:
设A′={p′2,p′3,…,p′m-1},从集合A′中随机选取一个值为1元素p′i,从集合A′中随机选取一个值为0元素p′j。将p′i赋值为0,将p′j赋值为1,便得到一个新解为:
π′i={p′1,p′2,…,p′i,…,p′j,…,p′m}
2.2.5 矢量数据压缩比例的确定
对于矢量线数据压缩比例的确定,存在着一定的辩证关系,因为如果压缩比例过大会导致数据精度过低,而为了使保持数据的精度又需要降低压缩比例,因此必须两方面综合考虑。
本文采用确定压缩比例的方法是根据一组矢量线数据的三个特性来确定。
(1) 矢量线数据的折线长度。
(2) 构成矢量线数据的点数。
(3) 最小区分长度(根据特定的矢量线数据人为规定)。
如果一组矢量线数据由n(n>2)个点构成,折线长度为L,最小区分长度为d,则最后确定保留的节点数m如下面的公式:
这样设置保留点个数是为了更好地适应算法,在实际操作时要根据原始点个数和要保留的点的个数判断是否有必要进行搜索,例如:原始数据有2个点,而要保留的点也是2个,此时没有再搜索的空间;如果有必要搜索,也要保证新解是可以产生的,例如:原始数据有5个点,而要保留的点是2个,而根据要求首末两点是必须保留的,这样新解就无法产生了。而按照式(3)既可以实现合理的压缩比又可以避免这些情况的发生。
2.2.6 SA-QD-PSO算法实现矢量数据压缩的具体过程
(1) 确定粒子群的规模、算法的参数以及按照式(3)确定保留的节点数。
(2) 为每一个粒子初始化并计算每个粒子的目标函数。
(3) 按照离散粒子群式(4)更新粒子的速度和位置,找到粒子个体最优位置和粒子群全局最优位置。
(4) 按照2.2.4小节中的方法将每个粒子更新后的位置离散化。
(5) 在温度t0下每个粒子进行如下模拟退火操作:
利用2.2.3小节中介绍的方法为每一个粒子πi生成一个新解π′i,计算目标函数f(πi)和f(π′i)。
如果f(πi)<f(π′i),则接受新解π′i;
如果f(πi)<f(π′i),并且
(6) 更新粒子个体最优位置和粒子群全局最优位置。
(7) 降温使t0按照一定比例下降t0=t0×0.82,如果t0达到停止准则t0<0.00001时转到⑻,否则转到(3)。
(8) 输出结果。
3 试验结果与分析
3.1 SA-QD-PSO算法对收敛速度的加快
下面用模拟退火算法(SA)与模拟退火的离散粒子群优化算法(SA-QD-PSO)进行两次实验,进而观察粒子群优化算法与模拟退火算法结合后的收敛性,较单独模拟退火算法的改善。
两次试验的参数设置如表1和表2所示。
两次试验的收敛效果如图3所示。图3显示了SA-QD-PSO算法无论是收敛速度还是最后得到的最优解都比SA算法要好,这主要是因为在每次在特定温度下退火操作之前粒子向自身和群体的学习优化了初始位置。
3.2 SA-QD-PSO算法与现有算法的效果对比
下面以全国省界数据为原始矢量线数据用本文算法SA-QD-PSO、道格拉斯_普克法、间隔取点法、垂距法、偏角法、光栅法分别选取最佳参数进行矢量线数据压缩。实验效果如图4—图9所示。
各算法的压缩效果对比如表3所示。该表表明本文算法和其它算法比较,不仅压缩比高而且精度也要高。但也表明本文算法的效率要略微低于道格拉斯_普克法与间隔取点法。
为了进一步说明哪种简化方法能提供最精确的表示和最大限度地淘汰不必要的数据点,可以根据在不同压缩比下的目标函数值来判断。如图10所示:SA-QD-PSO算法在不同的压缩程度下目标函数值均为最小,即效果最佳。
4 结 论
本文针对矢量线数据压缩的评价标准提出了一种基于模拟退火的离散粒子群优化算法,两种优化算法合理地结合使得压缩后的矢量线数据不仅极大限度地删除了冗余数据而且提供最精确的表示,另外也使得搜索效率显著提高。通过实验表明该算法较其它算法具有明显优势。但对于断点较多的矢量线数据本文算法的效率要略微低于道格拉斯-普克法与间隔取点法。在应用中,需要根据压缩的矢量线数据的特点做进一步分析与处理,使得算法的时间性能得到进一步提高。
摘要:首先根据矢量线数据自身的特点与压缩的要求,给出能够评估压缩后数据精度的目标函数,然后提出一种基于模拟退火的离散粒子群优化算法来实现矢量线数据压缩。实验结果表明,该算法较现有算法具有更好的效果。
关键词:模拟退火,离散粒子群,矢量数据压缩
参考文献
[1]张宏,温永宁,刘爱利,等.地理信息系统算法基础[M].北京:科学出版社,2006.
[2]马少平,朱小燕.人工智能[M].北京:清华大学出版社,2004.
[3]高鹰,谢胜利.基于模拟退火的粒子群优化算法[J].计算机工程与应用,2004,1:47:50.
[4]Kennedy J,Eberhart R.Particle swarm optimization[C]//Proceedingsof IEEE International Conference on Neural Networks,Piscataway:IEEE Service Center,1995:1942-1948.
[5]纪震,廖惠连,吴青华.粒子群算法及应用[M].北京:科学出版社,2008.
[6]Kennedy J,Eberhart R C.A discrete binary version of the particle swarm algorithm[J].IEEE Press,1997:4104-4108.
[7]杨红孺,高洪元,庞伟正,等.基于离散粒子群优化算法的多用户检测器[J].哈尔滨工业大学学报,2005,37(9):1303-1306.
[8]Yang S,Wang M,Jiao L.A quantum particle swarm optimization[J].Proceeding of the2004IEEE Congress on Evolutionary Computation,2004:320-324.
矢量数据 篇10
关键词:数据库,标准化,矢量数字地图生产
1 信息化测绘趋势研究
测绘行业矢量数字地图的生产随着测量工具和各项IT技术的发展正在经历从数字化测绘向信息化测绘跨越的转变这些变化, 主要体现在以下几个方面。
(1) 在数据生产模式上由过去单纯生产电子地图到为GIS生产的格式统一信息丰富的数据图的变化, 过去生产电子地图仅仅面向打印出图, 只要图形符号正确就可以了, 但是现在GIS的数据不仅要求数据本身包含越来越多的属性内容, 同时也要求数据本身有统一的格式和规范。 (2) 在数据管理模式上, 由过去简单的文件管理到为基础GIS系统提供底层数据支持的空间数据库管理的变。 (3) 在数据的利用模式上, 由过去对电子地图“符号化”的识别, “量算型”利用到对数据“全信息化”统计分析利用的变化。
传统方法对电子地图的利用无非就是人工进行符号识别, 或者在图上获取量算出来的数据, 信息传递的过程既原始, 又容易出错, 而通过建立空间数据库的方法, 无论对数据的属性提取还是大范围的统计分析和利用, 既提高数据利用的速度, 同时大大提升了数据本身的使用价值。
以上这些问题的产生, 深刻反应了数据生产和数据管理之间的主要矛盾, 即生产的无序性导致了管理的不可控性, 要顺利解决这个矛盾, 则要从数据生产的基本活动环节中针对数据管理的基本标准进行有效调整和改造, 即面向数据建库的标准进行成图软件的相应定制和组织数字化地形图的生产。
2 传统数据采集建库中的普遍问题
通常的基础空间数据建库, 其生产环节和数据管理环节是截然分开的, 数据生产通常只遵照一个制图标准, 并没有将其看作是GIS系统中要求的对象, 因而在数据采集的阶段, 不会去考虑数据对象中内在的逻辑关系, 比如图形本身的拓扑关系、符号与属性一致性关系等, 所以当这样的数据生产出来后, 数据的管理者还要对这些数据进行再次整理, 使之符合数据入库的标准, 往往还要再开发一个数据检查整理的软件工具, 花费大量的人力和财力对数据进行加工整理。
GIS建库中数据质量不好是最突出的问题。这个质量问题除了通常数据采集过程中产生的各种误差外, 主要是数据不一致和不完整性的误差。
在G I S的应用发展过程中, 不同的单位、不同的行业可能采用了不同的GIS软件。然而, 令人可怕的是由于受技术和其它因素的影响, 不同的软件采用不同的数据源, 不同的数据格式, 这就造成了不同的GIS应用系统之间数据难以共享、重复采集、重复建立系统的局面。这也可能是数字城市建设中面临的主要问题之一。
面对这种现状, 在数字城市建设中, 除了要研究解决作为平台的GIS软件之间的数据共享之外, 还应该要求作为前端的数字测绘能适应GIS系统的数据需求, 确保数字测绘与GIS系统的数据的共享。
目前国家生产建设的速度一日千里, 除了对基础数据的现势性要求非常高, 还要由基础的空间数据库进行对未来城市发展进行辅助决策。尽管现在数据采集的手段非常先进, 但由于刚才前面提到的两个问题, 数据生产与管理并没有很好的结合, 数据管理单位没有很好的把数据建库标准导入到实际的数据生产中去, 数据生产中“无法可依”, 没有详尽严格的数据建库标准进行约束, 当然难以生产出高质量的成果。
所以, 只需对数据生产和数据建库管理的环节进行有效流程再造, 使数据的生产和建库管理形成一个统一整体的系统, 这就是面向数据建库标准进行数字地图生产的方法。
3 面向数据建库标准组织数据生产的流程研究
面向数据建库标准进行数字地图生产的方法强调生产过程中的标准意识, 按“事后控制不如事中控制, 事中控制不如事前”的原则, 将原来数据加工整理的工作有效的分配到生产进行当中, 首先确定数据建库标准, 然后按照建库标准来定制数据生产的新标准 (有别于地形制图标准) , 要满足这个新的标准, 则数据采集软件要进行必要的定制, 而且为了检验数据是否能达到这个标准, 还要定制自动化的检查程序, 这样, 作业单位就可以一边生产, 一边检查, 有错的地方马上纠正, 相比原来那种事后进行加工整理的办法, 其效率大大提高。
4 实施标准化数据生产的意义
面向数据建库标准来组织数字地图生产的方法, 不仅仅解决了困扰GIS建设多年的数据问题, 从长远来说, 还有更多实际意义。
(1) 数据易于共享, 避免重复。
制定了数据建库标准之后, 为将来的数据生产提供了一个可执行的标准, 则无论用何种数据采集软件, 何种GIS支持平台, 只要标准一致, 在基础空间数据库的支持下, 这些数据就可以在跨平台的条件下进行共享, 也就避免了各个建设部门都要重复进行数据采集的现象。
(2) 数据更新顺畅, 提高效率。
传统方式进行数据建库尽管可以将现有的问题数据进行加工整理并入库, 但始终不能从根本上解决数据问题产生的根源, 当数据要更新时, 更新的数据还是要进行一次加工整理的工作。而面向数据建库标准来组织数字地图生产的方法实施后, 无论是修补测数据还是新测数据, 都能直接面向数据建库标准, 整体上大大提高了整个行业数据生产更新共享和管理的效率。
参考文献
[1]肖计划, 刘海砚, 栾晓岩.地理信息生成与地图制图一体化概念模型研究[J].科技资讯, 2007 (6) .
相关文章:
矢量结构02-02
矢量调速02-02
矢量控制驱动02-02
电机矢量控制02-02
矢量处理器02-02
矿山机电设备变频控制技术原理及应用研究02-02
机电控制变频技术论文02-02
变频技术煤矿机电论文02-02
电脑培训02-02
变频节能技术煤矿机电02-02