1、 南阳师范学院 20XX 届毕业生 毕业论文(设计) 题 目: DEM 粗差剔除方法研究 完 成 人: 班 级: 学 制: 专 业: 测绘工程 指导教师: 完成日期: 目录 摘要 (1) 1 引言 (1) 1.1 选题意义 (1) 1.2 研究现状 (2) 2 DEM 粗差 探测与剔除 方法研究 (4) 2.1 基于三维可视化的 DEM 粗差探测与剔除 (4) 2.2 基于高程信息的不规则分布数据粗差检测与剔除 (4) 2.3 检测规则分布数据中粗差的算法 (5) 2.3.1 基于参数统计的粗差检测 (5) 2.3.2 基于参数统计的粗差检测 (6) 2.3.3 基于主成分分析的粗差检测 (8
2、) 2.4 检测不规则分布数据中粗差的算法 (9) 2.4.1 基于点方式的算法 (9) 2.4.2 基于粗差簇群的算法 (10) 2.5 基于等高线拓扑关系的粗差检测与剔除 (10) 3 基于趋势面的粗差探测与剔出方法研究 (11) 3.1 获取数据采集后形成的原始 DEM 数据 (11) 3.2 数据预处理 (12) 3.3 粗差检测及修正 (13) 3.4 实验分析 (14) 4 总结与展望 (17) 参考文献 (18) Abstract (18) 第 1 页 ( 共 18 页 ) DEM 粗差剔除方法研究 摘要 : 数字高程模型( DEM) 作为 4D产品( DEM-数字高程模型、 D
3、OM-数字正射影像、 DLG-数字线划图、 DRG-数字栅格图)之一, 是一种对地球表面的数字化描述和模拟,是地球空间数据基础设施的重要组成部分, 是建立地形高程数据库和各类 GIS(地理信息系统) 库 ,进行地形定量分析等方面所必需的基础数据。 数字高程模型的应用越来越广泛,可用于地学分析、二维地理空间上连续分布并逐渐变化的各种非高程属 性数据的建模与分析。 DEM的数据来源方式有地面测量(利用自动记录的测距经纬仪在野外实测)、现有地图数字化(利用数字化仪对已有地图上的信息如等高线、地形线等进行数字化,目前常用的数字化仪有手扶跟踪数字化仪与扫描数字化仪)、空间传感器(利用 GPS等进行数据采
4、集)、数字摄影测量方法(这是 DEM数据采集最常用的一种方法)。 事实上 ,不管采用何种测量方法 ,测址数据总会包含各种各样的误差 , 可将误差分为三种 ,即系统误差、偶然误差和粗差。同系统误差、偶然误差相比 ,粗差实际上是一种错误 ,他们在测量中出现的可能性一般比较小。但 是与前两种误差相比 ,粗差对数字高程模型所反映的空间变化的扭曲更为严重 ,因 而粗差是影响 DEM质量的重要因素之一。根据统计规律 ,常用 2倍或 3倍中误差作为极限误差 ,即模型误差大于极限误差的观测数据被认为是粗差 。 粗差的产生主要出现在 DEM的生产过程中,并最终表现在高程 Z上。 粗差的存在会造成数字高程模型 (
5、DEM)空间上的严重扭曲 ,有时能导致 DEM及其产品严重失真 ,甚至完全不能使用。因而有关 DEM 的粗差诊断问题已愈来愈引起人们的关注。 探测和剔除 DEM数据中存在的粗差显得尤为重要。 DEM有多种数据形式:规则格网、不规则 格网、等高线、剖面图等 ,DEM原始数据可以规则格网的形式存在 ,也可能以不规则分布的形式存在 ,以规则格网形式存在的数据具有一些独特的特性 ,比如高程数据能以简洁而经济的方式存储在高程矩阵中。这些特性有助于数据粗差检测算法的设计 也正因为如此 ,适合于格网数据的粗差探测算法可能对检测不规则分布数据的粗差毫无用处 ,因此对不同类型的数据 ,有必要设计不同的粗差检测算
6、法与剔除算法。本课题是在对现有的 DEM粗差探测法进行分析的基础上,重点分析 基于趋势面的检测 DEM粗差的 方法 ,并证明其可行性。 关键词: 数字高程模型 ; 粗差探 测 ; 粗差剔除 第 2 页 ( 共 18 页 ) 1 引言 1.1 选题意义 数字高程模型 (Digital Elevation Model,简称 DEM)是以数字的形式按一定结构组织在一起,表示实际地形特征空间分布的模型,也是地形形状大小和起伏的数字描述,由一系列地面点 X, Y位置及其相联系的高程 Z组成,是各种信息的载体,是地理信息系统 (Geographic Information System, GIS)技术中最
7、重要的内容,是空间数据基础设施的重要组成部分,在生产中具有很高的利用价值。首先,它能够反映区域内的地形条件,为各用图部门提 供地形基础,其次,用它制作沙盘,具有快速、简便、精确的优点,可用于军事指挥和模型演示;还可以用于农业部门的农田水利规划,水利部门的洪水淹没损失估算及水利建设的土方量计算,交通、建筑等各建设部门的选址、规划,通讯部门信号覆盖范围的规划与计算,地址、勘探部门地形的分析,各旅游景点的规划及土地资源调查;也能用于二维地理空间上连续分布并逐渐变化的各种非高程属性数据的建模与分析上。可以说 DEM数据具有广泛的应用潜力。目前,由于地理信息系统 (GIS)的普及以及空间数据基础设施的发
8、展和建设, DEM作为数字线化图(DLG)、数字高程模型 (DEM)、数字正射影像图 (DOM)和数字栅格图 (DRG)即“ 4D”产品之一,己经成为国家空间数据基础设施 (National Spatial Data Infrastructure, NSDI)的基本内容之一,并被纳入数字化空间数据框架 (DGDF)进行规模化生产。今天, DEM已作为一个独立的产品而存在,并越来越广泛地被用来代替传统地图中等高线对地形的描述,成为地理信息系统的核心数据库以及地学分析的基础数据。与其他工业产品一样, DEM产品也必须有质量管理和质量控制。由于影响 DEM质量的因素是多种多 样的,无论采用哪种途径都
9、不能很好地解决所有的问题。从误差理论的角度分析,可以划分为系统误差、随机误差和粗差。其中,系统误差总是与特定的观测系统联系在一起,它们可能是由于立体像对的不正确定向造成的,也可能是摄影测量生产过程中忽略了棱镜变形而导致。从统计意义上说,系统误差给观测值带来的偏差在空间上并不是一个常数,但当它们己知时,可用一定的函数关系式来表示。随机误差在大小和符号上表现出偶然性,假如存在足够的观测值,随机误差服从下列特征 :(1)正负误差发生的概率大致相同 ;(2)小误差发生的概率高于大误差 ;(3)大误 差很少发生。随机误差既不可以通过反复观测加以剔除,也不能用一定的函数关系式表示。在空间上,它们呈弱相关性
10、,并在整个 DEM中服从高斯分布。粗差是由于观第 3 页 ( 共 18 页 ) 测者在操作仪器时的粗心,或读数、记录时的错误造成的,从统计的角度分析,这类观测值与其他观测值并不属于同一分布。与系统误差和随机误差相比较,粗差对 DEM数据所反映的空间变化的扭曲更为严重,特别是现代观测数据量大的情形。因此,在现代测量数据处理中如何消除粗差的影响,特别是自动化观测水平高,数据量大的情况下,就显得越来越重要。粗差它的存在会导致 DEM及产品的严重失真, 甚至完全不能使用。因此,设计一些算法检测并剔除 DEM数据中的粗差是完全必要的。因此探测和剔除 DEM数据中存在的粗差显得尤为重要。 本课题 是 在对
11、现有的 DEM粗差探测法进行分析 的基础上 , 重点分析 基于趋势面的探测 DEM粗差 的 方法及粗差的剔除 , 并 证明其可行性 。 1.2 研究现状 DEM 是地理空间定位的数字数据集合,它最初是美国麻省理工学院 Miller教授为高速公路的自动设计于 1956 年提出来的,随着各种相关技术的发展 ,特别是计算机技术在测绘方面的应用使得测绘学科逐渐向数字化、实时处理与多用途的方向发展 1。 质量控 制是数字高程模型 (Digital Elevation Model- DEM) 生产的重要环节之一。然而粗差对 DEM 数据所造成的空间扭曲往往最为严重 ,有时能导致 DEM 及其产品严重失真
12、,甚至完全不能使用 ,因此很有必要研究一些方法对 DEM 的粗差进行探测和修正。要有效地探测 DEM数据中存在的粗差 ,必须在数据采集后形成的原始 DEM 数据中进行。原始的 DEM 数据结构有规则和不规则两类。从实用的角度来看 ,在规则格网的 DEM 数据中探测粗差相对简单一些 ,因而研究成果也相对丰富 ,如 Hannah2(1981)的基于坡度信息 算法 ,FolicSimon (1994)的统计参数法 , 以及 Lper3(1997) 的主成分分析法等等。如果原始 DEM 为不规则数据 ,要转成规则格网点 ,则需经过数学内插的方法处理。在此过程中 ,原始数据中粗差点会影响到转换后的多个格
13、网点 ,从而增加格网点粗差检测的难度。本文是在探讨常用的各种算法的基础上进一步描述基于趋势面的 DEM 粗差探测与剔除方法。 2 DEM 粗差探测与剔除方法研究 2.1 基于三维可视化的 DEM 粗差探测与剔除 通过地形表面的三维可视化建模来审查 DEM 中可疑数据点,从而剔除严重影响数据 质量的粗差或者说错误。 DEM有着非常适宜于建立 3维可视化的特点,采用 DEM3 维可视化技术,该方法可以交互式的来检查 DEM 中出现的可疑数据,第 4 页 ( 共 18 页 ) 剔除严重影响 DEM 数据质量的粗差 4。一般对于一个特定的研究区域,在三维透视图上可疑点是否表现为粗差非常直观,很容易据此
14、作出正确地判断。实际上,由于 DEM 有着非常适宜于建立三维可视化的特点,所以可以首先通过目视效果对粗差进行检测。通常粗差的地形很不自然,因此在实际应用中,可以首先通过目视进行粗差的检测这种方法需要高效可靠的构网技术、快速的交互相应效率以及对异常值敏感的视 化图形,如线框透视图、晕渲图等常用的可视化图形,在技术层面上,操作的经验和工作态度对结果也会有相当大的影响。三维可视化的前提是要建立数字地面模型,为了保证所分析都基于原始数据 ,可选的方法是直接利用原始数据建立不规则三角网络模型 (Tin)。该方法不利因素在于,一方面需要高效可靠的建模技术以及可视化处理的策略 ;另一面,它仅适用于较大粗差的
15、判释,对于中小粗差并不敏感。 2.2 基于高程信息的不规则分布数据粗差检测与剔除 呈散乱分布的数据点粗差探测技术在原理上与规则格网比较类似,但由于散乱分布的数据点的分布特征,坡 度信息获取比较困难,具体实现上有两点不同 :第一,窗口确定,在规则格网上采用 3*3 局部窗口是适宜的,但不规则分布点的邻域范围要进行指定,一般可采用窗口尺寸或窗口区域的采样点数量两种方式确定。第二,一致性标准确定,规则格网上比较容易获取坡度信息,而不规则分布上获取坡度信息比较困难,因此,由于高程和坡度同是刻画地形曲面连续性的指标,在散乱数据分布的区域上,高程信息取代坡度成为一致性标准。在每一个窗口中,用高程信息计算统
16、计指标以及确定阂值,方法与规则格网类似。 2.3 检测规则分布数据中粗差的算法 2.3.1 基于 坡度信息的粗差检测 坡度是地表的固有属性,在局部连续空间的渐变模型上,坡度变化也是连的,因此可采用采样点与周围点的坡度变化是否一致来检测是否含有粗差,通以局部 3*3 窗口对每一采样点进行判断。其基本思想是对每个表面上的点,在坡度上,高程或突变量引起的形状不连续,可能被怀疑有误差,通过坡度上每个点,应用坡度逼近或改变量来计算,考虑坡度变化的相对值,并以这些相对值计算一个统计值为判断该点合法性的闽值,使计算结果更为可靠。如 表 1 所示, P 点在高程矩阵中的行列号为 (I, J),它的相临 8 个
17、点 1, 2, 3, 4, 6, 7,8, 9 的行列号分别为 :1 点 (I+1, J-l), 2 点 (I+1, J), 3点 (I+, J+1), 4 点 (I,第 5 页 ( 共 18 页 ) J-l), 6点 (I, J+1), 7点 (I-l, J-l), 8点 (I-1, J), 9点 (I-l, J+1)。 表 1 P 点坡度计算 1 ( I+1, J-1) 2 ( I+1, J) 3 ( I+1, J+1) 4 ( I, J-1) P ( I, J) 6 ( I, J+1) 7 ( I-1, J-1) 8 ( I-1,J) 9 ( I-1, J+1) 该算法分三步进行,首先以
18、检测点 P的 8 个邻域点分别计算 I, J 方向的坡度值,然后 计算各个方向的坡度变化值 DSC,根据每个数据点在同一方向上的两个 DSC 值相加,其值用于计算均方根差 (RMSE),如果坡度变化一致的话,则同一点在同一方向上的两个 DSC值和的绝对值将是很小的值 (接近 0),反之如果坡度变化不一致的话,这个值将比较大。若某一数据点在行列方向上的 DSC 值都大于闭值 (闭值为 RMSE的 K 倍 ),则可确信它含有粗差。对于 K 值,不同情况下,可以使用不同的值,如果 DSC 值分布比较均匀 (此时 RMSE值比较小 ), K 可以取大一些的值 ;反之 (RMSE 值较大 ),则 K值以
19、取小一些的值。对判断含粗差的点进行 改正,以保证数据质量的提高 5。 2.3.2 基于参数统计的粗差检测 假设超限误差只是局部相关的, Felicisimo 算法研究的对象是某点高程值,和其邻域点内插出的高程值之,之间的差值民,如果使用双线性内插而言,只要使用邻域的四个点就够了,在这种情况下,对矩阵第 i 行,第 j 列交叉处点高程值可按下式计算 6: Z jiZ jiZ jiZ ji ,11,1,41 , 高程估值与 DEM中高程值之差为: Z jiZ jiji , ,. 如果此过程应用于 DEM 中所有点,可以得到高程差值的代数均值 和标准偏差 S ,假设 ji. 服从均值为 ,标准偏差为
20、 S (均从这个采样中获得)的高斯分布 SN , ,可以用双尾检验来验证 ji. 是否 属于该分布的集合。通过引进 t第 6 页 ( 共 18 页 ) 统计量, Sjit ji ,, t ji, 可以看做一个标准化残差,因从模型中获得的数据量很大,故可假设 t ji, 服从 t 分布,对于置信水平 =0.001,统计量的临界值为 3.219,由此可进行两个假设的检验,其中零假设为 jiH ,0 :,而被选假设为 jiH ,1 : ,任何残差 ji. ,使 219.3, t ji 的数据点都被怀疑为含有粗差,但事实上,大的 t ji, 值并不能指出粗差,而仅仅是一个警告符号。 表 2 3*3 窗
21、口计算单元 Z ji 1,1 WB Z ji ,1WA Z ji 1,1 WB Zji 1, WA Zji 1, WA Z ji 1,1 WB Z ji ,1WA Z ji 1,1 WB 粗 差的修正应该紧紧伴随着粗差的探测过程,在 DEM 的栅格矩阵中,由于不允许空格点的存在,一旦某个粗差被检测就应该加以改正,这里最简单的方法就是用临近点的高程均值来代替可疑点的高程值,需要指出的是任何可疑数据点都不应参与高程估值的计算。上述过程可以迭代进行, 其计算方法如表 2 以3*3窗口为计算单元, 每一次迭代中统计量 t 和 ji. 都会变化,直到没有超过临界值的残差出现。 2.3.3 基于主成分分析
22、的粗差检测 主成分分析是把多个指标化为 少数几个综合指标的一种统计方法 7。在实际的研究中,为了全面分析问题,往往使用众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。一般来说,虽然每个变量都提供了一定的信息,但其重要性有所不同。实际上,在很多情况下,众多变量间有一定的相关关系,人们希望利用这种相关性对这些变量加以“改造”,用为数较少的新变量来反映原变量所提供的大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析便是在这种降维的思想下产生的处理高维数据的统计方法。主成分分析的基本方法是通过构 造原变量的适当的线性组合,以产生一系列互不相关的
23、新变量,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。当研究的问题确定之后,变量中所含的“信第 7 页 ( 共 18 页 ) 息”的大小通常用该变量的方差来度量。主成分分析法进行 DEM 粗差的探测包括以下几个步骤 : (l)对于给定的大小为 n*m 的 DEM,将其分别划分为列主方向和行主方向度为 w 的带状区域,实施下列步骤直到满足一定的准则。 (2)处理列主方向的带状区域。 a.确定可能含有粗差的列 ;b.在每一列中确定差的位置,从 而获取备选粗差数组 1。 (3)处理行主方向的带状区域。 a.确定可能含有粗差的
24、行 ;b.在每一行中确定差的位置,从而获取备选粗差数组 2。 (4)将两套备选粗差进行比较。 (5)提供计算准则,改正所有的粗差。 (6)结束。 由于粗差数据影响统计量的计算,因而上述过程需要迭代进行,在每一次代中,都可以得到一组“粗差候选序列”。如果确定为真正的粗差,就对相应数据点加以修正,并从“候选序列”中去除,接着进行下一步迭代过程,并设一定的条件来控制程序的进程。 2.4 检测不规则分布数据中粗差的算法 规则格网 DEM 具有很多优 点,它的数据结构简单,便于存储和处理 ;但有不足之处,它对地表的描述没有非规则 DEM 的精确,也无法顾及地形变化特征点和线。除此以外,在实际的生产中,规
25、则格网 DEM 通常都是由非规则网 DEM 通过内插而得到的。如果原始 DEM为非规则数据,要转成规则格网点在此过程中,原始数据中粗差点会影响到转换后的多个格网点,从 而增加格网粗差检测的难度。因此,很有必要讨论和验证基于非规则格 DEM 的粗差探算法。目前,最典型的基于非规则 DEM的粗差探测算法是李志林提出的点方算法 8。 2.4.1 基于点方式的算法 首先,确定待定点 P 周 围的邻域点范围,然后计算窗口范围内所有点的平高程 (或加权平均值 )作为 P 点的估值,最后计算 P 点高程值与估值的高程差,如果高程差值大于闽值,则认为 P点含有误差。 (l)邻域点的范围 确定待定点 P 周围的
26、邻域点范围,可根据以 P 为中心的窗口指定,窗口的确定有三种方法,一种是定义窗口的尺寸,另一种是定义窗口覆盖区域内高程点的数量,还有一种方法是同时使用上述两种方法来确定窗口的大小,通过计第 8 页 ( 共 18 页 ) 算区域内点的数量和坐标范围确定一平均窗口。 (2)代表值的计算 在点方式算法中,把待测点邻域点的平均高程作为该点的代表值。有两种方法可 计算邻域点的平均高程,一种是简单的计算高程值的算术平均值,另一种是对每一个邻域点赋以不同的权值。如果 P 的邻域点包含粗差,用简单算术平均值法更加可信,计算速度也比较快。 (3)计算闭值 假设城是以第 i个点为中心的邻域点的算术平均值,耳为从与
27、第 i 个点的高程值 Hi 的差值,即: MiHiVi 对 DEM 中所有的点,可以得到一系列的 i 值,计算均值和标准偏差 9: ni iini i ZZnn 11 11 ni inS 1 21 其中, Zi为由中心点的 i 窗口范围内数据点计算的高程估值, Zi 为点的高程测量值。假设 i 服从均值为 ,标准偏差为 S 的正态分布 SN , ,则检测粗差的阈值为 S 的 K 倍( K 为常数)。阈值确定后,对 DEM任一数据点 i ,如果 KSi ,则认为含有粗差。一旦数据点被检测超限,用其估值 Z 来代替可疑的高程值 Z ,迭代进行,直到没有超过阈值的高程较差 出现。 2.4.2 基于粗
28、差簇群的算法 基于点方式的粗差检测算法是针对检测数据中仅存在单个粗差的情况,而事实上 DEM 中的粗差经常以一种排列紧凑、数据巨大的簇群方式存在 这在自动相关技术获取的数据中经常存在。与点方式算法相同,首先需要定义一以 P 为中心的窗口,将窗口中的第一点从窗口中移去,从窗口中剩余的点计算新的“代表值”即平均值,然后计算并记录这个平均值与移去的数据点的值之差,此过程迭代进行,直到窗口中所有的点都通过检验 10。 假设在窗口中有 M个点,那么通 过下式可计算 M个差值: PPV ii 式中, Pi 是窗口所有剩余数据点的平均值, P 是窗口中所有数据点的平均值。余下的过程与点方式检测粗差的算法相同,也是 M 个值用来计算一个统计值,并使用该统计值生成闽值,如果某一差值 V 超过了这个闽值,则认为这个数据点含有粗差而需要将其进行剔除。 2.5 基于等高线拓扑关系的粗差检测与剔除