1、1数学地质复习内容第一章 绪论1.数学地质的现代定义。数学地质是利用数学的思维、数学的逻辑、数学模型和计算机科学的理论和方法,智能化、定量化研究地质过程中所产生的地质体和资源体的科学。2.数学地质的主要研究内容。 地质多元统计分析:是应用统计分析方法研究地质问题方法的统称。多元元统计分析方法中的几种最常用方法:1)回归分析:研究相关变量的相关关系,确定它们之间近似函数关系的一种统计分析方法。2)趋势面分析:是研究地质变量空间分布趋势及其局部异常的统计分析方法。3)聚类分析:是一种定量分类的统计分析方法。4)判别分析:是定量确定样本归属的一种多元统计分析方法。5)相关分析(数据序列分析):研究数
2、据序列间相互关系及自身性质的统计方法。6)模糊识别分析。7)模糊聚类分析。8)地质因子分析。9)对应分析:在同一空间内研究样品与变量的关系,对样品进行成因解释的一种统计分析方法。矿产资源预测:一直是数学地质的重要组成部分和研究内容。油气资源定量评价的重要方法:蒙特卡罗模拟、盆地数值模拟、油田规模序列法、回归分析法、Weng 旋回模型法、历史趋势外推法。地质数据库:它是存储在某种存储介质上的地质信息(数值型、符号型、文字及图形等)和信息处理软件的集合。地质过程的数学模拟 :用数学模型描述地质过程的发生和演化过程,并在计算机上现地质过程的一种试验。计算机地质绘图第二章 地质变量与地质数据1.地质变
3、量、地质数据的概念和类型及特点。地质变量概念:是反映某地质现象在时间或空间上变化规律的量。如生油岩的厚度、地层的埋藏深度、生油岩中有机质的丰度等。地质变量类型:一般根据地质变量所取数据的方法及性质,可将其分为观测变量(定性和定量变量)和综合变量。1)观测变量:是可以直接进行观测、分析或度量的地质变量。如地层的厚度、原油的密度或粘度等。2)综合变量:是把两个或两个以上的观测变量按一定的方式进行组合而得到的具有综合意义的地质变量。如区分天然气成因类型的“甲烷系数” 。地质变量特点:1)具有明确的地质意义:指地质变量所代表的具体地层含义或特征。如地层的时代、地层温度、圈闭闭合面积等变量可表示石油地质
4、特征;有机质类型、有机质丰度、有机质成熟度等变量可表示地球化学特征。2)具有明显的统计性质:多数地质变量可认为是随机变量,因此它们的观测值具有明显的统计意义。如观测值的平均值是地质变量数学期望的估计值,而观测值的标准差则反映了地质变量在区域上的波动程度。3)具有相关性:地质变量之间具有一定程度的相关性。如岩石的渗透率与有效孔隙度密切相关。地质数据概念:用物理、化学及直接观测方法获得的用以表示地质样品特性的各种数据和其它形式记录的资料统称为地质数据(或样品观测值)地质数据分类:狭义上分为定量和定性数据。广义上分为定量、定性、图形及其它形式记录的资料等。按地质数据的来源,又把地质数据分为观测、综合
5、、经验数据三类:1)观测数据:对样品用物理、化学或直接观测方法获得的表达样品特性的数据。a.定性数据:它是用符号或代码表示的没有数量概念的观测数据。又分为名义型和有序型两类:名2义型数据是没有数量概念和次序之分,但彼此之间有“相等”或“不相等”关系的定性数据;有序型数据是没有数量概念,但彼此之间具有次序关系的定性数据。b.定量数据:是指用数值来描述的观测数据。包括间隔型数据和比例型数据:间隔型数据是有明确数量概念和地质含义的定量数据;比例性数据是指定量数据的比值。2)综合数据:由定量数据(或经定量化后的定性数据)经有限次算数运算后得到的定量数据。3)经验数据:是在研究地质现象和规律的基础上,根
6、据大量实际资料和经验总结归纳出的数据。地质数据特点:1)地质数据类型多,性质不一,反应地质内容丰富,量纲不统一,定量数据的数量级相差很大,各类数据的数量和精度相差悬殊。2)地质数据往往是多种地质因素综合作用的结果,故具有混合分布特征。3)地质数据以定量数据为主,而定性数据的定量化研究和应用目前尚不成熟。2.定量数据的标准差标准化、极差标准化、极差正规化的含义是什么?各种标准化后的新数据有何特点?定量数据的标准差标准化:变量 xj 的每个观测值 xij 减去该变量观测值的平均值,再除以观测值的标准差 sj 。标准化后数据的特点:平均值为 0,标准差为 1。极差标准化:是变量 Xj 的每个观测值
7、Xij 减去该变量观测值的平均值,再除以极差 Xj (变量观测值的最大值与最小值之差)。标准化后数据的特点:各列的极差为 1。极差正规化:变量的每个观测值减去观测值的最小值,再除以极差。极差正规化后新数据的特点是:最大值为 1,最小值为 0,即新数据分布在区间0,1内。3.按象限取点距离倒数加权平均法的基本原理。以插值点( xi , yi )为坐标原点,在四个象限内各取一个距坐标原点最近的点,记为:(xk , yk ) (k=1,2,3,4)各点到坐标原点( xi , yi )的距离记为:k = 1,2,3,4考虑到距离大小对网格点上预测值的影响,故取距离的倒数作为权,求网格交点( xi ,
8、yi )的预测值。在上式中,当出现 dk=0 时,则以 zk 作为网格点( xi , yi )上的值。 以此实现数据的网格化。4离群数据识别和处理的主要步骤。判断数据体中是否存在失真数据(分布检验)挑选出失真数据处理失真数据第三章 回归分析1.相关变量的概念。相关变量是存在着相互依赖性和制约性,但并没有严格数量关系的变量。2.回归分析的概念及解决的主要问题。回归分析的概念: 根据相关变量 xi (i=1,2,m )、 y 的观测值,建立 y 与 xi 之间近似定量关系的一种多元统计方法。回归分析解决的问题:变量间是否存在相关性。各变量间的相关程度。建立相关变量间的定量表达式。实际应用。3.最小
9、二乘求回归系数的原理。22iiyxdkkk 41/kki dz3假设已有自变量 xi 和因变量 y 的 n 组观测值,记为:将 xik代入线性回归方程,可得 n 个 yk的预测值:确定回归系数的原则是使 n 个偏差的平方和:达到最小。由上式可知, Q1 是关于 b0、 b1、 bm 的二次函数,且 Q10, 根据极值原理,有: 01kbm,.2上式是以 b0、 b1、 、 b m 为未知数的线性方程组,可求出 b0、 b1、 、 b m, 故可确定式(3-2),即: 4.求非线性回归变量替换法。用数学推导的方法把非线性相关变量关系转化为线性关系。用变量替换的方法,将已转化为线性关系的相关变量进
10、行替换。用最小二乘法求回归模型系数。进而求出回归模型。5.回归模型检验(两种方法) 。回归检验是解决 y 与 xi 之间是否具有线性关系的问题。总偏差平方和 Q:反映 y 观测值离散程度的一个指标;偏差平方和 Q1:反映观测值与回归值的逼近程度;回归平方和 Q2:反映 xi 的变化对 y 引起的波动。 21Q复相关系数检验:定义变量 y 与 xi 的复相关系数: 作为检验变量相/)(R关程度的指标,R 的值越接近于 1,变量间的相关性越密切, 即回归方程越显著。F 分布检验:假设 Ho: 变量 y 与 xi 没有线性关系若 Ho 为真,则 Q1 相对较大, Q2 相对较小。当 Q2/Q1 小于
11、某个临界值时,就接受假设 Ho ,否则否定原假设 Ho ,既认为变量 y 与 xi (i=1,2,m)有显著的线性关系。对于给定的检验水平 ,在 F 分布表上查得临界值 F,当 F F 时 ,否定原假设 Ho,这时称回归方程是显著的,可以使用;否则,接收原假设 Ho ,认为求得的回归方程不能应用 。6.逐步回归分析的概念。逐步回归分析:在回归过程中,按变量 xi (i=1,2,m)对 y 作用的大小,把作用达到一定程度的变量 r(1rm)逐个“引入”回归方程,同时逐个检验已引入回归方程的变量对 y 的影响,若 x ( xxr )对 y 作用已不显著,就再从回归方程中“剔除”它,如此直到既没有对
12、 y 作用显著的变量引入回归方程,又没有作用不显著的变量从回归方程中“剔除” 。7.逐步回归引入和剔除变量的原则(假设检验)。(1)检验 xk 是否选入(引入)假设 Ho:变量 xk 对 y 作用不显著(作用不大),2,1(),(21 nxmk iikby10nkky2)(miixby104统计量 Fk 服从 F(1, n l - 2 ) 分布,给定检验水平 (H0 成立的概率) ,查 F分布表得一个临界值,记为 F1 。当 Fk F1 时,则否定原假设,说明原假设不成立,应把变量 xk 引入回归方程,否则引入变量结束。(2) 检验 xk 是否剔出假设 H0:变量 xk 对 y 作用不显著(作
13、用不大)统计量 Fk、服从 F(1, n l - 1 ) 分布,给定显著性检验水平 ,查 F 分布表得临界值 F2 ,若 Fk F2,则否定 H0 ,即 xk 对 y 作用大,将其留在回归方程中,否则接受假设 H0,从方程中去掉变量 xk。8.举例说明回归分析在油气勘探开发中的应用。温度时间指数 TTI 对镜质体反射率 Ro 回归方程在油气勘探中的应用。松辽盆地南部 61 个样品的 R0(%)与 TTI 有密切相关关系,其数量关系式为 R0(%)=0.493lgTTI,R=0.99体积速度法估算资源量 利用成油地质条件预测油气资源量 参数预测模型1)测井盖层突破压力预测模型2)油气运聚系数预测
14、模型预测有机成熟区确定含油面积系数,预测有利含油面积第四章 趋势面分析1.趋势面分析的概念。趋势面分析:就是在空间中已知点 Mi (xi , yi , zi) 的控制下,拟合一个连续的数学曲面,并以此研究地质变量在区域上和局部范围内变化规律的一种统计方法。2.求多项式趋势面方程的方法。多项式曲面的一般形式: 确定多项式曲面,就是根据观测值 Mi (xi , yi , zi) (i=1,2, n )确定多项式中的系数。假设 1、 2、 3的估计值为 b1、 b2、 b3,则近似可得多项式趋势面方程:6543 yxbyxbz把地理坐标 ( xi , yi) (i=1,2, n )代入上式,可得地质
15、变量的趋势值: 26524321 iiiiii b确定多项式系数的原则是使 达到最小。Q1 是关于 b1, b2, b3, 的二次函数,且 Q10,因此有:上式中 L 为多项式系数及常数项的个数。整理后可得: 解上述 L 阶线性方程组,可得 b1, b2, bL, 从而确定趋势面方程。3.趋势面拟合度定义及趋势面次数选择。趋势面的拟合度:是指观测值与趋势值在总体上的逼近程度。265243yxz iiz1)(,201Lkk CBATnTTLT zZXCBXA )(,)(, 2121 5记:;)(12niizQ;)(122niiz;)(12niiizQ21定义:为趋势面的拟合度。拟合度越高,说明趋
16、势面拟合程度越好。趋势面的次数选择:方法 1:进行 1 次、2 次 趋势面分析,相应拟合度为 C1 ,C2,作图标出点(1,C1),(2,C2),(3,C3),连接各点构成一条折线,在折线上取斜率最大的线段末对应的 k 为趋势面的次数。方法 2:进行 1 次、2 次 趋势面分析,相应的拟合度为 C1、 C2 。预先给定一个小正数 , 当 Ci+1-Ci异常下限为正异常点 。从 zi-中划分负异常时, e-(或-2 s-)为异常上限, zi- 0,令:整理后可得:4.检验变量综合判别能力强弱的指标及表达。假设总体 a g N (g , ) , g = 1 , 2 , G 。为了检验变量的区分能力
17、,定义总体内离差矩阵 W、总体间离差矩阵 B、总离差矩阵 T。记可以证明: T = W + B。Wilks 统计量: U=|W|/|T|U 是检验 m 个变量综合区分能力的指标。 U 越小总体内部差异越小,而总体之间差异越大。5.Bayes 准则下建立正态多总体判别函数的基本原理把 G 个总体记作 ag (g=1,2,G), 那么对于未知类别的一个样品 X 来说,它可能属于任何一个总体,但它归属每个总体 ag 的概率不同。由 Bayes 公式可以求得 X ag( g=1,2,G )的条件概率:mxcxcy21(0jcVj ),1dCsmkjkj bani kikjiji kikijjk bxb
18、xaas1 )()( ),21,j),21( mjbxadjjj mjimjimji tTbBw,Gg jgnkjkigiji xx1 )()()( jjiijib)()()(Ggnk jjgkiigji xxt1 )()()(nkigi G1)()( ),217GjjgGj jjggg XfPaXPXa11 )()/()/(如果 P(ak/X)是条件概率中的最大者,即:那么就判定样品 X ak,且判错的概率最小。按照条件概率的大小判定样品归属的原则称为 Bayes 准则。在计算条件概率时,式(5-3)的分母是一个常数,故只取分子,其相对大小不变。记为: ),2,1(),)( GgfPEgg
19、上式是 Bayes 准则下多总体判别的一般判别函数,根据 Eg(X)的相对大小,可对样品的总体做出判别。6.逐步判别分析的基本过程。逐个检验拟定变量的区分能力,把区分能力强的变量“引入”判别函数,在引入变量的过程中,随时“剔除”已引入判别函数中的区分能力变弱的变量,指导既没有区分能力强的变量引入,又没有区分能力变弱的变量剔除为止。7.举例说明判别分析在油气勘探或地质研究中的应用判定生油岩热演化阶段基本思想:视不同热演化阶段的生油岩为不同的总体,建立判别函数,可用来判定生油岩样品的热演化阶段。根据生油岩成熟度可把生油岩的热演化过程分为四个阶段,即未成熟、成熟、高成熟和过成熟阶段,因此可视为四个总
20、体。(1)在上述总体中取 66 块生油岩样品,统计它们的地层年龄(t)、现今地层温度(T)和埋藏深度(H)(2)拟定判别变量。在此拟定 6 个变量,它们是:X1=T+273,X 2=t,X 3=H,X 4=1/H,X5=ln(T+273),X6=1/(t+273)(3)建立四个总体的判别函数,取引入和剔除临界值 F1=F2=1.0,共引入X1、X 2、X 3、X 5四个变量,得判别函数:F1(X)=-431.68x1+4.40x2-0.26x3+2002982x5-5104389F2(X)=-432.68x1+4.40x2-0.26x3+2007825x5-5129241F3(X)=-433.
21、83x1+4.41x2-0.26x3+2013452x5-5158277F4(X)=-434.45x1+4.41x2-0.26x3+2016816x5-5176063(4) 应用:珠江口盆地第三系生油岩为中新世至晚渐新世沉积,地层绝对年龄为 16-30 百万年,埋藏深度为 2200 米,现今地层温度为 104 度,取地层绝对年龄为 25 百万年,按上述判别函数计算得:F1(X)=514572.6 F2(X)=514581.3 F3(X)=514582.5 F4(X)=514570.8其中 F3(X)最大,因此判断其处在热演化高成熟阶段,与实际情况相符识别沉积相 识别岩性气、水层判别预报油气勘探
22、成功率第六章 聚类分析1.聚类分析的概念及类型。概念:根据个体之间的亲疏程度,将它们进行逐级定量分类的一种多元统计分析方法。根据分类的不同方式,把聚类分析分为:聚合法聚类分析和分解法聚类分析聚合法聚类分析:是按个体在性质或成因上的亲疏关系,把个体逐级聚集成类的一种多元统计分析方法。对样品进行分类称 Q 型聚类分析)/(mx1gGk8对变量进行分类称 R 型聚类分析.分解法聚类分析:这种聚类方法与聚合法“方向”恰好相反,开始时全部个体为 1大类,依据某种分类指标,把全部个体分为 2 类、3 类、, 直到满足分类的要求为止。2.聚类分析常用的统计量。聚类分析统计量: 衡量个体间性质或成因亲疏(相似
23、、相关)程度的统计指标。1)聚合法聚类统计量(Q 型、R 型聚类分析统计量都有以下三个统计量)相似系数; 相关系数; 距离系数。2)分解法聚类统计量:段内离差平方和、段间离差平方和、总离差平方和。3.聚合法中类之间相近程度的度量方法。统计量 方 法 说 明近邻联接 最大相关表示两类的相关远邻联接 最小相关表示两类的相关相关系数相似系数类 平 均 平均相关表示两类的相关最短距离 最短距离表示两类的距离最长距离 最长距离表示两类的距离类 平 均 平均距离表示两类的距离距离系数重 心 重心距离表示两类的距离4.聚合法及分解法的基本过程。1)聚合法聚类过程大致如下:原始类,即聚类以前的个体各自成类;第
24、 1 级聚类,以某种统计量计算各个体间的亲疏程度,把关系密切的对象合并成 1类,并构造成一个代表性个体,作为新的个体参加下一级聚类;第 2 级聚类,再计算个体间的亲疏程度,把关系密切的个体合并为 1 类(可能是个体与个体或个体与上一级已聚成的小类合并),并又构造一个代表该类的代表性个体参加下一级聚类;按上述方法进行第 3 级聚类、第 4 级聚类、,直到全部个体合并为 1 类为止。在上述聚类过程中,需要不断地计算个体与个体、个体与类、类与类间的亲疏关系。2)分解法聚类分析(最优分割法)基本过程符号约定记符号 Sn(k; j)为把 Xnm 分为 k 段的段内离差平方和,其中 n 是 X 中样品数,
25、k 是分段数, j 表示第 j 个样品和第 j+1 个样品之间为分割点(1jn-1) 。分割过程1)分 2 段取 k = 2,令 j = 1,2, ,n-1,计算 Sn(2;j), 若那么,1 是最优 2 分割的分割点,X 分割为 2 段; 2)分 3 段取 k=3,令 j=1,2,.,n-1, j1,计算 Sn(3;j), 若则 2 是最优 3 分割的第 2 分割点, X 分割为 3 段;);2(mi);(11jSSnjn);3(i);3(1,12jnjjn93)分 k 段取 k=k,令 j=1,2,.,n-1, j1 , 2,k-2, 按式 计算 Sn(k; j), 若则 k-1 是最优
26、k 分割的第 k-1 个分割点。至此,已将 X 分割为 k 段,分割点依次为1、2、k-1。5.举例说明聚合法聚类分析在油气勘探或地质研究中的应用。储层评价参数优选大庆朝阳沟油田具有低孔隙度、低渗透率、高含水饱和度等特点。能够反映该油田低渗透储层的参数有:渗透率、孔隙度、有效厚度、储量丰度、启动压力梯度、可动流体饱和度、平均孔隙半径、流度等。对众多参数都进行评价将造成极大的工作量。因此考虑用聚类分析方法剔除相似参数,优选出具有代表性。可比性和实用性的参数。参数选取原则:(1)必须体现储层最本质的特征(2)同一储层内的某参数必须有明显差异(3)以研究各单项参数对储层特征的影响程度及各参数间的相互
27、关系为基础(4)参考研究区的具体特点,选择出具有代表性、可比性和实用性的参数 含油气盆地的聚类分析油源对比岩性段划分储层分类油气地表化深指标分类第八章 蒙特卡罗模拟1.蒙特卡罗法的概念及概率解的表达形式。蒙特卡罗法(Monte Carle):以数值解不确定问题为对象,对计算模型中的各变量进行随机抽样(随机试验),进而求问题概率解的一种统计学方法。因此,蒙特卡罗法又称为统计试验法。概率解的表达形式: 随机变量的经验分布函数曲线以及资源量和总资源量的经验分布函数曲线。2.形成0,1区间上伪随机数的两种方法。乘同余法该方法产生伪随机数序列的递推同余式为:Xn , Xn+1第 n 次和第 n+1 次产
28、生的伪随机数; -乘子系数; M- 模;Xn+1- 0,1区间上的伪随机数。Xn+1 Xn (mod M)叫做以 M 为模的同余式,表示 Xn+1 取值为: 与 Xn 的积除以 M 的余数部分。混合同余法该方法产生伪随机数序列的递推同余式如下:混合同余法比乘同余法仅是增加了一个增量 ,其它含义与乘同余法相同。如: M =219 = 524288 , = 55 = 3125 时, x0= 23 , 11 ,19 , 37; = 3 , 7 , 11 , 17 分 4 套配合使用,混合同余法可产生周期为 524288 伪随机数序列。注:所获得的伪随机数是否能代表真正意义上的随机数,还需进行检验3.
29、随机变量经验分布函数的分段表达及曲线形成。经验分布函数是由 X 的 n 个观测值 x1, x2, xn ,用统计方法得到的分布函数,记为 Fn(x) 。在油气资源评价中,人们总希望得到资源量不小于某个实数 x 的概率 P(Xx), 显然: P(Xx)=1-P(X x)=1-F(x)以统计所得的 Fn(x)代替 F (x), 并记:),(21nXYMxrn/)(mod1rn/)(mod1)1)()FXPxAFn);(min);( 21,1 jSSnjjkn k10(xmin , 0) x i (出口值)(xi , r i) x min ,r i(入口)值)xAF (x) (xmin , 1)AF
30、(x)就是油气资源评价中的经验分布函数。4. 随机变量经验函数抽样法的抽样过程。种类:经验分布函数抽样法;直接抽样法;变换抽样法。经验分布函数的抽样:将坐标原点设为( xmin ,0),若已知0,1区间上均匀分布的随机数 ri ,则在下图纵轴上可确定点( xmin , ri ), 过该点作横轴的平行线交分布曲线于点 (xi , ri ), xi 则是对应于随机数 ri 的一次随机抽样值。5.估算一个地区油气资源总量的一般步骤。选择预测(估算)方法(建立概率估算模型)确定参数中的随机变量构造随机变量的分布函数对各随机变量的分布函数进行重复抽样,计算出资源量的多个估计值由资源量的多个估计值求资源量
31、分布函数对于 m(m1)个局部地质单元:需要概率加求总的资源量(局部地质单元资源分布函数是求总资源量的基础) 。第十章 油气资源量与含油气有利地带预测1. Weng 旋回模型的一般形式及参数含义。若体系 Q 在时间 t0 时不存在,那么它是个不连续的体系,记为: 若设 Q 的发展速度 dQ/dt 与 Q 的当前状态关系为:(t0) 式中( x/t )-1-比例因子x-Q 达到顶峰期的时间(某一正实数)。由上式得: 式中 A 为积分常数。上式可以写成:这就是 Weng 旋回模型 Q 的兴起正比于时间 t 的 x 次方(兴起因子); Q 衰亡正比于时间 t 的负指数函数(衰亡因子)。Q 是时间 t 的函数,而 t 又可看成是时间间隔( T-T0)与 C 的比值。因此 Weng 旋回模型又可写为: (t0) T0-生命起始时刻; T-生命过程中的某时刻; x 、 C、 A-待确定的拟合系数。2. Weng 旋回模型的生命旋回阶段划分及预测结果。确定模型中的参数 x、 C、 A 后,则可用 式: (t0)预测油气田未来产量的变化Q 的生命旋回大致分为五个阶段: 加速上升阶段( );一般上升阶段( ); 一般下降阶段( );慢下降阶段( )。0,1/tdt )0(lnllntAttxeTex/)(0x0CTteAQtx/)(0tx