1、 地球科学数据共享材料八海洋科学数据库建设规范(讨论稿)中科院青岛海洋科学研究所地球科学数据共享政策与规范研究组2004 年 5 月中国科学院“科学数据库及其应用系统”数据共享政策与规范课题地球科学数据共享材料1目 录1前 言22海洋科学数据库建设总体要求221 海洋科学数据库总体框架构建 .222 具体的数据库的建库规范 .2221 术语定义 .2222 具体数据库的建库流程 .3223 具体数据库建设目标 .3224 数据库文档 .3海洋数据库建设规范实例: 中国近海和西北太平洋温盐声密数据库建设规范.41前 言.42中国近海和西北太平洋温盐声密数据库建设规范.521 适应范围 .522
2、引用标准 .523 技术术语定义/解释 .524 编码、属性表命名规则 .725 元数据标准 .826 文档格式 .827 数据库建设流程 .828 数据质量控制 .1029 数据库汇交(集成)(汇交至的方法和途径等) .13中国科学院“科学数据库及其应用系统”数据共享政策与规范课题地球科学数据共享材料21. 前言海洋科学是一门综合性的学科,涵盖物理海洋学、海洋地质学、海洋生物学、海洋化学等多个学科,研究工作中所涉及、积累的数据也是多种多样各不相同,如物理海洋方面水文数据是记录着某一经纬度、某一时间、某一航次、某一深度的海水温度、盐度和密度信息;海洋地质方面基础地质数据记录着某一区域海底深度及
3、海底地貌等信息;而海洋生物方面又可能是某一物种或某一标本的属性等,因此各方面的数据库建设也各不相同,建设规范也就各不相同。根据这种情况作为海洋科学数据库的建库单位,一方面我们对整体的数据库建设有建设规范(总体要求) ;另一方面,要求每一个具体的数据库要通过建库的工作确定各自的规范和标准,这个规范、标准是代表海洋所水平的,基本也就是代表科学院水平的,而且要求进行必要的鉴定工作成为国家水平的。2. 海洋科学数据库建设总体要求2 1 海洋科学数据库总体框架构建海洋科学数据库可以粗略地分成海洋水文子库、海洋地质子库和海洋生物子库三个部分,每个部分又包含了自成系统的多个具体的数据库。确定海洋科学数据库的
4、整体框架, (从总结中摘录) ,使海洋科学数据库建和服务设成为日常性的工作。2 2 具体的数据库的建库规范221 术语定义源数据集:具体数据库建库的数据来源,不拘于数据格式的、不断增长的数据集合。标准数据集:产生于源数据集,经过数据格式的统一,经过数据排重和质量控制后产生的数据集合,最直接的入库数据。排重:在数据集中排除重复数据的过程。质量控制:在经过排重的数据集中排除 非法数据的过程。中国科学院“科学数据库及其应用系统”数据共享政策与规范课题地球科学数据共享材料3专业性检索方法:指专业科学研究所习惯的数据库的检索途径,包括检索关键字。专业性检索结果:指专业科学研究所习惯的数据库的检索结果,包
5、括可视结果和标准的数据文件(能够直接用于专业研究的标准数据文件) 。22 2 具体数据库的建库流程专业性检索方法 统一数据格式 数据库管理系统排重和质量控制专业性检索结果22 3 具体数据库建设目标 建成三个数据实体 源数据集 标准数据集 数据库 形成五个数据处理标准(专家鉴定) 数据格式标准 数据排重方法 数据质量控制方法 专业性数据检索方法 专业性数据检索结果 数据库的元数据建设 建立 B/S 结构的数据库检索手段22 4 数据库文档源数据集 标准数据集具体数据库中国科学院“科学数据库及其应用系统”数据共享政策与规范课题地球科学数据共享材料4海洋数据库建设规范实例:中国近海和西北太平洋温盐
6、声密数据库建设规范1前 言海洋信息是海洋科研、教学、工程设计、规划管理、环境测报及评价、海洋经济可持续发展和军事海洋环境条件保证等的主要依据,因此海洋科学数据的收集、处理和数据库建设具有重大的社会科学意义和紧迫的国家需求。众所周知,物理海洋学是海洋科学研究和应用的基础,以海水温度、盐度、密度等参数为核心的海洋水文数据则是气候和海洋环境生态研究、环境预报和评价、工程设计、减灾防灾及军事海洋环境条件保证等的主要背景信息。我国渤、黄、东、南海是世界大洋的一部分,其变化相互联系,并深受世界大洋的影响。要研究和预测中国近海和邻近大洋的海洋环境变化,必须进行大范围的长期、同步海洋观测。进行这样的海洋调查需
7、要巨大投资,任何一个单位、部门、甚至国家都不可能单靠自己的调查力量或依据未经系统整理的数据去开展大规模海洋研究工作。因此,海洋水文数据库建设不但有重要的使用价值,还具有昂贵的产出价值和显著的社会共有性,同时必须依据科学合理的建设规范来进行。国际海洋水文信息是海洋水文数据库的主要数据源。国际海洋水文数据种类繁多,时间序列长,空间分布广,信息量巨大,且积累速度快。这些数据分别来自全球几十个国家和地区;使用的观测仪器千差万别;资料的整理方法各不相同;导出参数的计算方法和公式各异;由实测层数据内插标准层的方法也各有长短;甚至采用的数据处理标准和编码,以及记录的资料的格式也仍在统一过程中。因此,规范化的
8、建库方法和标准化的建设流程,以及先进的排重技术和严谨的质控方法都是保证建设合理、适用的海洋信息管理系统的前提条件。本规范是在总结海洋数据库体系中有代表性的“中国近海和西北太平洋温盐声密数据库”的多年建库经验的基础上逐步发展完善起来的。本规范的创新及特色之处包括:通用的ODSF1 数据输入/输出格式、统一的数据排重程序、标准的数据质控方法、规范的数据库建设流程和全套国内外通用代码。它不仅指导了该数据库的建设,同时对海洋科学其他数据库的建设有借鉴作用。2中国近海和西北太平洋温盐声密数据库建设规范2 1 适应范围本规范适用于海洋物理(含温、盐、密、声、流、浪、潮) 、海洋气象和化学数据库建中国科学院
9、“科学数据库及其应用系统”数据共享政策与规范课题地球科学数据共享材料5设中的相关数据处理工作及相关数据库建设。2 2 引用标准国家标准:(1)GB12763.191 海洋调查规范海洋调查规范总则 (2)GB12763.791 海洋调查规范海洋调查资料处理(3)GB12763.391 海洋调查规范海洋气象观测(4)GB12763.491 海洋调查规范海洋化学要素观测(5)GB12763.591 海洋调查规范海洋声、光要素调查(6)GB12763.291 海洋调查规范海洋水文观测(7)GB12763.691 海洋调查规范海洋生物调查(8)GB31003102-82 量和单位(9)GB/T17839
10、-1999 警戒潮位核定方法(10)GB/T 1.11993 标准化工作导则(11)GB123271998 海道测量规范(12)GB17501-1998 海洋工程地形测量规范(13)GB/T14158-93 区域水文地质工程、地质环境、地质综合勘察规范(比例尺1:50000)(14)GB/T 177981999 地球空间数据交换格式 (15)GB 1240990 地理格网 (16)GB/T GB2808-81 全数字式日期表示法 GB/T 12763.1-2007 海洋调查规范 第 1 部分:总则GB/T 12763.2-2007 海洋调查规范 第 2 部分: 海洋水文观测GB/T 12763
11、.3-2007 海洋调查规范 第 3 部分: 海洋气象观测GB/T 12763.4-2007 海洋调查规范 第 4 部分: 海水化学要素调查GB/T 12763.5-2007 海洋调查规范 第 5 部分: 海洋声、光要素调查GB/T 12763.6-2007 海洋调查规范 第 6 部分: 海洋生物调查GB/T 12763.7-2007 海洋调查规范 第 7 部分: 海洋调查资料交换GB/T 12763.8-2007 海洋调查规范 第 8 部分: 海洋地质地球物理调查GB/T 12763.9-2007 海洋调查规范 第 9 部分:海洋生态调查指南GB/T 12763.10-2007 海洋调查规范
12、 第 10 部分:海底地形地貌调查GB/T 12763.11-2007 海洋调查规范 第 11 部分:海洋工程地质调查中国科学院“科学数据库及其应用系统”数据共享政策与规范课题地球科学数据共享材料62 3 技术术语定义/ 解释2.3.1 主子表结构和数据分组(1)主子表结构:通过关联字段使主、子表对应,以解决数据记录表头和观测层数据存、取的速度问题;主子表结构是数据记录“一对多”关系的具体体现。(2)数据分组:根据数据的某些特征将数据存储在不同的数据库对象中;检索时,只需要根据数据特征来定位数据,并快速得到查询结果。2.3.2 数据查询(1)网格数据查询:在显示网格数据信息时,直接读取和调用数
13、据统计信息的过程。数据统计信息是在进行数据维护时生成的,并存储到单独的数据库对象中。(2)鼠标点击查询:鼠标点击事件发生时,系统先通过中间数据定位查找结果,然后再将查询结果反馈给应用程序的全过程。中间数据是在数据维护过程中生成的,将基本数据中的某些信息进行提炼,并存储到单独的数据库对象中。2.3.3 数据定位确定数据所在位置(测站)的技术和过程,包括:(1) “极值”定位:依照网格数据的统计结果、根据统计网格编号和经、纬度值,查询检索到该网格中的极值存在于特定测站的技术和过程。(2) “站次 ID”定位:通过给定的经、纬度和站次 ID,检索和查阅该测站全部信息的过程。(3) “航迹图”定位:使
14、用航次信息绘制的航迹或断面图去诊断和定位“有疑问”资料的技术和过程。(4)模糊定位:由于鼠标点击定位时, “点击点”与“真实数据点”之间存在位置上的差异, “模糊定位”是帮助用户查找到距“点击点”处最近的数据点的技术。2.3.4 数据格式参数化把数据格式以“自定义参数的形式”设计在程序中,统计调用时,通过函数名称进行调度的技术。2.3.5 相关参数“函数化”将数据类型、观测参数、航次信息等先以函数的形式存放在数据表中,然后在程序运行中通过函数进行转换以便达到只改变列表,不改动程序,就能容易达到预期的变更目的之技术。2.3.6 数据库对象命名将参数直接写在数据表中,通过数据表的名称来判断和定位数
15、据,并缩小检索范围,以解决参数快速准确存取的技术。2.3.7 元数据(metadata)描述某类数据的属性、特征、时、空变化范围及其质量、精度等相关信息的集合。2.3.8 编码将信息分类的结果用一种易于被计算机和人识别的符号体系表示出来的过程,是人们统一认识、统一观点、相互交换信息的一种技术手段。编码的直接产物是代码。2.3.9 空间数据结构中国科学院“科学数据库及其应用系统”数据共享政策与规范课题地球科学数据共享材料7指空间数据在计算机内的组织和编码形式;它是一种适合于计算机存储、管理和处理空间数据的逻辑结构,是实体的空间排列和相互关系的抽象描述。2.3.10 图文资料扫描数字化通过扫描把以
16、纸介质为载体的图文资料由模拟信息转变为数字信息,并按一定的质量要求对电子文件进行加工和制作,然后存储在磁带、磁盘或光盘等介质上的过程。2.3.11 源数据集本系统所使用的数据来源之集合。2.3.12 基础(存档)数据集指来自于源数据集的数据,经过格式转换、代码统一、重复排除和质量控制后形成的实测层数据集合(相对“标准数据集”而言) 。值得一提的是:对于在标准层上发现的资料质量问题,必须到实测层存档数据集中寻找出错原因,再加以改正,然后重新计算标准层后入库。2.3.13 标准数据集根据实测层数据计算出的准备入库之标准层数据集合。标准层定义见下表2.3.14 排重排 除数据集中重 复数据的过程 和
17、技术。2.3.15 质量控 制剔 除数据集或数 据库中随机错误和“人为虚构”测站资料与数据的过程及技术之总称。2 4 编码、属性表命名规则2.4.1 编码规则本数据库中使用了包括网格编号、国家编码、资料源代码、资料类型、参数编码等在内的诸多编码,其编码规则均采用由美国国家海洋数据中心编制的世界海洋数据库(WOD)编码规则。为了方便数据循环调用和统计,字段编码采用代码制,即根据数据参数的特点,事先制订字段参数-代码表,然后依据参数-代码表进行数据库设计2.4.2 数据库命名规则序号 系统名称 标准层的层次1 营养盐数据子系统2 深层流数据子系统3 海峡通道数据子系统4 温盐密声数据子系统5 AR
18、GO 数据子系统6 统计产品信息子系统0,5,10,15,20,25,30,50,75,100,125,150,200,250,300,400,500,600,700,800,900,1000,1100,1200,1300,1400,1500,1750,2000,2500,3000,3500,4000,4500,5000,5500,6000,6500,7000,7500,8000,8500,9000中国科学院“科学数据库及其应用系统”数据共享政策与规范课题地球科学数据共享材料8数据库名称为 9 位编:如 ODMS_40022.4.3 数据表命名规则数据表名称为 12 位编:如 T_131201
19、11112.4.4 字段命名规则为了方便数据循环调用和统计,字段编码采用代码制,即根据数据参数的特点,事先制订字段参数-代码表,然后依据参数-代码表进行数据库设计2 5 元数据标准采用的元数据标准为WDCD 海洋学资料元数据标准 (见附件 1) 。2 6 文档格式本系统吸收国际各种数据格式的优点,自行研发和采用了“海洋资料共享格式(ODSF) ”,并改进为 ODSF1,作为输入、输出格式(见附录 2) 。2 7 数据库建设流程温-盐-密-声库的建设流程如下图所示。在做好数据收集提取、格式转换、编码统一、质量控制和排重工作的基础上,根据需求分析的结果,并灵活运用建库理论,通过数据管理子系统,将经
20、过校验的数据导入库内,建成数据库实体。XXXX _ XX XX子系统编码子系统版本系统名称X _ XXXX X XXXXX数据表参数 2数据表参数 1数据表类型中国科学院“科学数据库及其应用系统”数据共享政策与规范课题地球科学数据共享材料9择优人/机结合质控/ 审核程 纠错后重新计算标准层 序纠 错 库内分析诊断模块可使用程序纠错 可人工纠错资料经重 二新 不可纠错的测站资料次导 诊入 断数 处据 理库后内合并 排重 排序首次排重后的实测层数据文件生成重复文件 1生成实测层数据存档文件计算标准层数 据 校 验入库统计排重生成重复数据文件 2同步类比 剖面分析 航迹图诊断 盐密模检验 极值定位纠错处理数据库系列产品 实 体 库 ODV V5.8绘图软件之接口模 块提取元数据生成元数据库温盐密声数据库解压/可视化 代码统一 格式转换质控模块一 质控模块二 质控模块三 质控模块四温、盐超异常信息库资料收集/预处理