1、数据库系统概论笔记数据(Data) :是数据库中存储的基本对象数据的定义:描述事物的符号记录数据的种类:文字、图形、图象、声音等数据的特点:数据与其语义是不可分的数据库(Database,简称 DB):是长期储存在计算机内、有组织的、可共享的大量数据集合数据库的特征: 数据按一定的数据模型组织、描述和储存 可为各种用户共享 冗余度较小 数据独立性较高 易扩展数据库管理系统(Database Management System,简称 DBMS):是位于用户与操作系统之间的一层数据管理软件。DBMS 的用途:科学地组织和存储数据、高效地获取和维护数据DBMS 的主要功能:数据库的运行管理保证数据的
2、安全性、完整性、多用户对数据的并发使用发生故障后的系统恢复 数据库的建立和维护功能(实用程序)数据库数据批量装载数据库转储介质故障恢复数据库的重组织性能监视等数据库系统(Database System,简称 DBS)是指在计算机系统中引入数据库后的系统构成。 数据库系统的构成 由数据库、数据库管理系统(及其开发工具) 、应用系统、数据库管理员(和用户)构成。 数据管理 对数据进行分类、组织、编码、存储、检索和维护,是数据处理的中心问题数据模型这个工具来抽象、表示和处理现实世界中的数据和信息。 数据模型应满足三方面要求 能比较真实地模拟现实世界 容易为人所理解 便于在计算机上实现 数据模型分成两
3、个不同的层次(1) 概念模型 也称信息模型,它是按用户的观点来对数据和信息建模。 (2) 数据模型 主要包括网状模型、层次模型、关系模型等,它是按计算机系统的观点对数据建模 。 客观对象的抽象过程-两步抽象 现实世界中的客观对象抽象为概念模型; 把概念模型转换为某一 DBMS 支持的数据模型。 数据结构 对象类型的集合数据结构是对系统静态特性的描述 两类对象 与数据类型、内容、性质有关的对象 与数据之间联系有关的对象 数据操作 对数据库中各种对象(型)的实例(值)允许执行的操作及有关的操作规则 数据操作的类型 检索 更新(包括插入、删除、修改) 数据模型对操作的定义 操作的确切含义 操作符号
4、操作规则(如优先级) 实现操作的语言 数据操作是对系统动态特性的描述。 数据模型对约束条件的定义 反映和规定本数据模型必须遵守的基本的通用的完整性约束条件。提供定义完整性约束条件的机制,以反映具体应用所涉及的数据必须遵守的特定的语义约束条件。信息世界中的基本概念(1) 实体(Entity) 客观存在并可相互区别的事物称为实体。(2) 属性(Attribute) 实体所具有的某一特性称为属性。一个实体可以由若干个属性来刻画。 (3) 码(Key) 唯一标识实体的属性集称为码。 (4) 域(Domain) 属性的取值范围称为该属性的域。 (5) 实体型(Entity Type ) 用实体名及其属性
5、名集合来抽象和刻画同类实体称为实体型(6) 实体集(Entity Set) 同型实体的集合称为实体集联系(Relationship ) 现实世界中事物内部以及事物之间的联系在信息世界中反映为实体内部的联系和实体之间的联系实体型间联系 两个实体型 一对一联系(1:1) 三个实体型 一对多联系(1:n) 一个实体型 多对多联系(m:n ) 两个实体型间的联系 一对一联系 如果对于实体集 A 中的每一个实体,实体集 B 中至多有一个实体与之联系,反之亦然,则称实体集 A 与实体集 B 具有一对一联系。记为 1:1。 一对多联系 如果对于实体集 A 中的每一个实体,实体集 B 中有 n 个实体(n0)
6、与之联系,反之,对于实体集 B 中的每一个实体,实体集 A 中至多只有一个实体与之联系,则称实体集 A 与实体集 B 有一对多联系记为 1:n 多对多联系(m:n) 如果对于实体集 A 中的每一个实体,实体集 B 中有 n 个实体(n0)与之联系,反之,对于实体集 B 中的每一个实体,实体集 A 中也有 m 个实体(m 0)与之联系,则称实体集 A 与实体 B 具有多对多联系。记为 m:n概念模型的表示方法 实体联系方法(E-R 方法) 用 E-R 图来描述现实世界的概念模型 E-R 方法也称为 E-R 模型常用数据模型 非关系模型 层次模型(Hierarchical Model) 网状模型(
7、Network Model ) 数据结构:以基本层次联系为基本单位基本层次联系:两个记录以及它们之间的一对多(包括一对一)的联系 关系模型(Relational Model) 数据结构:表 面向对象模型(Object Oriented Model) 数据结构:对象 层次模型满足下面两个条件的基本层次联系的集合为层次模型。1. 有且只有一个结点没有双亲结点,这个结点称为根结点2. 根以外的其它结点有且只有一个双亲结点 表示方法实体型:用记录类型描述。每个结点表示一个记录类型。属性:用字段描述。每个记录类型可包含若干个字段。联系:用结点之间的连线表示记录(类)型之间的一对多的联系网状数据模型的数据
8、结构 网状模型满足下面两个条件的基本层次联系的集合为网状模型。1. 允许一个以上的结点无双亲;2. 一个结点可以有多于一个的双亲。 表示方法(与层次数据模型相同)实体型:用记录类型描述。每个结点表示一个记录类型。属性:用字段描述。每个记录类型可包含若干个字段。联系:用结点之间的连线表示记录(类)型之间的一对多的父子联系。关系模型的基本概念 关系(Relation )一个关系对应通常说的一张表。 元组(Tuple)表中的一行即为一个元组。 属性(Attribute)表中的一列即为一个属性,给每一个属性起一个名称即属性名。 关系必须是规范化的,满足一定的规范条件最基本的规范条件:关系的每一个分量必
9、须是一个不可分的数据项。 查询、插入、删除、更新 数据操作是集合操作,操作对象和操作结果都是关系,即若干元组的集合 存取路径对用户隐蔽,用户只要指出“干什么”,不必详细说明“怎么干”关系模型的完整性约束 实体完整性 参照完整性 用户定义的完整性关系数据模型的存储结构 表以文件形式存储 有的 DBMS 一个表对应一个操作系统文件 有的 DBMS 自己设计文件结构关系模型的优缺点 优点 建立在严格的数学概念的基础上 概念单一。数据结构简单、清晰,用户易懂易用 实体和各类联系都用关系来表示。 对数据的检索结果也是关系。 关系模型的存取路径对用户透明 具有更高的数据独立性,更好的安全保密性 简化了程序
10、员的工作和数据库开发建立的工作 缺点存取路径对用户透明导致查询效率往往不如非关系数据模型为提高性能,必须对用户的查询请求进行优化增加了开发数据库管理系统的难度数据库系统外部的体系结构 单用户结构 主从式结构 分布式结构 客户/服务器结构 浏览器/应用服务器/数据库服务器结构分布式结构的数据库系统 数据库中的数据在逻辑上是一个整体,但物理地分布在计算机网络的不同结点上。 网络中的每个结点都可以独立处理本地数据库中的数据,执行局部应用 同时也可以同时存取和处理多个异地数据库中的数据,执行全局应用 优点 适应了地理上分散的公司、团体和组织对于数据库应用的需求。 缺点 数据的分布存放给数据的处理、管理
11、与维护带来困难。 当用户需要经常访问远程数据时,系统效率会明显地受到网络传输的制约数据库管理员(DBA) 决定数据库中的信息内容和结构 决定数据库的存储结构和存取策略 定义数据的安全性要求和完整性约束条件关系数据库 关系模型的组成 关系数据结构 关系操作集合 关系完整性约束 1) 常用的关系操作 查询 选择、投影、连接、除、并、交、差 数据更新 插入、删除、修改 查询的表达能力是其中最主要的部分 2) 关系操作的特点 集合操作方式,即操作的对象和结果都是集合。 非关系数据模型的数据操作方式:一次一记录 文件系统的数据操作方式 3) 关系数据语言的种类 关系代数语言 用对关系的运算来表达查询要求
12、 4) 关系数据语言的特点 关系语言是一种高度非过程化的语言 存取路径的选择由 DBMS 的优化机制来完成 用户不必用循环结构就可以完成数据操作 能够嵌入高级语言中使用 关系代数、元组关系演算和域关系演算三种语言在表达能力上完全等价关系 域(Domain) 2. 笛卡尔积(Cartesian Product) 3. 关系(Relation ) 域是一组具有相同数据类型的值的集合。例: 整数 实数 介于某个取值范围的整数 长度指定长度的字符串集合 男, 女 介于某个取值范围的日期 笛卡尔积给定一组域 D1,D2,Dn,这些域中可以有相同的。D1,D2,Dn 的笛卡尔积为:D1D2Dn(d1,d2
13、,dn)di Di,i 1,2,n 所有域的所有取值的一个组合 不能重复 2) 元组(Tuple) 笛卡尔积中每一个元素(d1,d2,dn)叫作一个 n 元组(n-tuple)或简称元组。 3) 分量(Component) 笛卡尔积元素(d1,d2,dn)中的每一个值 di 叫作一个分量。 4) 基数(Cardinal number) 若 Di(i1,2,n)为有限集,其基数为 mi(i 1,2,n) ,则D1D2Dn 的基数 M 为: 5)笛卡尔积的表示方法 笛卡尔积可表示为一个二维表。表中的每行对应一个元组,表中的每列对应一个域。关系(Relation )1) 关系D1D2Dn 的子集叫作
14、在域 D1,D 2,Dn 上的关系,表示为R(D1, D2,Dn)R: 关系名n: 关系的目或度(Degree)2) 元组关系中的每个元素是关系中的元组,通常用 t 表示。3) 单元关系与二元关系当 n=1 时,称该关系为单元关系(Unary relation) 。当 n=2 时,称该关系为二元关系(Binary relation)4) 关系的表示关系也是一个二维表,表的每行对应一个元组,表的每列对应一个域。5) 属性关系中不同列可以对应相同的域,为了加以区分,必须对每列起一个名字,称为属性(Attribute) 。n 目关系必有 n 个属性。6) 码候选码(Candidate key )若关
15、系中的某一属性组的值能唯一地标识一个元组,则称该属性组为候选码在最简单的情况下,候选码只包含一个属性。称为全码(All-key )在最极端的情况下,关系模式的所有属性组是这个关系模式的候选码,称为全码(All-key)主码若一个关系有多个候选码,则选定其中一个为主码(Primary key )主码的诸属性称为主属性(Prime attribute ) 。不包含在任何侯选码中的属性称为非码属性(Non-key attribute) 7) 三类关系基本关系(基本表或基表)实际存在的表,是实际存储数据的逻辑表示查询表查询结果对应的表视图表由基本表或其他视图表导出的表,是虚表,不对应实际存储的数据基本
16、关系的性质 列是同质的(Homogeneous)每一列中的分量是同一类型的数据,来自同一个域 不同的列可出自同一个域其中的每一列称为一个属性不同的属性要给予不同的属性名 列的顺序无所谓列的次序可以任意交换遵循这一性质的数据库产品(如 ORACLE),增加新属性时,永远是插至最后一列但也有许多关系数据库产品没有遵循这一性质,例如 FoxPro 仍然区分了属性顺序 任意两个元组不能完全相同由笛卡尔积的性质决定但许多关系数据库产品没有遵循这一性质。例如:Oracle,FoxPro 等都允许关系表中存在两个完全相同的元组,除非用户特别定义了相应的约束条件。 行的顺序无所谓行的次序可以任意交换遵循这一性
17、质的数据库产品(如 ORACLE),插入一个元组时永远插至最后一行但也有许多关系数据库产品没有遵循这一性质,例如 FoxPro 仍然区分了元组的顺序 分量必须取原子值每一个分量都必须是不可分的数据项。这是规范条件中最基本的一条关系模式(Relation Schema)是型关系是值关系模式是对关系的描述元组集合的结构属性构成属性来自的域 属性与域之间的映象关系元组语义以及完整性约束条件属性间的数据依赖关系集合 定义关系模式关系模式可以形式化地表示为:R(U,D,dom,F)R 关系名U 组成该关系的属性名集合D 属性组 U 中属性所来自的域dom 属性向域的映象集合F 属性间的数据依赖关系集合关
18、系模式通常可以简记为R (U) 或 R (A1, A2,An)R 关系名A1,A2,An 属性名注:域名及属性向域的映象常常直接说明为属性的类型、长度关系模式对关系的描述静态的、稳定的关系关系模式在某一时刻的状态或内容动态的、随时间不断变化的关系模式和关系往往统称为关系通过上下文加以区别1. 关系数据库在一个给定的应用领域中,所有实体及实体之间联系的关系的集合构成一个关系数据库。2. 关系数据库的型与值关系数据库也有型和值之分关系数据库的型称为关系数据库模式,是对关系数据库的描述若干域的定义在这些域上定义的若干关系模式关系数据库的值是这些关系模式在某一时刻对应的关系的集合,通常简称为关系数据库
19、3 关系的完整性关系模型的完整性规则是对关系的某种约束条件。关系模型中三类完整性约束:实体完整性参照完整性用户定义的完整性实体完整性和参照完整性是关系模型必须满足的完整性约束条件,被称作是关系的两个不变性,应该由关系系统自动支持。实体完整性实体完整性规则(Entity Integrity)若属性 A 是基本关系 R 的主属性,则属性A 不能取空值关系模型必须遵守实体完整性规则的原因(1) 实体完整性规则是针对基本关系而言的。一个基本表通常对应现实世界的一个实体集或多对多联系。(2) 现实世界中的实体和实体间的联系都是可区分的,即它们具有某种唯一性标识。(3) 相应地,关系模型中以主码作为唯一性
20、标识。关系模型必须遵守实体完整性规则的原因(续)(4) 主码中的属性即主属性不能取空值。空值就是“不知道” 或“ 无意义 ”的值。主属性取空值,就说明存在某个不可标识的实体,即存在不可区分的实体,这与第(2)点相矛盾,因此这个规则称为实体完整性。注意实体完整性规则规定基本关系的所有主属性都不能取空值参照完整性1. 关系间的引用2. 外码3. 参照完整性规则1. 关系间的引用在关系模型中实体及实体间的联系都是用关系来描述的,因此可能存在着关系与关系间的引用。2外码(Foreign Key)设 F 是基本关系 R 的一个或一组属性,但不是关系 R 的码。如果 F 与基本关系 S 的主码Ks 相对应
21、,则称 F 是基本关系 R 的外码基本关系 R 称 为参照关系(ReferencingRelation)基本关系 S 称 为被参照关系(ReferencedRelation)或目标关系( Target Relation) 。说明 关系 R 和 S 不一定是不同的关系 目标关系 S 的主码 Ks 和参照关系的外码 F 必须定义在同一个(或一组)域上 外码并不一定要与相应的主码同名当外码与相应的主码属于不同关系时,往往 取相同的名字,以便于识别3. 参照完整性规则若属性(或属性组)F 是基本关系 R 的外码它与基本关系 S 的主码 Ks 相对应(基本关系 R 和 S 不一定是不同的关系) ,则对于 R 中每个元组在 F 上的值必须为: 或者取空值(F 的每个属性值均为空值) 或者等于 S 中某个元组的主码值。2.3.3 用户定义的完整性 用户定义的完整性是针对某一具体关系数据库的约束条件,反映某一具体应用所涉及的数据必须满足的语义要求。 关系模型应提供定义和检验这类完整性的机制,以便用统一的系统的方法处理它们,而不要由应用程序承担这一功能。Operation 运算,操作Operator 算子Operand 操作数1.关系代数一种抽象的查询语言用对关系的运算来表达查询2关系代数运算的三个要素运算对象:关系运算结果:关系运算符:四类关系代数运算符