1、1数据库系统概述一、有关概念四个基本概念 1.数据(Data):数据库中存储的基本对象 2.数据库的定义 :数据库(Database, 简称 DB)是长期储存在计算机内、有组织的、可共享的大量数据集合 3.数据库管理系统(简称 DBMS):位于用户与操作系统之间的一层数据管理软件(系统软件) 。 用途:科学地组织和存储数据 ;高效地获取和维护数据 主要功能: 1.数据定义功能 2.数据操作功能 3.数据库的事务管理和运行管理功能 4.数据库的建立和维护功能 5.数据的组织,存储和管理功能 6.其他功能4.数据库系统(Database System,简称 DBS):指在计算机系统中引入数据库后的
2、系统桌面 DBMS Access ,VFP 客户机/服务器型 DBMS SQL Server , Oracle, MySQL , DB25数据库系统(DBS)的构成数据库 数据库管理系统(及其开发工具)应用系统 数据库管理员(DBA)和用户二、数据管理技术的发展1数据管理的三个阶段人工管理阶段 文件系统阶段 数据库系统阶段2 数据库系统管理数据的特点如下 1 数据共享性高、冗余少; 2 数据结构化;3 数据独立性高; 4 由 DBMS 进行统一的数据控制功能 3.数据库管理系统的主要功能 1 数据定义功能 2 数据操作功能 3 数据库的事务管理和运行管理功能 4 数据库的建立和维护功能 5 数
3、据的组织,存储和管理功能 6 其他功能4.DBMS 可以对数据提供哪些控制功能? 数据的安全性(Security)保护:保护数据,以防止不合法的使用造成的数据的泄密和破坏。 数据的完整性(Integrity )检查:将数据控制在有效的范围内,或保证数据之间满足一定的关系。 并发(Concurrency)控制:对多用户的并发操作加以控制和协调,防止相互干扰而得到错误的结果。 数据库恢复(Recovery) :将数据库从错误状态恢复到某一已知的正确状态。2数据模型 用来抽象、表示和处理现实世界中的数据和信息的工具。通俗地讲数据模型就是现实世界数据的模拟。 数据模型三要素: 数据结构,数据操作,数据
4、的完整性约束。 数据模型分为概念模型、逻辑模型和物理模型 3 个方面。数据结构:是所研究的对象类型的集合,它是刻画一个数据模型性质最重要的方面;数据结构是对系统静态特性的描述 数据操作:对数据库中数据允许执行的操作及有关的操作规则;对数据库中数据的操作主要有查询和更改(包括插入、修改、删除);数据操作是对系统动态特性的描述数据的约束条件:数据及其联系应该满足的条件限制概念模型一、模型的三个世界1现实世界2信息世界:即根据需求分析画概念模型(即 E-R 图) ,E-R 图与 DBMS 无关。3机器世界:将 E-R 图转换为某一种数据模型,数据模型与 DBMS 相关。注意:信息世界又称概念模型,机
5、器世界又称数据模型二、实体及属性1)关系:一个关系对应通常说的一个表 2)元组:表中的每一行数据称作一个元组 3)属性:表中的每一列,列可以命名称属性名 4)码:也译为码键,表中的某个属性或属性组,它可以是唯一的确定一个元组。域:属性的取值范围 6)分量:元组中的一个属性值 7)关系模式:对关系的描述,表示为:关系名(属性 1,属性 2 属性 n) 注:关系模型要求关系必须是规范化的,满足最一定的规范条件,关系的每一个分量必须是一个不可分割的数据项。实体型:即二维表的结构例 student(no,name,sex,age,dept)5实体集:即整个二维表三、实体间的联系:1两实体集间实体之间的
6、联系1:1 联系 1:n 联系 m:n 联系2同一实体集内实体之间的联系1:1 联系 1:n 联系 m:n 联系四、概念模型(常用 E-R 图表示)实体型: 属性: 联系:说明: E-R 图作为用户与开发人员的中间语言。3 E-R 图可以等价转换为层次、网状、关系模型。举例:学校有若干个系,每个系有若干班级和教研室,每个教研室有若干教员,其中有的教授和副教授每人各带若干研究生。每个班有若干学生,每个学生选修若干课程,每门课程有若干学生选修。用 E-R 图画出概念模型。数据模型一、层次模型:用树型结构表示实体之间的联系。 每个结点代表一个实体型。 只能直接处理一对多(含一对一)的实体关系。 查找
7、层次数据库中的记录,速度较慢。二、网状模型:用图结构表示实体之间的联系。 每个结点代表一个实体型。 可以处理多对多的实体关系。 查找网状数据库中的记录,速度最快。三、关系模型:用二维表表示实体之间的联系。1重要术语:关系:一个关系就是一个二维表;元组:二维表的一行,即实体;关系模式:在实体型的基础上,注明主码。关系模型:指一个数据库中全部二维表结构的集合。2特点: 关系模型是建立在严格的数学理论的基础上的; 关系模型的存取路径对用户透明; 查找关系数据库中的记录,速度最慢。关系模型的数据完整性约束 实体完整性 参照完整性 用户定义的完整性关系完整性规则 实体完整性规则 主码的属性值不能为空值。
8、因为如果出现空值,那么主码就无法保证元组的唯一性。 参照完整性规则 在关系模式中实体以及实体之间的联系是用关系来描述的,所以自然存在着关系与关系之间的联系,而关系之间的联系是靠公共属性实现的,如果这个公共属性是一个关系 R1 的主码,那么在另一个与它有联系的关系 R2 中就称为外码。参照完整4性规则告诉我们外码的取值只有两种可能,要么是空值,要么等于 R1 中某个元组的主码值。 用户定义完整性 反映某一具体应用所涉及的数据必须满足的语义要求。小结:数据有三种类型,DBMS 就有三种类型,DB 亦有三种类型。数据库系统结构一、数据库系统的体系结构 单机结构:DBMS、数据库、开发工具、应用系统安
9、装在一台计算机上。 C/S 结构:局域网结构客户机:装开发工具、应用系统 服务器:装 DBMS、数据库 B/S 结构: Internet 结构服务器:装 DBMS、数据库、开发工具、应用系统 客户机:装 IE 即可三、 数据库系统的模式结构1三级模式 模式:是数据库中全体数据的逻辑结构和特征的描述。 模式只涉及数据库的结构; 模式既不涉及应用程序,又不涉及数据库结构的存储; 外模式:是模式的一个子集,是与某一个应用程序有关的逻辑表示。特点:一个应用程序只能使用一个外模式,但同一个外模式可为多个应用程序使用。 内模式(一个数据库只有一个内模式 ):描述数据库结构的存储 ,但不涉及物理记录。2两级
10、映象 外模式/模式映象:定义了外模型与模式之间的对应关系(可以有多个),保证数据库的逻辑独立性; 模式/内模式映象:定义了模式与存储结构之间的对应关系(唯一的),保证数据库的物理独立性;3两级映象的意义通过二级映像,可以使数据库有较高的数据独立性,也可以是逻辑结构和物理结构独立性,也可以使逻辑结构和物理结构得以分离,换来了用户使用数据库的方便。 使数据库与应用系统完全分开,数据库改变时,应用系统不必改变。 数据的存取完全由 DBMS 管理,用户不必考虑存取路径。关系数据库语言分为关系代数、关系演算和结构化查询语言三大类。关系的 5 种基本操作是选择、投影、并、差、笛卡尔积。关系数据库的特点(关
11、系数据模型的特点) 优点 1)建立在严格的数学概念基础上 2) 概念单一,数据结构简单清晰,易懂易用 3) 关系模型为存储路径对用户透明,从而具有更好的数据独立性,更好的安全保密性,也简化了程序员的工作和数据库开发建立的工作 缺点:存储路径对用户透明导致查询效率往往不如非关系数据模型5三级模式优点 是对数据的三个抽象级别,它把数据的具体组织留给 DBMS 管理,使用户能逻辑的抽象的处理数据,而不必关心数据在计算机中的表示和存储 为了能在内部实现这 3 个抽象层次的联系和转换,数据库系统在这三级模式之间提供了二层映像,外/模和模/ 内保证了数据库系统中的数据能有较高的逻辑独立性和物理独立性数据库
12、管理系统数据库管理员有三个主要工作 ) 数据库设计 )数据库维护 )改善系统性能,提高系统效率1 DBMS 的功能:负责对数据库进行统一的管理与控制。 数据定义:即定义数据库中各对象的结构 数据操纵:包括对数据库进行查询、插入、删除、修改等操作。 数据控制:包括安全性控制、完整性控制、并发控制、数据库恢复。2DBMS 的组成:DDL 语言DML 语言DCL 语言实用程序注意: SQL 集 DDL,DML,DCL 功能于一体; 所有应用程序通过 SQL 语句才能访问数据库一、 基本概念1码:能唯一标识元组的属性集。2候选码:一个属性集既能唯一标识元组,且又不含有多余属性,一个关系模式可以有多个候
13、选码。3主码:任选候选码中的一个。4主属性:主码中包含的各个属性。5非主属性:不包含在主码中的各个属性。6外码:设 F 是关系 R 的一个属性,不是 R 的主码,但却是另一个关系 S 的主码,则称 F 是关系 R 的外码。 阐述 DBA 的职责。 决定数据库的中的信息内容和结构 决定数据库的存储结构和存取策略 决定数据的安全性要求和完整性约束条件 监控数据库的使用和运行 数据库的改进和重组重构 定期对数据库进行重组织,以提高系统的性能 日志文件需要登记的内容包括哪些? 各个事物的开始(BEGIN TRANSACTION)标记; 各个事物的结束(COMMIT 或 ROLLBACK)标记; 各个事
14、物的所有更新操作。6 日志文件的作用有哪些? 事物故障恢复和系统故障恢复必须用日志文件; 在动态转储方式中必须建立日志文件,后备副本和日志文件结合起来才能有效地恢复数据库; 在静态转储方式中,也可以建立日志文件。关系模式的规范化一个好的关系模式应满足: 冗余应尽可能少 应尽可能避免插入、删除异常 消去关系中不合适的属性依赖关系。二、范式 什么叫范式? 指一个关系的非主属性函数依赖于主码的程度。 什么叫关系规范化? 指一个关系从低级范式向高级范式的转换过程。 NFBCNF54321 应用:关系规范化理论应用在逻辑结构设计阶段。三、关系模式的规范化1第一范式(1NF) 定义:若关系 R 的所有属性
15、不能再分,则 R1NF 存在问题 原因:存在非主属性对主码的部分依赖。 解决办法:消除非主属性对主码的部分依赖,将关系 R 一分为二,将满足完全依赖的属性集组成一个关系;将满足部分依赖的属性集组成另一个关系;2第二范式(2NF) 定义:若关系 R1NF,且它的每个非主属性都完全依赖于主码,则称 R2NF。 存在问题: 冗余大: R1 必要冗余,R2 冗余可以修改。 修改麻烦 插入异常:如新来的教师没有上课,则该教师的信息就没办法插入 R2 表中。 删除异常:若某位教师只授一门课,当该门课不开时,该教师的信息亦被删除。 原因:存在非主属性对主码的传递依赖。 传递依赖必须有两个非主属性 解决办法:
16、将 R2 一分为二3第三范式(3NF) 定义:若关系 R2NF,且它的每个非主属性都不传递依赖于主码,则称 R3NF。 规范化过程非规范关系使每个属性都不能再分1NF 消去非主属性对主码的部分依赖2NF消去非主属性对主码的传递依赖3NF74结论 若 R1NF,且主码只含一个属性,则 R 一定为 2NF。 若 R2NF,且只有 01 个非主属性,则 R 一定为 3NF。 3NF 一般控制了数据冗余,一般避免了操作异常。 范式并非越高越好,适可而止。数据库设计数据库设计必须遵循结构设计和行为设计相结合的原则。一、数据库设计的步骤 需求分析:了解分析用户的需要、要求( 信息要求、处理要求、安全性与完
17、整性要求)。 概念结构设计:根据需求分析的结果画概念模型(即 E-R 图) 。 逻辑结构设计:将 E-R 图转换为某一种数据模型,并优化。 物理结构设计 数据库实施 数据库运行与恢复数据字典主要包括数据项、数据结构、数据流、数据存储和处理过程五个部分。三种常用抽象方法是分类、聚集和概括。局部 E-R 图之间的冲突主要表现在属性冲突、命名冲突和结构冲突三个方面。数据库常用的存取方法包括索引方法、聚簇方法和 HASH 方法三种。确定数据存放位置和存储结构需要考虑的因素主要有:存取时间、存储空间利用率和维护代价等。概念结构设计一、局部 E-R 图设计 1确定局部范围通常把系统涉及的各个部门或各个主要
18、功能作为局部。2确定实体与属性 属性是不能再分的数据项; 联系只发生在两实体之间; 原则上,能够作为属性,就不要作为实体。二、合并成总体 E-R 图1消除各局部 E-R 图的冲突问题。2按公共实体名合并,生成初步 E-R 图。3消除冗余的属性和冗余的联系,生成总体 E-R 图。逻辑结构设计一、联系的属性和主码(1)联系的属性:必须包含相关联的各实体型的主码。(2)联系的主码1:1 联系:可以是相关联的任一实体型的主码。1:n 联系:必须是 n 方实体型的主码。m:n 联系:必须是相关联的各实体型的主码之和。8二、E-R 图向关系模型的转换(1)把每个实体型转换为一个关系模式。(2)1:1 联系
19、:可以消化到相关联的任一实体型对应的关系模式中。(3)1:n 联系:可以消化到 n 方实体名对应的关系模式中。(4)m:n 联系:必须转换为一个关系模式,并且不能消化。(5)多元联系:不能消化物理结构设计与数据库实施1物理结构设计在逻辑设计的基础上,为每个关系模式选择合适的存储结构与存储方式。选择存储结构:即决定每个表的记录顺序。选择存取方式:即决定为哪些属性建立非聚集索引,以便加快查找速度。一般把经常查询的属性名指定为非聚集索引。2数据库实施主要工作:定义数据库结构;组织数据入库;编写应用程序;数据库试运行;创建和使用数据库一、数据库文件1一个数据库至少有一个主要数据文件和一个事务日志文件。
20、如果数据库很大,可以使用一个主要数据文件、多个次要数据文件和多个事务日志文件。主数据文件(.mdf )次数据文件(.ndf ) 事务日志文件(.ldf ) :用来记录对数据库对象的所有更新操作。2系统数据库Master 数据库、Model 数据库二、创建数据库1打开数据库:Use 数据库名2删除数据库:Drop database 数据库名三、修改数据库1分离和附加数据库2备份和还原数据库3数据的导入和导出DBMS 对数据库的安全保护功能是通过四方面实现的,即安全性控制、完整性控制、并发性控制和数据库恢复。用于存放数据库的各类对象9完整性控制 数据库的完整性是指保护数据库中数据的正确性、有效性和
21、相容性,防止错误的数据进入数据库造成无效操作。 关系模型的完整性包括实体完整性,参照完整性和用户定义完整性。 对于违反实体完整性和用户定义完整性规则的操作一般都是采用拒绝执行的方式进行处理。 完整性约束条件的作用对象可以是表、元组和列。事务处理故障种类事务 内部的故障、系统故障、介质故障恢复的实现技术 (1) 数据转储:转储状态、转储方式 (2)日志:基本格式和内容、日志的作用、登记日志文件 并发控制 1. 问题: 丢失修改、不可重复读、读“脏”数据2. 封锁 共享锁、排它锁 1什么叫事务?事务是用户定义的一组操作序列。 事务是并发控制的基本单位。 一个事务包含的诸操作要么都执行,要么都不执行
22、。1 事务的属性原子性:事务是数据库的逻辑工作单位,一个事务的诸操作要么都做,要么都不做。一致性:指事务执行前后必须保持数据库的逻辑一致性。一致性和原子性是密切相关的。隔离性:指并发执行的各个事务之间不能互相干扰。持续性:又称为持久性或永久性,是指一个事务的操作提交后,其对数据库的改变是永久的,属于物理的而非逻辑的。数据的锁定一、并发操作与数据不一致性1数据不一致性包括三类丢失修改:指事务 1 与事务 2 从数据库中读入同一数据并修改,事务 2 的提交结果破坏事务 1 提交的结果,导致事务 1 的修改被丢失。不可重复读:指事务 1 读取数据后,事务 2 执行更新操作,使事务 1 无法再现前一次
23、读取结果。读脏数据:指事务 1 修改某一数据后,事务 2 读取该数据,事务 1 由于某种原因被撤销,这时数据又恢复到原值,事务 2 读到的数据与数据库中的数据不一致,称为“脏”数据。产生“幽灵”数据:指当事务 T1 按一定条件从数据库中读取了某些数据记录后,事务T2 删除了其中的部分记录,或者在其中添加了部分记录,则当 T1 再次按相同条件读取数据时,发现其中莫名其妙地少了(对删除)或多了(对插入)一些记录。这样的数据对 T1来说就是“幽灵”数据或称“幻影”数据。102产生数据不一致性的原因并发操作破坏了事务的隔离性。二、并发控制的目标、方法1目标:确保 DB 中的数据一致性。2并发事务正确性
24、的原则几个事务的并发执行是正确的,当且仅当其结果与任何一个串行执行的结果相同。3. 并发控制的方法DBMS 一般采用“封锁”技术,保证并发操作的可串行化。一、封锁(Locking)1 什么叫封锁?SQL Server 自动强制封锁,并且会将封锁粒度控制在合适的级别,用户不必考虑封锁问题。2 封锁类型排它锁(X 锁):事务 T 对数据 A 加 X 锁,其它事务不能再对 A 加锁,即其它事务不能读取和修改 A。共享锁(S 锁):事务 T 对数据 A 加 S 锁,其它事务只能再对 A 加 S 锁,即其它事务只能读 A,不能修改 A。3 封锁粒度封锁对象可以是属性列、元组、关系、整个数据库。封锁对象的
25、大小称为封锁粒度。封锁粒度越小,并发度越高,但并发控制的开销越大。4 封锁协议 事务 T 在修改数据 A 之前,必须对其加 X 锁,直到事务结束才释放。 事务 T 在读取数据 A 之前,必须对其加 S 锁,直到事务结束才释放。遵循封锁协议,可以解决三种数据不一致性问题:丢失修改问题 不可重复读读“脏”数据四、死锁和活锁封锁技术可以解决并发操作的不一致性问题,但也带来新的问题,即死锁和活锁。1 死锁: 定义:两个事务已经各自锁定一个数据,但是又要访问被对方锁定的数据,造成了循环等待,称为死锁。 避免死锁的方法:顺序封锁法:若规定封锁顺序为 A,B,则 T1,T2 只能先封锁 A,再封锁 B。2活锁: 定义:若多个事务请求封锁同一个数据时,其中的某个事务总处于等待状态,则称为活锁。 避免活锁的方法:先来先服务