1、 1为什么要研究关系规范化理论?答 关系数据库的设计直接影响着应用系统的开发、维护及其运行效率。一个不好的关系模式会导致插入异常、删除异常、数据冗余(修改异常)等问题。为此,人们提出了关系数据库规范化理论。它依据函数依赖,采用模式分解的方法,将一个低一级范式的关系模式转换为若干个高一级范式的关系模式的集合,从而消除各种异常,把不好的关系数据库模式转化为好的关系数据库模式。2理解并写出下列术语的含义。函数依赖,平凡函数依赖,非平凡函数依赖, 1NF 范式,BCNF 范式,3NF 范式,规范化,无损连接性,依赖保持性。答:函数依赖:设关系模式 R(A1,A 2,A n),X,Y 是 R 的两个属性
2、集合,XR(A1,A 2,A n)及 YR(A1,A 2,A n),RX,Y是关系只在属性 XUY 上的投影,当任何时刻 RX,Y中任意两个元组中的 X 属性值相同时,则它们的Y 属性值也相同那么称 X 函数决定 Y,或 Y 函数依赖于 X,记作 XY。 平凡函数依赖与非平凡函数依赖:当属性集合 Y 是属性集合 X 的子集时,则存在函数依赖 XY。这说明一组属性函数决定它的所有子集。这种类型的函数依赖称为平凡函数依赖。如果 XY 且 YX,则称 XY 是非平凡的函数依赖。1NF 范式:定义;如果关系模式的所有属性的值域中每一个值都是不可再分解的值,则称只属于第一范式(1NF)。lNF 是关系模
3、式的最低要求。这一限制是在关系的基本性质中提出的,每个关系模式都必须遵守。BCNF 范式:定义:若关系模式 RlNF 且每个非主属性都完全函数依赖于R 的每个键,关系模式及属于第二范式(只 E2NF)。3NF 范式:定义: 规范化:把一个低一级范式的关系模式转换为若干个高一级范式的关系模式的集合的过程叫做规范化。范式:规范化理论认为,一个关系数据库中所有的关系,都应满足一定的要求,它把关系应满足的规范要求分成几级,并为每一级定义了相应的约束条件集,称为范式。 无损连接性:设有关系模 R(U)中存在函数依赖集 F,R 被分解为 R1(U1),R k(Uk),如果这些关系模式的自然连接与原关系模式
4、 R 完全相等,则称该分解具有无损连接性。 依赖保持性:设有关系模式 R(U)中存在函数依赖集 F,R 被分解加R1(U1),R k (Uk),且 Ri (Ui)(1ik)所包含的函数依赖集为 Fi,如果 1kFi与 F等价,则称该分解具有依赖保持性。3什么叫关系模式分解?为什么要有关系模式分解?关系模式分解要遵守什么规则?答:关系模式分解指采用投影的方式将一个关系模式 R(U)分解为 R1 (U1),R k(Uk),其中不存在 Ui Uj(1i,jk),并且 U1U 2U kU。关系模式分解是规范化的主要手段,通过关系模式分解可以把一个低一级范式的关系模式分解为若干个高一级范式的关系模式的集
5、合。关系模式分解应当具有无损连接性和依赖保持性。4要建立关于系、学生、班级、研究会等信息的一个关系数据库规定:一个系有若干个专业每个专业每年只招一个班级,每个班级有若干名学生,一个系的学生住在同一个宿舍区。每个学生可以参加若干个研究会每个研究会有若干名学生。描述学生的属性有:学号、姓名、出生年月、系号、班号、宿舍区。描述班组的属性有:班号、专业名、系号、人数、入校年份。描述系的属性有:系号、系名、系办公地点、人数。描述研究会的属性有:研究会名、成立年份、地点、人数。学生参加某研究会,有一个入会年份。试给出上述数据库的关系模式;写出每个关系的最小函数依赖集(基本的函数依赖,不是导出的函数依赖);
6、指出关系的候选键、外键、有没有全键。 答 学生:学生(学号,姓名,出生年月,系号,班号,宿舍区)最小函数依赖集:班号系号,系号宿舍区,学号班号,学号姓名,学号出生年月。候选键:学号。外键:系号,班号。 班级:班级(班号,专业名,系号,人数,入校年份)最小函数依赖集:班号专业名,专业名系号,候选键:班号。外键:系号。 系:系(系号,系名,系办公地点,人数)最小函数依赖集:系号系名,系号系办公地点候选键:系号或者系名。外部键:无。 研究会:研究会(研究会名,成立年份,地点,人数)最小函数依赖集:研究会名成立年份候选键:研究会名。外部键;无。 研究会会员:研究会会员(研究会名,学号入会年份)最小函数
7、依赖集:(研究会名,学号) 入会年份候选键:(研究会名,学号)。外部键:研究会名,学号。填空题1一个不好的关系模式会存在 、 和 等弊病。2函数依赖与属性间的联系类型有关。当 X,Y 之间是“1 对 1”联系时,则存在函数依赖 ;当 X,Y 之间是“多对 1”联系时,则只存在函数依赖 ;当 X,y 之间是“多对多”联系时,则 。3函数依赖的基本性质有: 、 、 。4当属性集合 X 是属性集合 Y 的子集时,则存在函数依赖 YX。这种类型的函数依赖称为 。如果 YX 且 XY,则称 YX 是 。5若关系模式 R1NF,且及中的每个 都是 ,则 RBCNF。6规范化过程是通过投影分解,把 的关系模
8、式“分离”为 模式。但这种投影分解不是惟一的,要求分解既 ,又具有 。1插入异常 删除异常 冗余太大2XY 和 YX XY XY 之间不存在函数依赖性3 4平凡函数依赖 非平凡的函数依赖6低一级范式 若干个高一级范式 保持函数依赖 无损连接性选择题1以下关于函数依赖的说法正确的是 。A函数依赖和关系表中各属性列的取值有关,因此当关系中各属性列取值发生变化时,函数依赖必然发生改变B属性间的联系方式与函数依赖密切相关,无论哪种联系方式都对应一种函数依赖CXY 是否成立仅取决于 X、Y 属性集上的值,与其他属性(集)的取值无关D以上都不是2当 X,Y 之间是”1 对多”联系时,则存在函数依赖 。AX
9、Y BYXCXY、YX D以上都不是3函数依赖的扩张性是 。A如果存在函数依赖 XY 及 WZ,则必然存在 XWYZB如果 XY 及 XZ,则存在着 XYZC如果存在函数依赖 XYZ,则必然存在 XY 及 XZD当属性集合 X 是属性集合 Y 的子集时,则存在函数依赖 YX4任何二元关系模式所属的最高范式是 。A1NF B2NF C3NF DBCNF5关于关系模式的键,以下说法正确的是 。A一个关系模式可以有多个主键B一个关系模式可以有多个候选键C主键所包含的属性称为主属性D不是哪个关系模式都有键6若关系模式 R 中的函数依赖的决定因素(前面的部分)都是键,则 R 所属的最高范式为 。A1NF
10、 B2NF C3NF DBCNF1C 2B 3A 4D 5B 6D1设有关系模式 R(0,I,S,Q,D,B) ,其函数依赖集合为SD,IB,ISQ,BO,试求:(1)R 的候选键。(2)如果 R 不属于 3NF,将 R 分解为 3NF(具有无损连接性和依赖保持性)。2设关系模式 R(A,B,C,D,E,P),R 的函数依赖集 F 为AD,ED,DB,BCD,DCA。试求:(1)R 的候选键。(2)将及分解为 BCNF,并具有无损连接性。数据库设计方法、规范与技巧一、数据库设计过程数据库技术是信息资源管理最有效的手段。数据库设计是指对于一个给定的应用环境,构造最优的数据库模式,建立数据库及其应
11、用系统,有效存储数据,满足用户信息要求和处理要求。数据库设计中需求分析阶段综合各个用户的应用需求(现实世界的需求)。在概念设计阶段形成独立于机器特点、独立于各个 DBMS 产品的概念模式(信息世界模型),用 E-R 图来描述。在逻辑设计阶段将 E-R 图转换成具体的数据库产品支持的数据模型如关系模型,形成数据库逻辑模式。然后根据用户处理的要求,安全性的考虑,在基本表的基础上再建立必要的视图(VIEW)形成数据的外模式。在物理设计阶段根据 DBMS 特点和处理的需要,进行物理存储安排,设计索引,形成数据库内模式。1. 需求分析阶段 需求收集和分析,结果得到数据字典描述的数据需求(和数据流图描述的
12、处理需求)。 需求分析的重点是调查、收集与分析用户在数据管理中的信息要求、处理要求、安全性与完整性要求。需求分析的方法:调查组织机构情况、调查各部门的业务活动情况、协助用户明确对新系统的各种要求、确定新系统的边界。 常用的调查方法有: 跟班作业、开调查会、请专人介绍、询问、设计调查表请用户填写、查阅记录。分析和表达用户需求的方法主要包括自顶向下和自底向上两类方法。自顶向下的结构化分析方法(Structured Analysis,简称 SA 方法)从最上层的系统组织机构入手,采用逐层分解的方式分析系统,并把每一层用数据流图和数据字典描述。数据流图表达了数据和处理过程的关系。系统中的数据则借助数据
13、字典(Data Dictionary,简称 DD)来描述。数据字典是各类数据描述的集合,它是关于数据库中数据的描述,即元数据,而不是数据本身。数据字典通常包括数据项、数据结构、数据流、数据存储和处理过程五个部分(至少应该包含每个字段的数据类型和在每个表内的主外键)。数据项描述数据项名,数据项含义说明,别名,数据类型,长度, 取值范围,取值含义,与其他数据项的逻辑关系 数据结构描述数据结构名,含义说明,组成:数据项或数据结构 数据流描述数据流名,说明,数据流来源,数据流去向, 组成:数据结构,平均流量,高峰期流量 数据存储描述数据存储名,说明,编号,流入的数据流,流出的数据流, 组成:数据结构,
14、数据量,存取方式 处理过程描述处理过程名,说明,输入:数据流,输出:数据流, 处理:简要说明 2. 概念结构设计阶段 通过对用户需求进行综合、归纳与抽象,形成一个独立于具体 DBMS 的概念模型,可以用 E-R 图表示。 概念模型用于信息世界的建模。概念模型不依赖于某一个 DBMS 支持的数据模型。概念模型可以转换为计算机上某一 DBMS 支持的特定数据模型。 概念模型特点:(1) 具有较强的语义表达能力,能够方便、直接地表达应用中的各种语义知识。(2) 应该简单、清晰、易于用户理解,是用户与数据库设计人员之间进行交流的语言。概念模型设计的一种常用方法为 IDEF1X 方法,它就是把实体-联系
15、方法应用到语义数据模型中的一种语义模型化技术,用于建立系统信息模型。使用 IDEF1X 方法创建 E-R 模型的步骤如下所示:2.1 第零步初始化工程这个阶段的任务是从目的描述和范围描述开始,确定建模目标,开发建模计划,组织建模队伍,收集源材料,制定约束和规范。收集源材料是这阶段的重点。通过调查和观察结果,业务流程,原有系统的输入输出,各种报表,收集原始数据,形成了基本数据资料表。2.2 第一步定义实体实体集成员都有一个共同的特征和属性集,可以从收集的源材料基本数据资料表中直接或间接标识出大部分实体。根据源材料名字表中表示物的术语以及具有“代码”结尾的术语,如客户代码、代理商代码、产品代码等将
16、其名词部分代表的实体标识出来,从而初步找出潜在的实体,形成初步实体表。2.3 第二步定义联系IDEF1X 模型中只允许二元联系,n 元联系必须定义为 n 个二元联系。根据实际的业务需求和规则,使用实体联系矩阵来标识实体间的二元关系,然后根据实际情况确定出连接关系的势、关系名和说明,确定关系类型,是标识关系、非标识关系(强制的或可选的)还是非确定关系、分类关系。如果子实体的每个实例都需要通过和父实体的关系来标识,则为标识关系,否则为非标识关系。非标识关系中,如果每个子实体的实例都与而且只与一个父实体关联,则为强制的,否则为非强制的。如果父实体与子实体代表的是同一现实对象,那么它们为分类关系。2.
17、4 第三步定义码通过引入交叉实体除去上一阶段产生的非确定关系,然后从非交叉实体和独立实体开始标识侯选码属性,以便唯一识别每个实体的实例,再从侯选码中确定主码。为了确定主码和关系的有效性,通过非空规则和非多值规则来保证,即一个实体实例的一个属性不能是空值,也不能在同一个时刻有一个以上的值。找出误认的确定关系,将实体进一步分解,最后构造出 IDEF1X 模型的键基视图(KB 图)。2.5 第四步定义属性从源数据表中抽取说明性的名词开发出属性表,确定属性的所有者。定义非主码属性,检查属性的非空及非多值规则。此外,还要检查完全依赖函数规则和非传递依赖规则,保证一个非主码属性必须依赖于主码、整个主码、仅
18、仅是主码。以此得到了至少符合关系理论第三范式的改进的 IDEF1X 模型的全属性视图。2.6 第五步定义其他对象和规则定义属性的数据类型、长度、精度、非空、缺省值、约束规则等。定义触发器、存储过程、视图、角色、同义词、序列等对象信息。3. 逻辑结构设计阶段 将概念结构转换为某个 DBMS 所支持的数据模型(例如关系模型),并对其进行优化。设计逻辑结构应该选择最适于描述与表达相应概念结构的数据模型,然后选择最合适的 DBMS。将 E-R 图转换为关系模型实际上就是要将实体、实体的属性和实体之间的联系转化为关系模式,这种转换一般遵循如下原则: 1)一个实体型转换为一个关系模式。实体的属性就是关系的
19、属性。实体的码就是关系的码。 2)一个 m:n 联系转换为一个关系模式。与该联系相连的各实体的码以及联系本身的属性均转换为关系的属性。而关系的码为各实体码的组合。 3)一个 1:n 联系可以转换为一个独立的关系模式,也可以与 n 端对应的关系模式合并。如果转换为一个独立的关系模式,则与该联系相连的各实体的码以及联系本身的属性均转换为关系的属性,而关系的码为 n 端实体的码。 4)一个 1:1 联系可以转换为一个独立的关系模式,也可以与任意一端对应的关系模式合并。5)三个或三个以上实体间的一个多元联系转换为一个关系模式。与该多元联系相连的各实体的码以及联系本身的属性均转换为关系的属性。而关系的码
20、为各实体码的组合。 6)同一实体集的实体间的联系,即自联系,也可按上述 1:1、1:n 和 m:n 三种情况分别处理。 7)具有相同码的关系模式可合并。 为了进一步提高数据库应用系统的性能,通常以规范化理论为指导,还应该适当地修改、调整数据模型的结构,这就是数据模型的优化。确定数据依赖。消除冗余的联系。确定各关系模式分别属于第几范式。确定是否要对它们进行合并或分解。一般来说将关系分解为 3NF 的标准,即:表内的每一个值都只能被表达一次。表内的每一行都应该被唯一的标识(有唯一键)。表内不应该存储依赖于其他键的非键信息。 4. 数据库物理设计阶段 为逻辑数据模型选取一个最适合应用环境的物理结构(
21、包括存储结构和存取方法)。根据 DBMS 特点和处理的需要,进行物理存储安排,设计索引,形成数据库内模式。5. 数据库实施阶段 运用 DBMS 提供的数据语言(例如 SQL)及其宿主语言(例如 C),根据逻辑设计和物理设计的结果建立数据库,编制与调试应用程序,组织数据入库,并进行试运行。 数据库实施主要包括以下工作:用 DDL 定义数据库结构、组织数据入库 、编制与调试应用程序、数据库试运行 6. 数据库运行和维护阶段 数据库应用系统经过试运行后即可投入正式运行。在数据库系统运行过程中必须不断地对其进行评价、调整与修改。包括:数据库的转储和恢复、数据库的安全性、完整性控制、数据库性能的监督、分
22、析和改进、数据库的重组织和重构造。建模工具的使用为加快数据库设计速度,目前有很多数据库辅助工具(CASE 工具),如Rational 公司的 Rational Rose,CA 公司的 Erwin 和 Bpwin,Sybase 公司的PowerDesigner 以及 Oracle 公司的 Oracle Designer 等。ERwin 主要用来建立数据库的概念模型和物理模型。它能用图形化的方式,描述出实体、联系及实体的属性。ERwin 支持 IDEF1X 方法。通过使用 ERwin 建模工具自动生成、更改和分析 IDEF1X 模型,不仅能得到优秀的业务功能和数据需求模型,而且可以实现从 IDEF
23、1X 模型到数据库物理设计的转变。ERwin 工具绘制的模型对应于逻辑模型和物理模型两种。在逻辑模型中,IDEF1X 工具箱可以方便地用图形化的方式构建和绘制实体联系及实体的属性。在物理模型中,ERwin 可以定义对应的表、列,并可针对各种数据库管理系统自动转换为适当的类型。设计人员可根据需要选用相应的数据库设计建模工具。例如需求分析完成之后,设计人员可以使用 Erwin 画 ER 图,将 ER 图转换为关系数据模型,生成数据库结构;画数据流图,生成应用程序。二、数据库设计技巧1. 设计数据库之前(需求分析阶段)1) 理解客户需求,询问用户如何看待未来需求变化。让客户解释其需求,而且随着开发的
24、继续,还要经常询问客户保证其需求仍然在开发的目的之中。2) 了解企业业务可以在以后的开发阶段节约大量的时间。3) 重视输入输出。在定义数据库表和字段需求(输入)时,首先应检查现有的或者已经设计出的报表、查询和视图(输出)以决定为了支持这些输出哪些是必要的表和字段。举例:假如客户需要一个报表按照邮政编码排序、分段和求和,你要保证其中包括了单独的邮政编码字段而不要把邮政编码糅进地址字段里。4) 创建数据字典和 ER 图表ER 图表和数据字典可以让任何了解数据库的人都明确如何从数据库中获得数据。ER 图对表明表之间关系很有用,而数据字典则说明了每个字段的用途以及任何可能存在的别名。对 SQL 表达式
25、的文档化来说这是完全必要的。5) 定义标准的对象命名规范数据库各种对象的命名必须规范。2. 表和字段的设计(数据库逻辑设计)表设计原则1) 标准化和规范化数据的标准化有助于消除数据库中的数据冗余。标准化有好几种形式,但Third Normal Form(3NF)通常被认为在性能、扩展性和数据完整性方面达到了最好平衡。简单来说,遵守 3NF 标准的数据库的表设计原则是:“One Fact in One Place”即某个表只包括其本身基本的属性,当不是它们本身所具有的属性时需进行分解。表之间的关系通过外键相连接。它具有以下特点:有一组表专门存放通过键连接起来的关联数据。举例:某个存放客户及其有关
26、定单的 3NF 数据库就可能有两个表:Customer和 Order。Order 表不包含定单关联客户的任何信息,但表内会存放一个键值,该键指向 Customer 表里包含该客户信息的那一行。事实上,为了效率的缘故,对表不进行标准化有时也是必要的。2) 数据驱动采用数据驱动而非硬编码的方式,许多策略变更和维护都会方便得多,大大增强系统的灵活性和扩展性。举例,假如用户界面要访问外部数据源(文件、XML 文档、其他数据库等),不妨把相应的连接和路径信息存储在用户界面支持表里。还有,如果用户界面执行工作流之类的任务(发送邮件、打印信笺、修改记录状态等),那么产生工作流的数据也可以存放在数据库里。角色
27、权限管理也可以通过数据驱动来完成。事实上,如果过程是数据驱动的,你就可以把相当大的责任推给用户,由用户来维护自己的工作流过程。3) 考虑各种变化在设计数据库的时候考虑到哪些数据字段将来可能会发生变更。举例,姓氏就是如此(注意是西方人的姓氏,比如女性结婚后从夫姓等)。所以,在建立系统存储客户信息时,在单独的一个数据表里存储姓氏字段,而且还附加起始日和终止日等字段,这样就可以跟踪这一数据条目的变化。字段设计原则4) 每个表中都应该添加的 3 个有用的字段?dRecordCreationDate,在 VB 下默认是 Now(),而在 SQL Server 下默认为GETDATE()?sRecordC
28、reator,在 SQL Server 下默认为 NOT NULL DEFAULT USER?nRecordVersion,记录的版本标记;有助于准确说明记录中出现 null 数据或者丢失数据的原因5) 对地址和电话采用多个字段描述街道地址就短短一行记录是不够的。Address_Line1、Address_Line2 和Address_Line3 可以提供更大的灵活性。还有,电话号码和邮件地址最好拥有自己的数据表,其间具有自身的类型和标记类别。6) 使用角色实体定义属于某类别的列在需要对属于特定类别或者具有特定角色的事物做定义时,可以用角色实体来创建特定的时间关联关系,从而可以实现自我文档化。
29、举例:用 PERSON 实体和 PERSON_TYPE 实体来描述人员。比方说,当John Smith, Engineer 提升为 John Smith, Director 乃至最后爬到John Smith, CIO 的高位,而所有你要做的不过是改变两个表 PERSON 和PERSON_TYPE 之间关系的键值,同时增加一个日期/时间字段来知道变化是何时发生的。这样,你的 PERSON_TYPE 表就包含了所有 PERSON 的可能类型,比如Associate、Engineer、Director、CIO 或者 CEO 等。还有个替代办法就是改变 PERSON 记录来反映新头衔的变化,不过这样一
30、来在时间上无法跟踪个人所处位置的具体时间。7) 选择数字类型和文本类型尽量充足在 SQL 中使用 smallint 和 tinyint 类型要特别小心。比如,假如想看看月销售总额,总额字段类型是 smallint,那么,如果总额超过了$32,767 就不能进行计算操作了。而 ID 类型的文本字段,比如客户 ID 或定单号等等都应该设置得比一般想象更大。假设客户 ID 为 10 位数长。那你应该把数据库表字段的长度设为 12 或者13 个字符长。但这额外占据的空间却无需将来重构整个数据库就可以实现数据库规模的增长了。8) 增加删除标记字段在表中包含一个“删除标记”字段,这样就可以把行标记为删除。
31、在关系数据库里不要单独删除某一行;最好采用清除数据程序而且要仔细维护索引整体性。3. 选择键和索引(数据库逻辑设计)键选择原则:1) 键设计 4 原则?为关联字段创建外键。?所有的键都必须唯一。?避免使用复合键。?外键总是关联唯一的键字段。2) 使用系统生成的主键设计数据库的时候采用系统生成的键作为主键,那么实际控制了数据库的索引完整性。这样,数据库和非人工机制就有效地控制了对存储数据中每一行的访问。采用系统生成键作为主键还有一个优点:当拥有一致的键结构时,找到逻辑缺陷很容易。3) 不要用用户的键(不让主键具有可更新性)在确定采用什么字段作为表的键的时候,可一定要小心用户将要编辑的字段。通常的情况下不要选择用户可编辑的字段作为键。