1、数据恢复的基本知识一、基本概念1、 数据这里我们所说的数据,只指计算机数据,后面不再专门指出。首先, “数据”是一个广义的概念,不仅包括计算机文件系统或数据库系统中存储的各种数据、正文、图形、图像、声音等形式的多媒体数据文件、软件或各种文档资料,也包括存放或管理这些信息的硬件信息,如计算机硬件及其网络地址、网络结构、网络服务等。尽管在许多文献中都大量引用“数据”与“信息”两个术语,但却没有一个被公认的数据与信息的定义。本书中对“数据”与“信息”不加以区分,视为同义。2、数据恢复那么什么是数据恢复呢?简单地说,数据恢复就是把遭受破坏、或由硬件缺陷导致不可访问或不可获得、或由于误操作等各种原因导致
2、丢失的数据还原成正常数据,即恢复至它本来的“面目” 。数据恢复不仅对已丢失的文件进行恢复,还可以恢复物理损伤的磁盘数据,也可以恢复不同操作系统的数据。二、硬盘结构1、 硬盘的物理结构图 12、 硬盘的数据组织1)盘片:硬盘的每一个盘片都有两个盘面(Side) ,即上、下盘面,一般每个盘面都利用上,即都装上磁头可以存储数据,成为有效盘片,也有极个别的硬盘其盘面数为单数。每一个这样的有效盘面都有一个盘面号,按顺序从上而下自“0”开始依次编号。在硬盘系统中,盘面号又叫磁头号,就是因为每一个有效盘面都有一个对应的读写磁头。硬盘的盘片组在 214 片不等,通常有 23 个盘片,故盘面号(磁头号)为 03
3、 或 05。2)磁道:磁盘在格式化时被划分成许多同心圆,这些同心圆轨迹叫做磁道(Track) 。磁道从外向内自 0 开始顺序编号。硬盘的每一个盘面有 3001024 个磁道,新式大容量硬盘每面的磁道数更多,如图 2-24 所示。信息以脉冲串的形式记录在这些轨迹中,这些同心圆不是连续记录数据,而是被划分成一段段的圆弧,由于径向长度不一样,这些圆弧的角速度一样,而线速度不一样,外圈的线速度较内圈的线速度大,即同样的转速下,外圈在同样时间段里,划过的圆弧长度要比内圈划过的圆弧长度大。每段圆弧叫做一个扇区,扇区从“1”开始编号,每个扇区中的数据是作为一个单元同时读出或写入的。一个标准的 3.5 英寸硬
4、盘盘面通常有几百到几千条磁道。这些磁道是看不见的,它们只是盘面上以特殊形式磁化了的一些磁化区。这些磁道是在磁盘格式化时就规划好了的。3)柱面:所有盘面上的同一磁道构成一个圆柱,通常称作柱面(Cylinder) ,每个圆柱上的磁头,由上而下从“0”开始编号。数据的读写是按柱面进行的,即磁头在读写数据时首先在同一柱面内从“0”磁头开始进行操作,依次向下在同一柱面的不同盘面即磁头上进行操作,只在同一柱面所有的磁头全部读写完毕后才移动磁头转移到下一柱面,即数据的读/写是按柱面来进行的,而不是按盘面来进行的。也就是说,一个磁道已写满数据,就在同一柱面的下一个盘面来写,一个柱面写满后,才移到下一个柱面。4
5、)扇区:操作系统是以扇区(Sector)形式将信息存储在硬盘上的。每个扇区包括 512 字节的数据和一些其他信息。一个扇区有两个主要部分:即存储数据地点的标识符和存储数据的数据段。三、寻址方式1、C/H/S 寻址方式C:柱面号(最大 10 位) ;H:磁头号(最大 6 位) ;S:扇区号(最大 6 位) ,其中扇区数从 1 编号,其它从 0 编号,用三个参数唯一定位。2、LBA 寻址方式LBA 寻址方式下从 0 开始给扇区线性编号,一直编到整块硬盘的最后一个扇区。显然线性地址是物理扇区的逻辑地址。3、C/H/S 和 LBA 之间的转换1)读写规则要了解从 C/H/S 到 LBA 线性地址的转换
6、规则。由于系统在写入数据时是按照从柱面到柱面的方式,在上一个柱面写满数据后才移动磁头到下一个柱面,并从下一柱面的第一个磁头的第一个扇区开始写入,从而使磁盘性能最优,所以,在对物理扇区进行线性编址时,也按照这种方式进行。即把第一柱面(0 柱)第一磁头(0 面)的第一扇区(1 扇区)编为逻辑“0” 扇区,把第一柱面(0 柱)第一磁头(0 面)的第二扇区( 2 扇区)编为逻辑“1” 扇区,直至第一柱面(0 柱)第一磁头(0 面)的第 63 扇区(63 扇区)编为逻辑“62” 扇区,然后转到第一柱面(0 柱)第二磁头(1 面)的第一扇区(1 扇区) ,接着上一面编为逻辑“63”扇区,0 柱面所有扇区编
7、号完毕后转到 1 柱面的 0 磁头 1 扇区,依次往下进行,直至把所有的扇区都编上号。2)从 C/H/S 到 LBA通过对编号规则的介绍,很容易看出 C/H/S 与 LBA 地址的对应关系。用 C 表示当前柱面号,H 表示当前磁头号, S 表示当前扇区号,CS 表示起始柱面号,HS 表示起始磁头号,SS 表示起始扇区号,PS 表示每磁道有多少个扇区,PH 表示每柱面有多少个磁道,则有:LBA=(CCS )PH PS+(HHS )PS+(SSS) (1) 一般情况下,CS=0,HS=0,SS=1 ,PS=63,PH=255,LBA 计算如下:C/H/S=0/0/1,代入(1)式中可得 LBA=0
8、C/H/S=0/0/63,代入(1)式中可得 LBA=62C/H/S=0/1/1,代入(1)式中可得 LBA=63C/H/S=220/156/18,代入(1)式中可得 LBA=35441453)从 LBA 到 C/H/S先介绍两种运算 DIV 和 MOD(这里指对正整数的操作) 。DIV 称做整除运算,即被除数除以除数所得商的整数部分。比如,5 DIV 2=2,33 DIV 5=6;MOD 运算则是取商的余数。比如,5 MOD 2=1,33 MOD 5=3。DIV 和 MOD 是一对搭档,一个取整数部分,一个取余数部分。各变量仍按上述假设进行,则有:C=LBA DIV (PH PS)+CSH=
9、(LBA DIV PS) MOD PH +HS (2)S=LBA MOD PS +SS如果不运用 MOD 运算符,只运用 DIV 运算符,也可按式(3)进行转换,两者的结果相同,只是运算的复杂度不同。C=LBA DIV (PH PS)+CSH=LBA DIV PS(CCS )PH +HS (3)S=LBA(CCS)PHPS (H HS)PS+SS按照这个规律,则有:LBA=0,相应地,C/H/S=0/0/1LBA=62,相应地,C/H/S=0/0/63LBA=63,相应地,C/H/S=0/1/1LBA=3544145,相应地,C/H/S=220/156/18四、引导扇区(MBR)MBR,即主引
10、导记录区,位于整个硬盘的 0 磁道 0 柱面 1 扇区。在总共 512 字节的主引导扇区中,MBR 的引导程序占用其中的前 446 个字节(偏移 0偏移 1BDH) ,随后的64 个字节(偏移 1BEH偏移 1FDH)为 DPT(Disk Partition Table,硬盘分区表) ,最后的两个字节“55 AA”(偏移 1FEH偏移 1FFH)是分区有效结束标志。由它们共同构成硬盘主引导记录,也称主引导扇区。图 2(MBR)其中,硬盘分区表中的每 16 个字节被称为分区表项,一个分区表项管理一个分区。 在分区表项内:第 1 个字节为 80 的表示被激活,为 00 的表示未被激活。第 2 个字
11、节为 C/H/S 模式下起始磁头号。第 3 个字节为 C/H/S 模式下起始扇区号。第 4 个字节为 C/H/S 模式下起始柱面号。第 6 个字节为 C/H/S 模式下结束磁头号。第 7 个字节为 C/H/S 模式下结束扇区号。第 8 个字节为 C/H/S 模式下结束柱面号。其中,第 3、4 个字节结合,扇区号为 6 位,柱面号为 10 位(占用第 3 个字节的高两位) 。第 5 个字节为分区类型:若值为 01 表示是 FAT12 格式;若值为 04 表示是小于 32M的 FAT16 格式;若值为 06 表示是大于 32M 的 FAT16 格式;若值为 0B 或 0C 表示是FAT32 格式;
12、若值为 07 表示是 NTFS 格式;若此分区表项为扩展分区,则第 5 个字节的值应为 05 或 0F,05 为小于 8.4G,0F 为大于 8.4G。从第 9 个字节开始为 LBA 寻址方式下的管理。第 912 字节为当前分区的起始扇区号。第 1216 字节为当前分区的大小(分区所包含的扇区数) 。五、扩展分区(EBR)如何在一个硬盘中来划分扩展分区呢?1) 在第一个扇区(引导扇区)中的第一个分区表项上填写主分区信息。2)在第二个分区表项上的第 5 个字节上填写 05 或 0F,则证明此分区为一个扩展分区,此时这个分区为主扩展分区。如果在这个扩展分区上在划分扩展分区的话,则找到这个扩展分区的
13、第一个扇区(EBR) ,重复上述两个步骤,所得到的是次扩展分区,以此类推。图 3(EBR)下面是一块硬盘的数据组织结构:图 4六、操作系统引导记录区(DBR)进入一个分区的内部,第一个扇区就是 DBR(DOS Boot Record) 。它包括一个引导程序和一个被称为 BPB(BIOS Parameter Block)的本分区参数记录表。引导程序的主要任务是,当 MBR 将系统控制权交给它时,判断本分区根目录前两个文件是不是操作系统的引导文件。BPB 参数块记录着本分区的起始扇区、结束扇区、文件存储格式、硬盘介质描述符、根目录大小、FAT 个数,分配单元大小等重要参数。 第 1、2 字节如果为
14、 EB 58 则表示跳转 58 个字节,则跳到 5A。从 5A 开始到 55 AA 之间为引导数据。从 3 到 A 为厂家和格式化版本。从 B 到 59 为 BPB 参数:BC 为每扇区的字节数。D 为每簇的扇区数。EF 为 DBR 所保留的扇区数。10 为 FAT 表的个数。15 为媒体描述符(F8 为硬盘) 。18 和 19 为每磁道扇区数。2023 为记录本分区的大小。2427 记录 FAT 表的大小(可确定根目录的位置) 。2C2F 记录根目录的起始簇号。30 为文件信息系统所在的扇区。32 为 DBR 的备份的扇区号。3334 保留。40 为 BIOS 下记录媒体方式(80 表示硬盘
15、) 。42 为扩展引导标志(是固定值 28 或 29) 。5256 为版本号。图 5(C 盘的 DBR,FAT 格式)图 5 为用 WINHEX 打开整个硬盘后通过 MBR 经过扇区计算后得到的 C 盘 DBR 地址。图 6(C 盘的 DBR,FAT 格式)图 6 为用 WINHEX 直接打开 C 盘后显示的 DBR,两个图是一样。七、FAT 文件系统1、格式化1)低级格式化 测试硬盘介质; 为硬盘划分磁道; 为硬盘的每个磁道按指定的交叉因子间隔安排扇区; 将扇区 ID 放置到每个磁道上,完成对扇区的设置; 对磁盘表面进行测试,对已损坏的磁道和扇区做“坏”标记; 给硬盘中的每个扇区写入某一 A
16、SCII 码字符。2)高级格式化从各个逻辑盘指定的柱面开始,对扇区进行逻辑编号(分区内的编号) 。在基本分区上建立 DOS 引导记录(DBR) ,若命令中带有参数“/S”则装入 DOS的三个系统文件。在各个逻辑盘建立文件分配表(FAT) 。建立根目录对应的文件目录表(FDT)及数据区。对于 FAT16 和 FAT32 文件系统(NTFS 采用不同的文件管理技术,另做介绍) ,硬盘上的数据按照其不同的特点和作用大致可分为 5 部分:MBR 区、DBR 区、FAT 区、DIR 区和DATA 区。其中,MBR 由分区软件创建,而 DBR 区、FAT 区、DIR 区和 DATA 区由高级格式化程序创建
17、。文件系统写入数据时只是改写相应的 FAT 区、DIR 区和 DATA 区。2、 FAT32 文件系统1)FAT32 文件系统将逻辑盘的空间划分为三个部分,依次是引导区(BOOT 区) 、文件分配表区(FAT 区)和数据区(DATA 区) 。引导区和文件分配表区又合称为系统区。2)引导区从第一扇区开始,使用三个扇区(实际只使用了第一个扇区,但第二和第三个扇区也写入了“55 AA”标志) ,保存有该逻辑盘每扇区字节数,每簇对应扇区数等重要参数和引导记录。之后还留有若干个保留扇区,两者共占用 32 个扇区。而 FATl6 文件系统的引导区一般只占用一个扇区,没有保留扇区。3)文件分配表区保存有两个
18、相同的文件分配表,因为文件所占用的存储空间(簇链)及空闲空间的管理都通过 FAT 来实现,FAT 是如此的重要,所以系统保存两个以便第一个损坏时,还有第二个备用。文件系统对数据区的存储空间是按簇进行划分和管理的,簇是空间分配和回收的基本单位,即一个文件总是占用若干个整数簇,文件所使用的最后一簇剩余的空间不再使用。4)FAT32 系统一簇对应 8 个逻辑相邻的扇区,理论上,这种用法所能管理的逻辑盘容量上限为 16TB(16 384GB) ,容量大于 16TB 时,可以用一簇对应 16 个扇区,依此类推。但是,对于容量小于 512MB 的盘,采用 FAT32 虽然一簇为 8 个扇区,比使用 FAT
19、l6一簇 16 个扇区,簇有所减小,但 FAT32 的 FAT 表较大,占用空间较多,总数据区被减少,两者相抵,实际并不能增加有效存储空间,所以微软建议对小于 512MB 的逻辑盘不宜使用 FAT32。5)根目录区(ROOT 区)不再是固定区域、固定大小,可看做是数据区的一部分。因为根目录已改为根目录文件,采用与子目录文件相同的管理方式,一般情况下从第二簇开始使用,大小视需要增加,因此根目录下的文件数目不再受最多 512 个的限制。FATl6 文件系统的根目录区(ROOT 区)是固定区域、固定大小,占用 FAT 区之后紧接着的 32 个扇区,最多保存 512 个目录项,是系统区的一部分。6)目
20、录区中的文件目录项变化较多。一个目录项仍占用 32 字节,可以是文件目录项、子目录项、卷标项(仅根目录有) 、已删除目录项、长文件名目录项等。目录项中原来在DOS 下保留未用的 10 个字节都有了新的定义,全部 32 个字节的定义如下。第 07 字节,文件名。第 810 字节,文件扩展名。第 11 字节,文件属性,按二进制位定义,最高两位保留未用,0 至 5 位分别是只读位、隐藏位、系统位、卷标位、子目录位、归档位,当只读位、隐藏位、系统位、卷标位全为1,其他位全为 0,即 11 字节为“0FH”时表示该项为长文件名记录项。第 1213 字节,仅长文件名目录项有效,用来存储其对应的短文件名目录
21、项的文件名字节校验和。第 1315 字节,24 位二进制文件建立时间,其中高 5 位为小时,次 6 位为分钟,再次 5 位的倍数为秒,最后 8 位为单位精确到 10 毫秒的创建秒数。第 1617 字节,16 位二进制文件建立日期,其中高 7 位为相对于 1980 年的年份值,次 4 位为月份,后 5 位为月内日期。第 1819 字节,16 位二进制文件最新访问日期,定义同 1617 字节。第 2021 字节,起始簇号的高 16 位。第 2223 字节,16 位二进制文件最新修改时间,其中高 5 位为小时,次 6 位为分钟,后 5 位的倍数为秒数。第 2425 字节,16 位二进制文件最新修改日
22、期,定义同 1617 字节。第 2627 字节,起始簇号的低 16 位。第 2831 字节,32 位文件字节长度。其中 1219 字节为以后陆续定义。所有字节的意义如下:图 7下面图 8 是文件目录项的起始扇区,也是 DATA 区的起始位置,它的寻找方式是:先通过MBR 中的分区表项中的第 912 字节的值确定 DBR 的位置(本案例值为 00 00 00 3F,换算成十进制为 63) 。然后跳到第 63 扇区找到 DBR,先看第 10 个字节的值(本案例值为02,说明有两个 FAT 表) ,再看第 EF 字节的值(其值为 DBR 的保留扇区数,此案例值为 00 26,换算成十进制为 38) ,再看第 2427 字节的值(其值为记录 FAT 表的大小,此案例值为 00 00 27 0D,换算成十进制为 9997) 。这样,DATA 区的起始位置是:MBR 的保