1、第一章 ARM 概述及其基本编程模型ARM 芯片具有 RISC 体系的一般特点,如: 具有大量的寄存器 绝大多数操作都在寄存器中进行,通过 Load/Store 的体系在内存和寄存器之间进行数据传递 寻址方式简单 采用固定长度的指令格式除此之外,ARM 体系采用了一些特殊的技术,在保证高性能的同时尽量减少芯片体积,减低芯片的功耗,这些技术包括: 在同一条数据处理指令中包含算术逻辑处理单元和移位处理 使用地址自动增加(减少) ;来优化程序中循环处理 Load/Store 指令可以批量传输数据,从而提高数据传输的效率 所有指令都可以根据前面指令执行的结果,决定是否执行,以提高指令执行的效率1.2
2、ARM 体系结构的版本及命名方法迄今为止,ARM 体系结构共定义了 6 个版本,版本号分别为 16.从版本 1到版本 6,ARM 体系的指令功能不断扩大,同时,各版本中还有一些变种,这些变种定义了该版本指令集中不同的功能。ARM 处理器系类中的各种处理器,其采用的实现技术各不相同,性能差别很大,应用场合也有所不同,但是只要它们支持相同的 ARM 体现版本,基于它们的应用软件将是兼容的。1.2.1 ARM 体系结构的版本1. 版本 1本版本在 ARM1 中实现,但没有在商业产品中使用。它包括下列指令: 处理乘法指令之外的基本数据处理指令 基于字节,字,多字的读取和写入指令(Load/Store)
3、 包括子程序调用指令 BL 在内的跳转指令 供操作系统使用的软件中断指令 SWI本版本中地址空间是 26 位,目前已经不再使用2. 版本 2与版本 1 相比,版本 2 增加了下列指令: 乘法指令和乘加法指令 支持协处理器的指令 对于 FIQ 模式,提供了额外的两个备份寄存器 SWP 指令及 SWPB 指令本版本中地址空间是 26 位,目前已经不再使用3. 版本 3版本 3 较以前的版本发生了比较大的变化。主要改进部分如下: 处理器的地址空间扩展到了 32 位,但除了版本 3G 外的其他版本是向前兼容的,支持 26 位的地址空间。 当前程序状态信息从原来的 R15 寄存器移到一个新的寄存器中,新
4、的寄存器名字为 CPSR(Current Program Status Register,当前状态寄存器) 增加了 SPSR(Saved Program Status Register,备份的程序状态寄存器) ,用于在程序异常中断程序时,保存被中断的程序的程序状态 增加了两种处理器模式,使操作系统代码可以方便地使用数据访问中止异常,指令预取中止异常和未定义指令异常 增加了指令 MRS 和指令 MSR,用于访问 CPSR 寄存器和 SPSR 寄存器 修改了原来的从异常中返回的指令4. 版本 4与版本 3 相比,版本 4 增加了下列指令: 半字的读取和写入指令 读取(Load)带符号的字节和半字数
5、据的指令 增加了 T 变种,可以使处理器状态切换到 Thumb 状态,在该状态下指令集是 16 位的 Thumb 指令集 增加了处理器的特权模式。在该模式下,使用的是用户模式下的寄存器。另外,在版本 4 中明确定义了哪些指令会引起未定义指令异常。版本 4 不再强调要求与以前的 26 位地址空间兼容。5. 版本 5与版本 4 相比,版本 5 增加或者修改了下列指令: 提高了 T 变种中 ARM/Thumb 混合使用的效率 对于 T 变种的指令和非 T 变种的指令使用相同的代码生成技术同时,版本 5 还具有以下的特点 增加了前导零指令,该指令可以使整数除法和中断优先级排队操作更为有效 增加了软件断
6、点指令 为协处理器设计提供更多的可选择的指令 更加严格的定义了乘法指令对条件标志位的影响6. 版本 6ARM 体系版本 6 是 2001 年发布的。其主要特点是增加了 SIMD 功能扩展。它适合使用电池供电的高性能便携式设备。这些设备一方面需要处理器提供高性能,另一方面又需要功耗很低。SIMD 功能扩展为包括音频 /视频处理在内的应用系统提供了优化功能。它可以使音频/ 视频处理性能提高 4 倍。ARM 体系版本 6 首先在 2002 年春季发布的 ARM11 处理器中使用1.2.2 ARM 体系的变种这里将某种特定功能称为 ARM 体系的某种变种,例如支持 Thumb 指令集称为 T 变种。目
7、前 ARM 定义了一些变种。1、Thumb 指令集(T 变种)Thumb 指令集是将 ARM 指令集的一个子集重新编码 而形成的一个指令集。ARM 指令长度为 32 位,Thumb 指令长度为 16 位。这样,使用 Thumb 指令集得到密度更高的代码,这对于需要严格控制成本的设计是非常有意义的。与 ARM 指令集相比,Thumb 指令集具有以下局限: 完成相同的操作,Thumb 指令通常需要更多的指令。因此,在对系统运行时间要求苛刻的应用场合,ARM 指令集更为合适。 Thumb 指令集没有包含进行异常处理时需要的一些指令,因此在异常中断的低级处理时,his 需要使用 ARM 指令。这种限制
8、决定了 Thumb 指令需要和 ARM 指令配合使用。对于支持 Thumb 指令的 ARM 体系版本,使用符号 T 来表示目前 Thumb 指令集具有以下两个版本: Thumb 指令集版本 1 本版本用于 ARM 体系版本 4 的 T 变种。 Thumb 指令集版本 2 本版本用于 ARM 体系版本 5 的 T 变种与版本 1 相比,Thumb 指令集的版本 2 具有以下特点: 通过增加指令和对已有指令的修改,提高 ARM 指令和 Thumb 指令混合使用时的效率 增加了软件断点指令 更加严格地定义了 Thumb 乘法指令对条件标志位的影响这些特点和 ARM 体系版本 4 到版本 5 进行的扩
9、展密切相关。实际上,通常并不使用 Thumb 版本号,而是使用相应的 ARM 版本号。2、Thumb 指令集( T 变种)M 变种增加了两条用于进行长乘法操作的 ARM 指令。其中一条指令用于实现 32 为整数乘以 32 位整数,生成 64 位整数的长乘法操作;另一条指令用于实现 32 位整数乘以 32 位整数,然后加上 32 位整数,生成 64 位整数的长乘加操作。在需要这种长乘法的应用场合 M 变种很适合然而,在有些应用场合中,乘法操作的性能并不重要,但对于尺寸要求很苛刻,在系统实现时就不合适增加 M 变种的功能。M 变种首先在 ARM 体系版本 3 中加入。如果没有上诉的设计方面的限制,
10、在 ARM 体系版本 4 以及其后的版本中,M 变种是系统的标准部分。对于支持长乘法 ARM 指令的 ARM 体系版本,使用字符 M 来表示。3、增强型 DSP 指令(E 变种)E 变种包含了一些附加的指令,这些指令用于增强处理器对一些典型的DSP 算法的处理性能。主要包括: 几条新的实现 16 位数据乘法和乘加法操作的指令 实现饱和的带符号的加减法操作的指令。所谓饱和的加减法操作是在加减法操作溢出时,结果并不进行卷绕,而是使用最大的整数或者最小的负数来表示。 进行双字数据操作的指令,包括双字读取指令 LDRD,双字写入指令STRD 和些处理器的寄存器传输指令 MCRR/MRRC. Cache
11、 预取指令 PLDE 变种首先在 ARM 体系版本 5T 中使用,用符号 E 表示。在 ARM 体系版本 5 以前的版本中,以及在非 M 变种和非 T 变种的版本中,E 变种是无效的。在早期的一些 E 变种中,未包含双字的读取指令 LDRD,双字的写入指令 STRD,协处理器的寄存器传输指令 MCRR/MRRC 以及 cache 预取指令PLD。这种 E 变种记作 ExP,其中 x 表示缺少,P 代表上诉的集中指令。4、Java 加速器 Jazelle(J 变种)ARM 的 Jazelle 技术将 Java 的优势和先进的 32 位 RISC 芯片完美的结合在一起。Jazelle 技术提供了
12、Java 加速功能,可以得到比普通 Java 虚拟机高得多的性能。与普通的 Java 虚拟机相比,Jazelle 使 Java 运行速度提高了 8倍,而功耗降低了 80%。Jazelle 技术使得程序员可以在一个单独的处理器上同时运行 Java 应用程序,已经建立好的操作系统,中间件以及其他的应用程序。与使用协处理器和双处理器相比,使用单独的处理器可以在提高性能的同时,保证低功耗和低成本。J 变种首先在 ARM 体系版本 4TEJ 中使用,用符号 J 表示 J 变种。5、ARM 媒体功能扩展(SIMD 变种)ARM 媒体功能扩展为嵌入式应用系统提供了高性能的音频/视频处理技术。新一代的 Int
13、ernet 应用系统,移动电话和 PDA 等设备需要提供高性能的流式媒体,包括音频和视频等;而且这些设备需要提供更加人性化的界面,包括语音识别和手写输入识别等。这样,就要求处理器能够提供很强的数字信号处理能力,同时还必须保持低功耗,以延长电池的使用时间。ARM 的SIMD 媒体功能扩展就为这些应用系统提供了解决方案。它为包括音频/ 视频处理在内的应用系统提供了优化功能,它可以使音频/视频处理性能提高 4 倍。主要特点如下: 将音频/视频处理能力提高了 24 倍 可以同时进行两个 26 位操作数或者 4 个 8 位操作数的运算 提供了小数算术运算 用户可以定义饱和运算的模式 两套 16 位操作数
14、的乘加/乘减运算 32 位乘以 32 位小数 MAC 同时 8 位/16 位选择操作它的主要应用领域包括: Internet 应用系统 流式媒体应用系统 MPEG4 编码/ 解码系统 语音和手写输入识别 FFT 处理 复杂的算术运算 Viterbi 处理。1.2.3 ARM/Thumb 体系版本的命名格式表示 ARM/Thumb 体系版本的字符串是由下面几部分组成的: 字符串 ARMv ARM 指令集版本号。目前是 16 的数字字符 表示变种的字符。由于在 ARM 体系版本 4 以后,M 变种成为系统的标准功能,字符 M 通常不需要列出来。 使用字符 x 表示排除某种写功能。比如,在早期的一些
15、 E 变种中,未包含双字读取指令 LDRD,双字写入指令 STRD,协处理器的寄存器传输指令 MCRR/MRRC 以及 cache 预取指令 PLD。这种 E 变种记作 ExP,其中 x 表示缺少,P 代表上诉的几种指令。目前有效的 ARM/Thumb 体系版本名称以及其含义如表 1.1 和表 1.2 中所列。这些名称描述了各版本的具体特点。表 1.1 目前有效的 ARM/Thumb 体系版本名称及其含义名称 ARM 指令集版本号 Thumb 指令集版本号 M 变种 E 变种ARMv3 3 无 否 否ARMv3M 3 无 是 否ARMv4xM 4 无 否 否ARMv4 4 无 是 否ARMv4
16、TxM 4 1 否 否ARMv4T 4 1 是 否ARMv5xM 5 无 否 否ARMv5 5 无 是 否ARMv5TxM 5 2 否 否ARMv5T 5 2 是 否ARMv5TexP 5 2 是 处理 LDRDMCRR,MRRCPLD,STRD 指令外的指令ARMv5TE 5 2 是 是表 1.2 目前有效的 ARM/Thumb 体系版本名称以及含义(续)名称 T 变种 E 变种 J 变种 SIMD 变种ARMv5TEJ 是 是 是 否ARMv6 是 是 是 是1.3 ARM 处理器系列ARM 处理器目前包括下面的几个系列的处理器产品已经其他厂商实现的基于 ARM 体系结构的处理器。 ARM
17、7 系列 ARM9 系列 ARM9E 系列 ARM10E 系列 SecurCore 系列 Intel 的 Xscale Inter 的 StrongARM这些处理器最高主频达到了 800MIPS,功耗数量级为 Mw/MHz。对于支持同样 ARM 体系版本的处理器,其软件是兼容的。这些处理器广泛应用于以下领域: 开放应用平台 包括无线系统,消费产品以及成像设备等 实现嵌入式应用 包括存储设备,汽车,工业和网络设备 安全系统 包括信用卡和 SIM 卡1.3.1 ARM7 系列ARM7 系列处理器是低功耗的 32 位 RISC 处理器。它主要用于对功耗和成本要求比较苛刻的消费类产品。其最高主频可以达
18、到130MIPS。ARM7 系列处理器支持 16 位的 Thumb 指令集,使用 Thumb 指令集可以以 16 位的系统开销得到 32 位的系统性能。ARM7 系列包括 ARM7TDMI,ARM7TDMI-S ,ARM7EJ-S 和ARM720T 4 种类型,主要用于适应不同的市场需求。ARM7 系类处理器具体应用于以下场合: 个人音频设备(MP3 播放器,WMA 播放器, AAC 播放器) 接入级的无线设备 喷墨打印机 数字照相机 PDAARM7 系类处理器觉有以下主要特点: 成熟的大批量的 32 位 RISC 芯片 最高主频达到 130MIPS 功耗很低 代码密度很高,兼容 16 位的微
19、处理器 得到广泛的操作系统和实时操作系统支持,包括 windows CE,Palm OS,Symbian OS,Linux 以及业界领先的实时操作系统。 众多的开发工具 EDA 仿真模型 优秀的调试机制 业界众多领先的 IC 制造商生产这类芯片 提供 0.25um,0.18um,及 0.13um 的生产工艺 代码与 ARM9 系类,ARM9E,ARM10E 兼容。1.3.2ARM9 系列ARM9 系列处理器使用 ARM9TDMI 处理器核,其中包含了 16 位的Thumb 指令集。使用 Thumb 指令集可以以 16 位的系统开销得到 32 位的系统性能。ARM9 系列包括 ARM920T,A
20、RM922T 和 ARM940T 三种类型,用于适应不同的市场需求。ARM9 系列处理器具体应用在以下场合: 下一代的无线设备,包括视频电话和 PDA 等 数字消费品,包括机顶盒,家庭网关,MP3 播放器和 MPEG4 播放器等 成像设备,包括打印机,数字照相机和数字摄像机等。 汽车,通信和信息系统ARM9E 系列处理器具有以下主要特点: 支持 32 位的 ARM 指令集和 16 位的 Thumb 指令集的 32 位 RISC 处理器 五级整数流水线 单一的 32 位 AMBA 总线接口 MMU 支持 Window CE,Palm OS,Symbian OS,Linux 等 MPU 支持实时操
21、作系统,包括 Vxworks 统一的数据 cache 和指令 cache 提供 0.18um,0.15um 及 0.13um 的生产工艺1.3.3 ARM9E 系列ARM9E 系列处理器使用单一的处理器内核提供了微控制器,DSP,Java 应用系统的解决方案,从而极大的减小了芯片的大小以及复杂程度,降低了功耗,缩短了产品面世时间。ARM9E 系列处理器提供了增强的 DSP 处理能力,非常适合那些需要同时使用 DSP 和微控制器的应用场合。其中的 ARM926EJ-S 包含了 Jazelle 技术,可以通过硬件直接运行Java 代码,提高了系统运行 Java 代码的性能。ARM9E 系列包括 A
22、RM926EJ-S,ARM946E-S 和 ARM966E-S 三种类型,用于适应不同的市场需求。ARM9E 系列处理器具体应用在以下场合: 下一代的无线设备,包括视频电话和 PDA 等 数字消费品,包括机顶盒,家庭网关,MP3 播放器和 MPEG4 播放器等 成像设备,包括打印机,数字照相机和数字摄像机等。 存储设备,包括 DVD 和 HDD 等 工业控制,包括马达控制和能量控制等 汽车,通信和信息系统的 ABS 和车体控制等 网络设备,包括 VoIP,WirelessLAN,xDSL 等ARM9E 系列处理器具有以下主要特点: 支持 32 位的 ARM 指令集和 16 位的 Thumb 指
23、令集的 32 位 RISC 处理器 包括了 DSP 指令集 五级整数流水线 在典型的 0.13um 工艺下,主频可以达到 300MIPS 的性能 集成的实时跟踪和调试功能 单一的 32 位 AMBA 总线接口 可选的 VFP9 浮点处理协处理器 在实时控制和三维图像处理时主频可达到 215MFLOPS 高性能的 AHB 系统 MMU 支持 Window CE,Palm OS,Symbian OS,Linux 等 MPU 支持实时操作系统,包括 Vxworks 统一的数据 cache 和指令 cache 提供 0.18um,0.15um 及 0.13um 的生产工艺1.3.4 ARM10E 系列
24、ARM10E 系列处理器有高性能和低功耗的特点。它所采用的新的体系使其在所有 ARM 产品中具有最高的 MIPS/MHz。ARM10E 系列处理器采用了新的节能模式,提供了 64 位的读取/写入( Load/Store)体系,支持包括向量操作的满足 IEEE754 的浮点运算协处理器,系统集成更加方便,拥有完整的硬件和软件可开发工具。ARM10E 系列包括 ARM1020E,ARM1022E,ARM1026EJ-S 三种类型,主要用于适应不同的市场需求。ARM10E 系列处理器具体应用于以下场合: 下一代的无线设备,包括视频电话,PDA,笔记本电脑和 Internet 设备等 数字消费品,包括
25、机顶盒,家庭网关,MP3 播放器和 MPEG4 播放器等 成像设备,包括激光打印机,数字照相机和数字摄像机等 工业控制,包括马达控制和能量控制等 汽车,通信和信息系统等ARM10E 系列处理器具有以下主要特点: 支持 32 位的 ARM 指令集和 16 位的 Thumb 指令集的 32 位 RISC 处理器。 包括了 DSP 指令集 六级整数流水线 在典型的 0.13um 工艺下,主频可以达到 400MIPS 的性能 单一的 32 位 AMBA 总线接口 可选的 VFP10 浮点处理协处理器 在实时控制和三维图像处理时主频可达到 650MFLOPS 高性能的 AHB 系统 MMU 支持 win
26、dow CE,Palm OS ,Symbian OS,Linux 等 统一的数据 cache 和指令 cache 提供 0.18um,0.15um,0.13um 的生产工艺 并行读取/写入部件1.3.5 SecurCore 系列SecurCore 系列处理器提供了基于高性能的 32 位 RISC 技术的安全解决方案。SecurCore 系列处理器具有体积小,功耗低,代码密度大和性能高等特点外,还具有它自己的特别优势,即提供了安全解决方案的支持。SecurCore 系列处理器具有以下特点: 支持 ARM 指令集和 Thumb 指令集,以提高代码密度和系统性能。 采用软内核技术,以提供最大限度的灵
27、活性,以及防止外部对其进行扫描探测。 提供了安全特性,抵制攻击 提供面向智能卡的和低成本的存储保护单元 MUP 可以集成用户自己的安全特性和其他的协处理器SecurCore 系列包括 SecurCore SC100,SecurCore SC110,SecurCore SC200 和 SecurCore SC210 四种类型,主要用于适应不同的市场需求。SecurCore 系列处理器主要应用于一些安全产品及应用系统,包括电子商务,电子银行业务,网络,移动媒体和认证系统等。1.4 ARM 处理器系列ARM 共有 7 种运行模式,如表 1.3 所示。表 1.3 ARM 处理器的 7 种运行模式处理器
28、模式 描述用户模式 正常程序执行的模式快速中断模式 用于告诉数据传输和通道处理外部中断模式 用于通常的中断处理特权模式 供操作系统使用的一种保护模式数据访问中止模式 用于虚拟存储及存储保护未定义指令中止模式 用于支持通过软件仿真硬件的协处理器系统模式 用于运行特权级的操作系统任务除了用户模式之外的其他 6 种处理器模式称为特权模式,在这些模式下,程序可以访问所有的系统资源,也可以任意地进行处理器模式的切换。其中除系统模式外,其他 5 种特权模式又称为异常模式。处理器模式可以通过软件控制进行切换,也可以通过外部中断或者异常处理过程进行切换。大多数的用户程序运行在用户模式下。这时,应用程序不能够访
29、问一些受操作系统保护的系统资源。应用程序也不能直接进行处理器模式的切换。当需要进行处理器模式切换时,应用程序可以产生异常处理,在异常处理过程中进行处理器模式的切换。这种体系结构可以使操作系统控制整个系统的资源。当应用程序发生异常中断时,处理器进入相应的异常模式。在每一种异常陌生中都有一组寄存器,供相应的异常处理程序使用,这样就可以保护在进入异常模式时,用户模式下的寄存器不被破坏。系统模式并不是通过异常过程进入的,它和用户模式具有完全一样的寄存器。但是系统模式属于特权模式,可以访问所有的胸资源,也可以直接进行处理器模式切换。它主要供操作系统任务使用。通常操作系统的任务需要访问所有的系统资源,同时
30、该任务仍然使用用户模式的寄存器组,而不是使用异常模式下相应的寄存器组,这样可以保证当异常中断发生时任务状态不被破坏。1.5 ARM 寄存器介绍ARM 处理器共有 37 个寄存器。其中包括: 31 个通用寄存器,包括程序计数器(PC)在内,这些寄存器都是 32位寄存器 6 个状态寄存器。这些寄存器都是 32 位寄存器,但目前只适用了其中 12 位。ARM 处理器共有 7 种不同的处理器模式,在每一种处理器模式中有一组相应的寄存器组。任意时刻(也就是任意的处理器模式下) ,可见的寄存器包括 15 个通用寄存器(R0R14) ,一个或者两个状态寄存器及程序计数器。在所有的寄存器中,有些是各模式共用的
31、同一个物理寄存器;有一些寄存器是各模式自己拥有的独立的物理寄存器。表 1.4 列出了各处理器模式下可见的寄存器情况。表 1.4 各种处理器模式下的寄存器用户模式 系统模式 特权模式 中止模式 未定义指令模式 外部中断模式 快速中断模式R0 R0 R0 R0 R0 R0 R0R1 R1 R1 R1 R1 R1 R1R2 R2 R2 R2 R2 R2 R2R3 R3 R3 R3 R3 R3 R3R4 R4 R4 R4 R4 R4 R4R5 R5 R5 R5 R5 R5 R5R6 R6 R6 R6 R6 R6 R6R7 R7 R7 R7 R7 R7 R7R8 R8 R8 R8 R8 R8 R8_FI
32、QR9 R9 R9 R9 R9 R9 R9_FIQR10 R10 R10 R10 R10 R10 R10_FIQR11 R11 R11 R11 R11 R11 R11_FIQR12 R12 R12 R12 R12 R12 R12_FIQR13 R13 R13_svc R13_abt R13_und R13_irq R13_FIQR14 R14 R14_svc R14_abt R14_und R14_irq R14_FIQPC PC PC PC PC PC PCCPSR CPSR CPSR CPSR CPSR CPSR CPSR SPSR_svc SPSR_abt SPSR_und SPSR_i
33、rq SPSR_FIQ1.5.1 通用寄存器通用寄存器可以分为下面 3 类: 未备份的寄存器,包括 R0R7 备份寄存器,包括 R8R14 程序计数器 PC,即 R151、未备份寄存器未备份寄存器包括 R0R7,对于每一个未备份寄存器来说,在所有的处理器模式下指的都是同一个物理寄存器。在异常中断造成处理器模式切换时,由于不同的处理器模式使用相同的物理寄存器,可能造成寄存器数据被破坏。未备份寄存器没有被系统用于特别的用途,任何可采用通用寄存器的应用场合都可以使用未备份寄存器。2、备份寄存器对于备份寄存器 R8R12 来说,每个寄存器对应两个不同的物理寄存器。例如,当使用快速中断模式下的寄存器时,寄存器 R8 和寄存器 R9 分别记作 R8_FIQ,R9_FIQ;当使用用