1、利用 Virtex-5 FPGA 实现最低功耗解决方案过 渡 至 65 纳 米 工 艺 的 FPGA 具 备 采 用 更 小 尺 寸 工 艺 所 带 来 的 优 势 : 低 成 本 、 高 性 能 和 更强 的 逻 辑 能 力 。 尽 管 这 些 优 势 能 够 为 高 级 系 统 设 计 带 来 激 动 人 心 的 机 会 , 但 65 纳 米 工 艺节 点 本 身 也 带 来 了 新 的 挑 战 。 例 如 , 在 为 产 品 选 择 FPGA 时 , 功 耗 的 考 虑 变 得 越 来 越 重要 。 很 可 能 下 一 代 设 计 会 需 要 在 功 耗 预 算 不 变 (或 更 小 )
2、的 情 况 下 , 集 成 更 多 的 特 性 和 实 现更 高 的 性 能 。 本 文 将 分 析 功 耗 降 低 所 带 来 的 益 处 , 还 将 介 绍 Virtex-5 器 件 中 所 采 用 的 多 种 技 术 和 结 构上 的 革 新 , 它 们 能 提 供 功 耗 最 低 的 解 决 方 案 , 并 且 不 牺 牲 性 能 。 降 低 功 耗 的 好 处 低 功 耗 的 FPGA 设 计 所 带 来 的 优 势 不 仅 是 能 满 足 器 件 工 作 的 散 热 要 求 。 虽 然 满 足 元 件 指标 对 于 性 能 和 可 靠 性 十 分 重 要 , 但 如 何 实 现 这
3、 一 点 对 于 系 统 成 本 和 复 杂 性 都 有 着 巨 大 的 影响 。 首 先 , 降 低 FPGA 的 功 耗 使 设 计 人 员 能 够 采 用 更 便 宜 的 电 源 , 这 样 的 电 源 使 用 的 元 件 数量 较 少 , 并 且 占 用 的 PCB 面 积 也 较 小 。 高 性 能 电 源 系 统 的 成 本 通 常 为 每 瓦 0.5 到 1 美 元 。低 功 耗 的 FPGA 直 接 降 低 了 系 统 的 整 体 成 本 。 其 次 , 由 于 功 耗 直 接 与 散 热 相 关 , 低 功 耗 使 设 计 人 员 能 够 使 用 更 简 单 、 更 便 宜
4、的 热 量 管 理解 决 方 案 。 在 很 多 情 况 下 , 设 计 者 将 不 再 需 要 散 热 器 , 或 者 只 需 要 更 小 、 更 便 宜 的 散 热 器 。最 后 , 由 于 低 功 耗 工 作 意 味 着 更 少 的 元 件 和 更 低 的 器 件 温 度 , 因 此 将 提 高 整 个 系 统 的 可 靠性 。 器 件 工 作 温 度 每 降 低 10 , 就 相 当 于 元 件 寿 命 提 高 了 两 倍 , 因 此 对 于 需 要 高 可 靠 性的 系 统 而 言 , 控 制 功 耗 和 温 度 十 分 重 要 。 功 耗 : 挑 战 和 解 决 方 案 FPGA(
5、或 任 何 半 导 体 器 件 )中 的 总 功 耗 等 于 静 态 功 耗 和 动 态 功 耗 之 和 。 静 态 功 耗 主 要 由 晶体 管 的 泄 漏 电 流 引 起 , 即 晶 体 管 在 逻 辑 上 被 关 断 时 , 从 源 极 “泄 漏 ”到 漏 极 或 通 过 栅 氧 “泄漏 ”的 小 电 流 。 动 态 功 耗 是 器 件 核 心 或 I/O 在 开 关 过 程 中 消 耗 的 能 量 , 与 频 率 相 关 。 静 态 功 耗 在 缩 小 晶 体 管 尺 寸 时 (例 如 , 从 90 纳 米 到 65 纳 米 ), 泄 漏 电 流 将 会 增 大 。 新 工 艺 节 点
6、 所 使用 的 短 沟 长 和 薄 栅 氧 使 电 流 更 容 易 从 晶 体 管 的 沟 道 区 或 通 过 栅 氧 泄 漏 。 在 90 纳 米 Virtex-4 系 列 产 品 中 , 赛 灵 思 公 司 使 用 了 “三 栅 极 氧 化 层 ”的 工 艺 技 术 , 向 电 路设 计 者 提 供 了 一 种 强 有 力 的 阻 止 漏 电 工 具 。 在 前 几 代 FPGA 中 , 使 用 两 种 栅 氧 厚 度 : 薄栅 氧 用 于 FPGA 核 心 中 高 性 能 、 低 工 作 电 压 的 晶 体 管 , 而 厚 栅 氧 用 于 I/O 模 块 中 尺 寸 较大 , 需 要 承
7、 受 大 电 压 的 晶 体 管 。 简 言 之 , “三 栅 极 氧 化 层 ”指 增 加 一 种 中 间 厚 度 栅 氧 的 晶 体管 , 它 的 漏 电 比 薄 栅 氧 的 核 心 晶 体 管 要 小 得 多 。 “中 间 栅 氧 ”的 晶 体 管 用 在 器 件 核 心 外 围 非 关 键 性 能 的 电 路 (像 设 置 存 储 器 )或 不 需 要 对 变 化的 栅 压 进 行 快 速 开 关 响 应 的 电 路 (像 传 输 门 )中 。 薄 栅 氧 、 漏 电 最 大 的 晶 体 管 只 保 留 在 需 要快 速 开 关 速 度 的 路 径 部 分 。 结 果 , 总 的 器
8、件 漏 电 大 幅 减 小 , 同 时 性 能 比 上 一 代 FPGA 有很 大 提 高 。 三 栅 极 氧 化 层 工 艺 使 Virtex-4 器 件 比 竞 争 性 90 纳 米 FPGA 在 静 态 功 耗 上 平 均 减 少 了 超 过70%。 这 一 结 果 非 常 成 功 , 因 此 Virtex-5 系 列 产 品 中 大 量 使 用 了 这 一 技 术 , 在 65 纳 米 工艺 节 点 上 降 低 漏 电 。 尽 管 业 界 预 测 65 纳 米 器 件 的 静 态 功 耗 将 会 大 幅 提 高 , 但 是 图 1 显 示 了 三 栅 极 氧 化 层 工 艺使 65 纳
9、 米 Virtex 器 件 在 最 坏 (温 度 最 高 )工 作 条 件 下 达 到 了 与 尺 寸 相 当 的 90 纳 米 Virtex-4器 件 相 同 水 平 的 静 态 功 耗 。 因 此 , Virtex-5 系 列 产 品 和 竞 争 性 高 性 能 FPGA 产 品 相 比 ,在 静 态 功 耗 方 面 具 有 真 正 的 优 势 。 图 1: Virtex-4 与 Virtex-5 器 件 在 85 时 的 静 态 功 耗 比 较 。 动 态 功 耗 动 态 功 耗 为 65 纳 米 FPGA 带 来 一 些 其 它 方 面 的 挑 战 。 动 态 功 耗 的 公 式 为
10、: 动 态 功 耗 =CV2f 其 中 , C 是 总 开 关 电 容 、 V 是 电 源 电 压 、 f 是 开 关 频 率 。 65 纳 米 工 艺 使 FPGA 的 逻 辑 能力 和 性 能 比 传 统 器 件 有 了 显 著 提 高 , 也 就 是 说 更 多 的 结 点 工 作 在 更 高 的 频 率 上 。 如 果 其 它方 面 的 条 件 不 变 , 动 态 功 耗 将 会 增 大 。 不 过 对 于 动 态 功 耗 而 言 , 也 有 一 个 好 消 息 : FPGA电 源 电 压 和 结 点 电 容 通 常 在 每 一 代 新 工 艺 中 都 会 下 降 , 从 而 使 得
11、动 态 功 耗 比 上 一 代FPGA 有 所 下 降 。 Virtex-5 器 件 中 , 核 心 电 源 电 压 (VCCINT)从 Virtex-4 中 所 使 用 的 1.2V 下 降 到 1.0V。 由 于寄 生 电 容 变 小 (与 更 小 的 晶 体 管 相 关 ), 以 及 逻 辑 块 间 的 互 联 线 长 度 变 短 、 电 容 变 小 , 使 结点 电 容 减 小 。 此 外 , Virtex-5 器 件 在 金 属 互 联 层 之 间 使 用 了 一 种 介 电 常 数 较 低 的 材 料 。 Virtex-5 器 件 的 平 均 结 点 电 容 比 Virtex-4
12、器 件 大 约 减 小 了 15%。 加 上 电 压 降 低 带 来 的 好 处 ,至 少 相 当 于 将 Virtex-5 器 件 的 核 心 动 态 功 耗 降 低 了 3540%。 除 了 因 工 艺 尺 寸 缩 小 到 65 纳 米 所 致 固 有 的 3540%动 态 功 耗 降 低 外 , Virtex-5 器 件 的 架构 创 新 还 能 进 一 步 降 低 每 个 设 计 的 功 耗 。 大 多 数 可 增 加 动 态 功 耗 的 结 点 电 容 , 是 由 逻 辑 单元 间 的 互 连 线 引 起 的 。 新 型 Virtex-5 架 构 从 以 下 方 面 减 小 了 连
13、线 电 容 : Virtex-5 的 可 配 置 逻 辑 模 块 (CLB)是 基 于 6 输 入 查 找 表 (6-LUT)逻 辑 结 构 的 , 在 以 前 的 器 件中 是 使 用 4 输 入 查 找 表 。 这 意 味 着 在 每 个 LUT 中 能 够 实 现 更 多 的 逻 辑 , 相 当 于 较 少 的 逻辑 级 , 从 而 降 低 了 对 逻 辑 单 元 之 间 大 电 容 连 线 的 需 求 。 Virtex-5 的 互 联 结 构 目 前 包 括 了 对 角 线 对 称 的 连 线 , 意 味 着 每 个 CLB 与 所 有 相 邻 的 模 块(包 括 处 于 对 角 线
14、位 置 的 模 块 )之 间 都 有 直 接 的 “单 一 ”连 接 。 当 逻 辑 功 能 之 间 需 要 连 接 时 ,这 一 连 接 更 有 可 能 成 为 总 电 容 最 小 的 “单 一 ”连 接 , 而 以 往 的 互 联 结 构 对 于 相 同 的 连 接 问 题可 能 会 需 要 两 个 或 更 多 结 点 。 6-LUT 结 构 和 改 进 的 互 联 模 式 , 通 过 降 低 平 均 结 点 电 容 来 降 低 核 心 动 态 功 耗 , 效 果 远 远 超过 仅 使 用 65 纳 米 工 艺 所 带 来 的 改 进 。 图 2 显 示 了 来 自 标 准 设 计 的 核
15、 心 动 态 功 耗 的 测 量 结果 , 其 中 每 个 Virtex-5 器 件 和 Virtex-4 器 件 中 都 有 1,024 个 8 位 计 数 器 。 这 些 实 际 的 测量 结 果 显 示 , 工 艺 和 结 构 上 的 共 同 优 化 所 带 来 的 动 态 功 耗 的 降 低 超 过 了 50%。 图 2: Virtex-4 与 Virtex-5 FPGA 中 的 基 准 计 数 器 设 计 动 态 功 耗 比 较 。 硬 IP 模 块 Virtex-5 器 件 中 所 包 含 的 硬 IP 模 块 (专 门 用 来 实 现 一 些 常 用 功 能 的 电 路 )数 量
16、 , 超 过 业 界 其他 任 何 一 款 FPGA。 相 比 使 用 通 用 FPGA 逻 辑 而 言 , 使 用 搭 载 这 些 模 块 的 FPGA 设 计 来实 现 相 同 功 能 , 可 进 一 步 降 低 功 耗 。 与 FPGA 结 构 不 同 , 这 些 专 用 模 块 中 只 含 有 为 实 现 所 要 求 功 能 而 必 需 的 晶 体 管 , 并 且 没有 可 编 程 的 互 联 , 因 此 互 联 电 容 最 小 。 较 少 的 晶 体 管 和 较 小 的 结 点 电 容 能 降 低 静 态 和 动 态功 耗 。 因 而 这 些 专 用 模 块 在 实 现 相 同 功
17、能 的 同 时 , 功 耗 只 有 采 用 通 用 FPGA 结 构 的 十 分之 一 。 除 了 增 加 新 型 的 专 用 模 块 之 外 , Virtex-4 器 件 中 融 合 的 很 多 模 块 , 在 Virtex-5 器 件 中 都 被重 新 设 计 , 以 增 加 新 的 特 性 , 提 高 性 能 并 降 低 功 耗 。 例 如 , Virtex-4 系 列 中 18Kb 的block RAM 存 储 器 在 Virtex-5 器 件 中 被 增 加 到 了 36Kb; 每 个 block RAM 能 被 分 成 两 个独 立 的 18Kb 的 存 储 器 , 以 便 向 下
18、 兼 容 Virtex-4 的 设 计 。 有 趣 的 是 , 从 功 耗 的 角 度 来 看 , 每 个 18Kb 的 子 模 块 由 两 个 9Kb 的 物 理 存 储 阵 列 构 成 。对 于 大 多 数 block RAM 配 置 , 任 何 对 block RAM 的 读 写 请 求 一 次 只 需 要 访 问 9Kb 物 理存 储 器 中 的 一 个 。 因 此 其 余 的 9Kb 存 储 器 能 在 不 被 访 问 时 可 有 效 地 “关 断 ”。 在 过 渡 至 65纳 米 工 艺 所 带 来 的 功 耗 降 低 的 基 础 上 , 这 种 结 构 又 使 功 耗 进 一 步
19、 降 低 了 50%。 这 一 对 于9Kb 模 块 的 乒 乓 式 存 取 是 新 型 block RAM 结 构 所 固 有 的 , 这 就 意 味 着 使 用 这 项 功 能 不 需要 用 户 或 软 件 来 进 行 控 制 。 它 能 动 态 并 自 动 地 进 行 , 使 所 有 使 用 block RAM 的 设 计 降 低了 大 量 的 功 耗 , 并 且 不 会 影 响 模 块 的 性 能 。 Virtex-5 器 件 中 专 用 的 DSP 元 件 也 进 行 了 大 量 的 改 进 , 以 实 现 更 多 的 功 能 , 提 高 性 能 并降 低 功 耗 。 在 片 与 片
20、 的 功 耗 比 较 中 , 新 型 的 Virtex-5 DSP 片 比 Virtex-4 DSP 片 降 低 了 大约 40%。 这 主 要 归 功 于 前 面 所 讨 论 的 65 纳 米 工 艺 中 电 压 和 电 容 的 减 小 。 然 而 , 由 于 Virtex-5 DSP 片 具 有 更 强 的 功 能 和 更 广 泛 的 接 口 , 许 多 DSP 运 算 通 过 利 用 这些 附 加 的 功 能 进 一 步 降 低 了 功 耗 。 在 许 多 情 况 下 , 当 使 用 新 型 DSP 片 的 全 部 功 能 时 , 总功 耗 最 高 可 降 低 75%。 即 使 你 不
21、是 在 设 计 一 个 DSP 产 品 , 也 能 使 用 DSP 片 来 实 现 标 准的 逻 辑 功 能 (计 数 器 、 加 法 器 、 桶 式 移 位 器 ), 这 样 会 比 在 标 准 FPGA 逻 辑 中 实 现 同 样 的 功能 节 省 功 耗 。 最 后 介 绍 经 过 改 进 的 专 用 模 块 Virtex-5 系 列 的 LXT 平 台 , 其 中 包 括 了 几 吉 位 的 串 行收 发 机 , 能 以 高 达 3.125Gbps 的 速 率 工 作 。 这 些 “SERDES”模 块 在 实 现 时 着 重 考 虑 了 低功 耗 需 求 。 每 个 Virtex-5
22、 LXT 器 件 中 的 全 双 工 收 发 机 在 3.125Gbps 的 速 度 下 的 总 功 耗 小于 100mW, 与 Virtex-4 串 行 收 发 机 相 比 降 低 了 大 约 75%。 与 Virtex-4 系 列 产 品 一 样 , Virtex-5 器 件 也 采 用 了 一 系 列 工 艺 和 架 构 上 的 革 新 , 力 求 在 提供 尽 可 能 低 的 功 耗 的 同 时 , 仍 然 使 性 能 提 高 30%或 更 多 。 如 图 3 所 示 , Virtex-5 系 列 产品 的 静 态 功 耗 与 Virtex-4 器 件 相 当 , 但 比 竞 争 性 FPGA 具 有 明 显 的 优 势 。 图 3: 典 型 设 计 中 现 有 FPGA 器 件 的 功 耗 比 较 。 Virtex-5 器 件 核 心 的 动 态 功 耗 比 市 场 上 其 高 性 能 FPGA 低 至 少 3540%。 新 型 6-LUT 和对 角 线 对 称 的 互 联 等 架 构 上 的 革 新 , 使 实 际 核 心 动 态 功 耗 进 一 步 降 低 了 50%或 以 上 。 此外 , 利 用 改 进 的 专 用 模 块 也 进 一 步 降 低 了 功 耗 。