1、何 题 硕 士 学 位 论 文 答 辩 委 员 会 成 员 名 单 姓 姓 名 名 职 称 称 单 位 位 备 注 注 顾 顾 国 庆 庆 教 授 华 东 师 范 大 学 学 主 席 席 王 王 新 伟 伟 副 教 授 授 华 东 师 范 大 学 学 学 刘 刘 素 霞 霞 副 教 授 授 华 东 师 范 大 学 摘 要 蛋 白 质 家 族 识 别 与 分 类 预 测 是 “后 基 因 组 时 代 ”重 要 任 务 之 一 。 细 胞 因 子 是 一 类 由 免 疫 细 胞 和 其 它 相 关 细 胞 产 生 的 能 够 调 节 细 胞 功 能 的 高 活 性 多 功 能 的 低 分 子 量
2、蛋 白 质 。 它 在 人 类 许 多 重 要 生 理 活 动 中 扮 演 着 重 要 的 角 色 。 对 细 胞 因 子 家 族 特 别 是 未 知 其 功 能 的 细 胞 因 子 进 行 识 别 和 分 类 预 测 , 不 仅 有 助 于 直 接 阐 明 生 命 体 在 生 理 或 病 理 条 件 下 的 变 化 机 制 , 而 且 对 生 物 制 药 、 疾 病 治 疗 等 应 用 领 域 具 有 直 接 的 指 导 作 用 , 因 而 具 有 重 要 的 研 究 意 义 。 然 而 , 面 对 日 渐 增 长 的 蛋 白 质 序 列 数 据 , 寻 找 一 种 快 速 而 准 确 的
3、计 算 方 法 来 预 测 蛋 白 质 家 族 并 确 定 其 功 能 , 一 直 以 来 是 生 物 信 息 学 研 究 巫 待 解 决 的 难 点 和 关 键 问 题 之 一 。 本 文 在 深 入 分 析 现 有 蛋 白 质 功 能 预 测 方 法 的 理 论 基 础 上 , 以 机 器 学 习 理 论 中 的 支 持 向 量 机 方 法 为 基 本 工 具 , 探 讨 了 氨 基 酸 和 二 肤 混 合 组 成 、 二 肤 组 成 和 长 度 、 伪 氨 基 酸 组 成 等 多 种 特 征 提 取 方 法 , 并 在 此 基 础 上 开 发 了 细 胞 因 子 家 族 识 别 与 分
4、类 预 测 软 件 C yto K ey 。 对 比 测 试 结 果 表 明 , C yto K ey 识 别 和 分 类 细 胞 因 子 的 精 度 较 以 前 方 法 有 显 著 的 提 高 , 尤 其 是 二 肤 组 成 和 长 度 特 征 方 法 , 优 于 国 际 上 最 新 发 布 的 细 胞 因 子 预 测 软 件 C T KP red 。 目 前 , C yto K cy 已 提 供 了 w eb 服 务 ( h t tP :/ /m e d 一 e o m P u tin g .e o m ) 。 关 键 词 : 支 持 向 量 机 , 细 胞 因 子 , 特 征 向 量 ,
5、 分 类 预 测 A b s tr a e t R e e o g n itio n a n d e la ssif ie a tio n o f P ro te in f am ily a e o n e o f t he m o st im P o r ta n t m issio n s in P o st 一 g e n o m ie era . C yto k in e s are a k in d o f P ro te in th at are P ro d u ee d b y inun u n o e yte s o r re late d e e lls to re g u
6、 late fun e tio n s o f e e rta in ee lls. T h e y P la y im P o rtan t ro le s in m an y P h y sio lo g iea l a etiv itie s o f h um an . T h e P re d ietio n o f c yto k in e 几 m ilie s, e sP e e ia lly th o se e yto k in e s W h o se fun e tio n s ae u n k n o wn , n o t o n ly h e lP s to r ev e
7、 a l th e P a th o lo g ie a l o r P h y s io lo g ie a l tra n s f or m a tio n m e e h a n ism o f a b o d y , b u t a lso m a k e s a d ire e t g u id e to su e h a p P lie a tio n f ie ld s a s b io lo g ie a l P h a n a e y a n d d ise a se t e a tm e n t. T h e re f o re it 15 o f g re a t im
8、P o r ta n e e to d o th is r ese a re h . H o w e v e r, in f ac e o f t he in e re a sin g d a ta o f P ro te in se q u e n e e s , it 15 a lw a y s d if i e u lt to f in d a n e f e e tiv e e o m P u ta tio n a l m e th o d to P re d ie t P ro te in f am ilie s a n d d e te r m in e th e ir f un
9、e tio n s , w h ie h 15 still o n e o f th e m o st e h a lle n g e s f o r b io in f o r m a tie s re se a rc h . T h is P a p e r f irst a n a ly z e s th e e x istin g P re d ic tio n m e th o d o f P ro t:in , a n d illu stra te s m u ltiP le f ea tu re e x tra e tio n m e t h o d s in e lu d in
10、 g a m in o a e id 蛋 白 质 数 据 , 则 是 用 二 十 种 氨 基 酸 组 成 的 序 列 来 表 示 。 面 对 这 些 数 据 , 人 类 迫 切 需 要 知 道 它 们 的 具 体 结 构 和 相 关 功 能 , 特 别 是 对 于 蛋 白 质 , 其 不 同 的 空 间 结 构 决 定 着 不 同 的 生 物 功 能 , 而 目 前 在 分 子 生 物 学 水 平 上 , 对 于 蛋 白 质 的 分 类 绝 大 部 分 都 是 基 于 它 们 的 结 构 或 者 功 能 。 因 此 , 对 这 些 数 据 的 分 类 预 测 工 作 显 得 必 不 可 少 。
11、 作 为 蛋 白 质 中 极 为 特 殊 重 要 一 类 的 细 胞 因 子 , 必 须 通 过 对 它 们 的 原 始 序 列 做 出 高 精 度 的 识 别 和 分 类 这 一 途 径 , 才 能 准 确 了 解 各 种 未 知 类 型 细 胞 因 子 的 结 构 和 功 能 , 从 而 使 得 人 们 能 够 在 分 子 水 平 上 掌 握 各 种 相 关 疾 病 的 本 源 , 为 生 物 学 、 医 学 、 病 理 学 等 相 关 学 科 提 供 巨 大 的 帮 助 。 2 0 世 纪 90 年 代 以 来 , 随 着 人 类 基 因 组 计 划 的 顺 利 进 行 直 至 完 成
12、, 随 着 遗 传 物 质 研 究 工 作 的 深 入 开 展 , 以 及 其 它 模 式 的 生 物 信 息 的 挖 掘 , 科 学 界 己 获 得 了 浩 如 烟 海 的 基 因 D N A 分 子 序 列 和 蛋 白 质 分 子 的 氨 基 酸 序 列 , 呈 现 在 人 们 面 前 的 是 几 乎 以 十 个 月 翻 一 番 的 速 率 飞 速 增 长 的 原 始 数 据 【1。 为 了 进 一 步 的 研 究 , 人 类 迫 切 需 要 知 道 这 些 遗 传 物 质 的 功 能 、 甚 至 是 每 一 个 片 断 对 生 命 特 征 的 影 响 , 以 此 从 分 子 学 水 平
13、的 角 度 上 寻 找 疾 病 发 生 的 本 质 , 为 人 类 疾 病 的 预 防 、 诊 断 和 治 疗 提 供 捷 径 。 常 用 的 基 本 方 法 , 就 是 通 过 生 物 学 实 验 的 手 工 测 定 来 获 取 各 序 列 结 构 和 功 能 , 尽 管 有 小 规 模 的 批 量 处 理 方 法 l, 然 而 , 当 数 据 大 规 模 地 急 剧 增 长 时 , 批 量 处 理 方 式 己 远 远 不 能 跟 上 , 这 就 变 成 了 一 项 相 当 费 时 和 昂 贵 的 低 效 工 作 , 于 是 生 物 信 息 学 (Bi nin form ai cS ) 应
14、运 而 生 。 生 物 信 息 学 是 一 门 从 理 论 角 度 , 用 计 算 机 学 、 统 计 学 、 物 理 学 、 细 胞 生 物 学 、 化 学 等 各 类 学 科 交 叉 而 成 的 观 点 , 来 研 究 海 量 的 生 物 遗 传 数 据 的 交 叉 学 科 l。 作 为 新 兴 的 边 缘 学 科 , 它 以 计 算 机 为 主 要 工 具 , 对 D N A 或 蛋 白 质 的 序 列 、 结 构 进 行 收 集 、整 理 、存 储 、 检 索 与 分 析 , 以 帮 助 人 们 认 识 生 命 的 本 质 , 达 到 揭 示 数 据 所 蕴 涵 的 生 物 学 意 义
15、 的 目 的 。 如 今 生 物 信 息 学 已 在 国 内 外 成 为 实 验 室 常 规 技 术 之 一 , 运 用 生 物 信 息 学 方 法 来 分 析 已 知 基 因 、 蛋 白 质 序 列 数 据 , 预 测 未 知 功 能 , 从 海 量 的 生 物 数 据 中 发 现 规 律 , 提 取 有 用 信 息 , 避 免 了 很 多 不 必 要 的 步 骤 , 指 导 生 物 学 实 验 , 极 大 地 节 省 了 人 力 、 物 力 和 财 力 , 缩 减 了 时 间 的 耗 费 。 .2 .2 国 内 外 研 究 现 状 国 内 外 各 大 生 物 实 验 室 很 早 就 开 始
16、 通 过 运 用 人 工 实 验 的 方 法 , 对 各 类 基 因 和 蛋 白 质 的 结 构 功 能 进 行 分 类 测 定 , 如 前 文 所 述 , 随 着 数 据 量 的 增 大 , 这 类 方 法 必 不 能 胜 任 大 批 量 规 模 的 工 作 , 而 自 上 个 世 纪 末 兴 起 的 生 物 信 息 学 方 法 的 运 用 亦 正 逐 步 向 成 熟 迈 进 。 国 际 上 在 生 物 信 息 学 这 一 领 域 中 的 研 究 较 国 内 稍 早 几 年 , 对 于 蛋 白 质 包 括 细 胞 因 子 家 族 的 识 别 分 类 , 近 20 年 以 来 涌 现 出 各
17、种 不 同 的 方 法 和 工 第 一 章 绪 论 具 。 其 发 展 至 今 , 提 出 并 己 被 广 泛 接 受 的 基 本 方 法 有 好 几 种 , 如 立 足 于 统 计 学 习 理 论 之 机 器 学 习 方 法 的 , 如 隐 马 氏 模 型 (H id d en M ak ov M o d el,H M M ) 2 , 人 工 神 经 网 络 (A rtificial N eu tralN etw ork ,A N N ) 【3 一 5等 , 这 类 方 法 取 得 了 一 定 的 效 果 , 但 由 于 其 对 于 有 限 样 本 的 处 理 具 有 很 大 的 局 限 性
18、 , 使 得 发 展 停 滞 不 前 。 同 时 , 一 些 基 于 相 似 度 的 序 列 比 对 型 数 据 库 搜 索 工 具 , 如 基 本 局 部 相 似 性 比 对 搜 索 工 具 (a asi。 L o eal A lignm ent s eac h To o l, B L A S T ) 6 和 FA S TA 工 具 7 等 也 已 纷 纷 应 用 于 实 践 , 但 此 类 方 法 只 能 局 限 于 对 具 有 同 源 性 结 构 的 序 列 进 行 识 别 和 分 类 ,而 当 面 对 相 似 度 小 的 序 列 之 时 , 其 优 势 便 荡 然 无 存 。 还 有
19、一 些 其 他 方 法 如 演 化 分 析 算 法 (E v o lu tio n 娜 劫 aly sis ) 8, 9, 基 因 /蛋 白 质 融 合 (G ene 用 rotein F u sion ) 10 , 11, 保 守 序 列 识 别 (M otifs R eeo 即 ition ) 12 等 , 它 们 在 理 论 上 达 到 了 一 定 的 成 熟 度 , 但 实 践 应 用 相 对 很 少 。 H uan g 等 人 于 2005 年 提 出 了 基 于 支 持 向 量 机 的 细 胞 因 子 分 类 预 测 识 别 方 法 C T KP red 131 , 该 方 法 提
20、 取 二 肤 组 成 成 分 为 特 征 , 并 同 基 于 序 列 比 对 搜 索 方 法 的 数 据 库 P fam 作 了 比 较 , 在 细 胞 因 子 家 族 识 别 的 层 面 上 , 其 预 测 效 果 有 一 定 的 提 升 , 但 是 , 其 未 在 细 胞 因 子 家 族 和 亚 家 族 分 类 的 层 面 上 同 P fam 作 比 较 , 所 以 无 法 知 道 家 族 和 亚 家 族 分 类 效 果 的 好 坏 。 2 0 0 7 年 , X u 等 人 提 出 了 基 于 支 持 向 量 机 的 细 胞 因 子 受 体 识 别 方 法 C yt0 S V M 【14
21、 , 该 方 法 综 合 使 用 了 诸 如 氨 基 酸 组 成 ( A m in o A eid e o m p o sitio n ) 、 疏 水 性 ( H y do p h o b ieity ) 、 标 准 范 德 华 体 积 (N o rm alized 珑 n d er 认 /aals Vo lum e )、 极 性 (P o l 而 ty )、 极 化 率 (P o larizab ility )、 电 荷 (e h 雌 e )、 表 面 张 力 (s urfac e Te n sio n )、 二 级 结 构 ( S eeon d 娜 StruetUr e )、 溶 解 性
22、( s olve ni A coessibility ) 等 多 种 特 征 提 取 方 法 , 对 细 胞 因 子 受 体 进 行 识 别 预 测 , 但 由 于 该 系 统 同 其 他 相 关 系 统 或 文 献 作 比 较 , 所 以 其 效 果 的 优 劣 亦 无 法 得 知 。 2 0 0 8 年 初 , L ata S 等 人 提 出 了 基 于 P S I 一 B L A S T 方 法 的 细 胞 因 子 分 类 预 测 方 法 C yto Pred 15 , 该 方 法 预 测 结 果 较 好 , 但 是 对 样 本 的 选 取 有 较 强 的 针 对 性 , 这 体 现 在
23、 结 果 不 是 很 稳 定 , 即 不 同 的 样 本 的 可 能 会 导 致 不 同 的 结 果 , 所 以 该 方 法 也 存 在 一 定 的 局 限 性 。 本 文 从 氨 基 酸 序 列 结 构 、 氨 基 酸 物 理 化 学 性 质 等 多 角 度 出 发 , 对 细 胞 因 子 采 用 多 种 不 同 的 特 征 提 取 方 法 , 来 对 其 进 行 识 别 和 分 类 预 测 , 并 同 H ua ng 等 人 开 发 的 C T K Pred 系 统 作 一 定 的 比 较 , 并 取 得 了 较 好 的 效 果 。 第 一 章 绪 论 1.3 主 要 研 究 工 作 1.
24、3 .1 论 文 的 主 要 内 容 细 胞 因 子 的 预 测 工 作 长 期 以 来 作 为 生 命 科 学 中 基 因 和 蛋 白 质 的 预 测 研 究 中 一 个 子 课 题 , 其 重 要 性 是 不 言 而 喻 的 。 本 文 采 用 了 机 器 学 习 理 论 中 较 为 年 轻 的 支 持 向 量 机 方 法 , 从 特 征 向 量 提 取 方 式 这 一 角 度 入 手 , 多 方 面 地 对 细 胞 因 子 的 识 别 和 分 类 预 测 进 行 研 究 , 其 目 的 是 为 了 寻 找 出 一 种 或 一 些 能 够 很 好 地 对 细 胞 因 子 进 行 预 测 的
25、 方 法 和 过 程 , 并 搭 建 平 台 工 具 , 以 推 动 细 胞 因 子 的 后 续 相 关 研 究 进 程 。 论 文 的 主 要 工 作 有 以 下 几 个 方 面 : (l) 系 统 地 描 述 了 细 胞 因 子 这 一 类 重 要 蛋 白 质 的 基 本 概 念 和 生 物 信 息 学 的 产 生 背 景 与 发 展 历 史 , 概 括 地 介 绍 了 国 内 外 的 研 究 现 状 , 着 重 阐 述 了 近 年 来 国 内 外 最 新 的 研 究 进 展 。 (2) 详 述 了 进 行 识 别 和 分 类 预 测 工 作 所 需 涉 及 的 理 论 知 识 基 础 ,
26、 包 括 机 器 学 习 方 法 和 统 计 学 习 理 论 , 并 阐 释 了 支 持 向 量 机 的 基 本 原 理 及 其 工 作 过 程 , 并 选 择 了 一 种 解 决 支 持 向 量 机 的 多 类 分 类 问 题 方 法 。 同 时 , 还 介 绍 了 序 列 特 征 选 取 的 原 理 和 意 义 , 及 评 价 预 测 效 果 的 验 证 方 法 。 (3) 分 析 了 传 统 的 特 征 提 取 方 法 氨 基 酸 组 成 成 分 , 实 现 了 二 肤 组 成 成 分 特 征 方 法 , 总 结 了 两 者 的 优 劣 特 性 。 并 且 , 在 此 基 础 之 上 提
27、 出 了 氨 基 酸 和 二 肤 混 合 组 成 、 二 肤 组 成 和 长 度 特 征 的 方 法 , 另 外 还 提 出 了 一 种 基 于 氨 基 酸 疏 水 特 性 的 伪 氨 基 酸 组 成 特 征 方 法 。 将 这 三 种 方 法 同 参 考 文 献 【13 的 C T KP red 系 统 作 比 较 , 发 现 二 肤 组 成 和 长 度 特 征 的 提 取 方 法 比 C T K P red 能 更 为 有 效 地 对 细 胞 因 子 进 行 识 别 和 分 类 预 测 。 (4) 根 据 上 述 提 出 的 三 类 特 征 提 取 方 法 , 构 建 了 we b 服 务
28、 系 统 C yto K ey , 以 提 供 服 务 。 1.3 .2 论 文 结 构 论 文 的 内 容 结 构 安 排 如 下 : 第 一 章 “绪 论 ”, 主 要 介 绍 了 本 研 究 课 题 的 目 的 和 意 义 , 阐 述 研 究 背 景 , 并 分 析 了 国 内 外 研 究 现 状 , 最 后 介 绍 了 论 文 的 主 要 研 究 工 作 。 第 二 章 “相 关 理 论 基 础 ”, 详 细 介 绍 了 论 文 中 需 使 用 到 的 基 本 理 论 知 识 , 包 括 机 器 学 习 方 法 理 论 、 统 计 学 习 理 论 , 以 及 支 持 向 量 机 方 法
29、 理 论 ; 讨 论 了 支 持 向 量 机 对 于 多 类 分 类 问 题 的 解 决 办 法 , 介 绍 了 特 征 向 量 提 取 方 法 的 原 理 , 以 及 实 验 结 果 验 证 方 法 和 验 证 指 标 。 第 一 章 绪 论 第 三 章 “基 于 多 种 特 征 的 细 胞 因 子 预 测 研 究 ”, 具 体 阐 述 多 种 特 征 提 取 方 法 的 建 模 过 程 、 原 理 和 相 对 应 的 实 验 结 果 , 并 做 出 一 定 的 分 析 讨 论 。 其 中 涵 盖 了 氨 基 酸 组 成 和 二 肤 组 成 这 两 种 传 统 的 特 征 提 取 方 法 的
30、 分 析 , 及 新 提 出 的 多 肤 混 合 组 成 、 二 肤 组 成 和 长 度 特 征 、 伪 氨 基 酸 特 征 这 三 种 特 征 提 取 方 法 的 实 验 方 法 、 同 C T KP red 系 统 的 对 比 结 果 。 第 四 章 “We b 服 务 系 统 发 布 ”, 详 细 地 描 述 了 we b 服 务 系 统 C yto K ey 的 开 发 目 的 、 模 型 构 建 、 系 统 结 构 流 程 和 输 入 输 出 的 处 理 过 程 。 第 五 章 “总 结 与 展 望 ”, 对 论 文 进 行 了 系 统 的 总 结 , 分 析 了 论 文 的 创 新
31、 之 处 和 存 在 的 不 足 之 处 ; 同 时 , 还 对 进 一 步 要 做 的 研 究 工 作 进 行 了 展 望 。 第 二 章 相 关 理 论 基 础 第 二 章 相 关 理 论 基 础 2.1 统 计 学 习 理 论 机 器 学 习 (M ach ine L eam ing ) 是 计 算 机 科 学 中 人 工 智 能 领 域 的 核 心 内 容 , 是 智 能 技 术 的 重 中 之 重 。 所 谓 的 机 器 学 习 , 简 言 之 就 是 从 一 堆 已 知 信 息 的 有 限 的 数 据 当 中 寻 找 规 律 , 形 成 一 个 模 型 , 然 后 利 用 该 模
32、型 对 未 知 数 据 进 行 识 别 和 预 测 【161。 长 期 以 来 , 对 于 机 器 学 习 方 法 没 有 一 个 统 一 的 数 学 理 论 , 科 学 界 存 在 着 多 种 不 同 的 机 器 学 习 方 法 , 如 模 式 识 别 、 贝 耶 斯 网 络 、 人 工 神 经 网 络 等 等 。 这 些 理 论 归 根 到 底 都 是 基 于 传 统 的 统 计 学 。 我 们 知 道 , 传 统 的 统 计 学 是 一 门 渐 进 理 论 , 它 研 究 的 是 样 本 数 量 趋 于 无 穷 大 时 候 的 情 况 , 纵 使 现 有 不 少 的 学 习 方 法 是
33、基 于 此 , 显 然 在 实 际 问 题 中 , 样 本 数 量 均 为 有 限 , 那 些 理 论 上 很 优 秀 的 方 法 终 成 纸 上 谈 兵 , 尤 其 是 面 对 一 些 小 数 目 样 本 的 情 况 , 传 统 的 统 计 学 更 是 显 得 手 无 缚 鸡 之 力 。 在 物 p n ik 等 人 的 带 领 研 究 下 , 统 计 学 习 理 论 ( stai si ca l Le arnin g T h eo ry , S LT ) 由 此 而 诞 生 【17 , 该 理 论 直 接 针 对 有 限 样 本 特 别 是 小 样 本 情 况 下 的 机 器 学 习 规
34、律 , 从 此 , 机 器 学 习 领 域 进 入 了 一 个 新 的 时 代 。 统 计 学 习 理 论 为 机 器 学 习 方 法 构 建 了 一 个 完 整 的 理 论 框 架 , 并 且 在 不 断 地 完 善 和 进 步 之 中 , 对 于 原 先 遗 留 的 一 些 疑 难 杂 症 如 神 经 网 络 结 构 选 择 、 局 部 极 小 点 等 问 题 , 都 将 有 望 得 到 解 决 。 同 时 , 物 p n ik 一 行 提 出 了 支 持 向 量 机 ( S u p p ortVe eto r M aeh in e , s V M ) 这 一 新 颖 的 机 器 学 习
35、方 法 【18 , 32 , 更 是 对 统 计 学 习 理 论 的 锦 上 添 花 。 近 年 来 , 支 持 向 量 机 已 在 人 工 智 能 方 面 的 模 式 识 别 领 域 , 多 用 于 仿 真 和 对 比 试 验 35 , 如 文 本 识 别 、 人 脸 识 别 、 遥 感 图 像 分 析 等 等 多 个 领 域 发 挥 越 来 越 重 要 的 作 用 , 极 大 地 推 动 机 器 学 习 的 发 展 16 。 2.2 支 持 向 量 机 理 论 支 持 向 量 机 , 概 括 地 说 , 它 是 一 种 分 类 工 具 , 是 一 种 建 立 在 统 计 学 习 理 论 基
36、 础 之 上 的 机 器 学 习 方 法 。 通 过 用 已 知 数 据 对 其 进 行 训 练 , 它 可 以 自 动 寻 找 那 些 能 最 大 程 度 区 分 样 本 的 数 据 , 构 建 出 模 型 , 再 通 过 该 模 型 来 对 未 知 数 据 做 出 分 类 【18 。 S V M 具 有 良 好 的 泛 化 能 力 , 所 谓 的 泛 化 能 力 , 就 是 指 一 种 机 器 学 习 方 法 , 对 具 有 同 一 规 律 的 学 习 集 ( 也 叫 训 练 集 ) 以 外 的 数 据 仍 能 进 行 正 确 响 应 的 能 力 , 也 就 是 学 到 隐 含 在 数 据
37、 背 后 规 律 的 能 力 , 也 称 作 推 广 能 力 。 尤 其 是 对 于 优 先 样 本 第 二 章 相 关 理 论 基 础 或 小 样 本 , S V M 具 有 较 高 的 分 类 准 确 率 等 特 点 。 当 今 时 期 , 在 模 式 识 别 、 回 归 分 析 、 概 率 密 度 估 计 等 相 关 领 域 , 都 少 不 了 S V M 这 个 重 要 工 具 , 可 以 说 , S V M 已 成 为 一 种 通 用 流 行 的 机 器 学 习 方 法 。 S V M 集 中 了 以 下 三 大 方 面 的 优 点 : (l) 因 为 S V M 特 别 针 对 了
38、 有 限 样 本 情 况 下 的 训 练 学 习 , 所 以 , 同 传 统 的 统 计 学 中 , 样 本 数 量 趋 于 无 穷 大 时 的 理 论 最 优 值 相 比 , S V M 能 得 到 确 实 存 在 的 最 优 解 , 这 并 非 一 个 可 望 而 不 可 及 的 数 值 。 (2) 将 数 据 通 过 非 线 性 变 换 转 换 到 高 维 的 特 征 空 间 , 数 据 的 信 息 用 特 征 空 间 中 的 向 量 来 表 示 , 低 维 空 间 中 线 性 不 可 分 的 数 据 在 高 维 空 间 中 变 得 线 性 可 分 , 然 后 构 造 一 个 线 性 的
39、 判 别 函 数 便 可 分 出 样 本 , 大 大 降 低 了 运 算 的 复 杂 度 。 (3) S v M 算 法 的 根 本 是 二 次 寻 优 问 题 , 巧 妙 地 回 避 了 神 经 网 络 中 难 以 解 决 的 局 部 极 小 值 问 题 , 从 而 得 到 全 局 最 优 解 。 2.2 .1 机 器 学 习 基 本 问 题 为 更 好 地 理 解 S V M 的 原 理 和 过 程 , 首 先 介 绍 一 下 机 器 学 习 的 基 本 问 题 。 机 器 学 习 的 目 的 , 是 根 据 已 知 训 练 样 本 做 出 估 计 , 使 其 能 较 好 的 描 述 某
40、个 系 统 输 入 与 输 出 之 间 的 依 赖 关 系 , 从 而 尽 可 能 准 确 地 对 未 知 样 本 做 出 预 测 。 设 有 n 个 独 立 同 分 布 样 本 , 如 式 (2 一 l) 所 示 : (xl, 必 ), (x Z, 夕 2), , (xn , 凡 ) (2 一 1) 其 中 , 每 个 样 本 的 变 量 x 和 y 分 别 表 示 该 样 本 的 输 入 和 输 出 , 通 过 在 一 组 函 数 f (x, o, ) 中 求 一 个 最 优 函 数 f (x, % ) 对 x 和 y 的 依 赖 关 系 进 行 估 计 , 目 的 是 使 得 期 望 风
41、 险 泛 函 (2 一 2) 达 到 最 小 。 R(o, )一 JL(, , f(x, 口 )dF (x, ) (2 一 2) 这 里 , f( x , 。 ) 称 为 预 测 函 数 集 , 它 可 以 用 任 意 函 数 集 来 表 示 , 。 是 函 数 的 广 义 参 数 , L( 少 , f (x , 。 )是 损 失 函 数 , 它 表 示 用 预 测 函 数 f (x , 。 )对 输 出 结 果 为 y 的 样 本 进 行 预 测 而 造 成 的 损 失 , F (x, 夕 ) 是 变 量 x 和 y 的 联 合 分 布 函 数 。 预 测 函 数 是 机 器 学 习 的 核
42、 心 , 也 称 作 学 习 模 型 。 机 器 学 习 基 本 问 题 可 分 为 模 式 识 别 、 函 数 逼 近 和 概 率 密 度 估 计 这 三 类 【18 , 本 文 所 研 究 的 细 胞 因 子 分 类 预 测 , 属 于 模 式 识 别 领 域 。 在 模 式 识 别 问 题 中 , 样 本 的 输 出 y 是 分 类 标 志 , 对 于 最 基 本 的 二 类 分 类 , y 被 定 义 为 y = O , 1 或 y = 一 1, +l , 此 时 的 预 测 函 数 又 称 为 判 断 函 数 , 损 失 函 数 可 以 定 义 为 式 (2 一 3) : 0 , y
43、 = f (x , 必 ) :(, , 、 (, 必 )一 l, y 笋 f (x , 。 ) (2 一 3) 第 二 章 相 关 理 论 基 础 2.2 .1.1 经 验 风 险 最 小 化 人 们 发 现 , 仅 凭 式 (2 一 l) 所 含 有 的 信 息 , 无 法 使 得 式 (2 一 2) 的 R( 必 ) 达 到 最 小 。 在 传 统 的 解 决 办 法 中 , 采 用 经 验 风 险 最 小 化 (E m Pirical 形 sk M in i m izai on , E 枷 )原 则 20 , 用 样 本 定 义 的 经 验 风 险 泛 函 天 娜 (劝 来 替 换 R(
44、 。 ) , 作 为 对 式 (2 一 2) 的 估 计 。 从 式 (2 一 4) 可 以 看 到 , E R M 实 际 上 就 是 使 损 失 即 错 误 达 到 最 小 。 1 声 _ 尺 mP(必 卜 一 乙 L (戈 n 在 i , f (xi, 。 ) (2 一 4 ) 但 是 这 种 用 E R M 替 代 期 望 风 险 最 小 化 的 方 法 并 不 合 理 , 长 期 以 来 从 未 经 过 充 分 的 理 论 论 证 , 随 着 不 断 地 应 用 , 其 弊 端 也 日渐 凸 现 。 一 方 面 , E R M 原 则 是 在 样 本 容 量 趋 于 无 穷 大 时
45、, 对 期 望 风 险 的 逼 近 才 有 相 对 较 好 的 结 果 , 而 绝 大 多 数 的 统 计 学 习 理 论 实 际 问 题 , 都 是 小 样 本 情 况 下 的 机 器 学 习 , 即 使 有 大 容 量 样 本 , 也 离 无 穷 大 数 目 相 去 甚 远 。 另 一 方 面 , 是 “过 学 习 ”现 象 , 即 , 当 使 凡 mP(动 最 小 时 却 并 不 总 能 获 得 最 好 的 分 类 效 果 , 有 时 候 甚 至 会 使 效 果 变 差 , 人 工 神 经 网 络 的 在 这 方 面 的 不 成 功 便 是 一 个 典 型 的 教 训 , 因 为 尺 ,
46、 (o) 过 小 很 可 能 会 导 致 模 型 的 推 广 能 力 下 降 , 也 就 是 所 谓 的 “真 实 风 险 ”的 增 加 。 具 体 地 说 ,用 越 复 杂 的 模 型 去 拟 和 一 个 有 限 容 量 的 样 本 , 能 达 到 的 拟 和 效 果 越 好 , 其 极 端 情 况 就 是 记 住 了 每 一 个 样 本 ,此 时 ,经 验 风 险 能 够 迅 速 收 敛 至 最 小 ; 然 而 , 它 对 未 知 样 本 的 预 测 能 力 即 推 广 能 力 却 越 不 理 想 。 一 个 经 典 的 例 子 , 就 是 用 函 数 f (x, 哟 = sin(o x)
47、 ( 。 是 待 定 参 数 ) 去 拟 和 一 组 y 取 值 在 0, l上 的 实 数 样 本 x , 对 20 , 这 里 , 总 能 找 到 一 个 使 RcmP(动 为 零 的 。 , 但 显 而 易 见 该 正 弦 函 数 并 不 能 代 表 该 样 本 模 型 。 另 外 , E R M 原 则 还 受 到 噪 声 的 影 响 , 如 在 有 噪 声 的 情 况 下 , 将 一 组 样 本 x , 扩 分 别 用 一 次 函 数 和 二 次 函 数 去 拟 和 , 多 次 重 复 试 验 结 果 却 显 示 一 次 函 数 获 得 的 分 类 效 果 较 好 【171 。 由
48、于 样 本 模 型 的 复 杂 性 与 推 广 能 力 这 一 对 矛 盾 的 客 观 存 在 , 近 几 年 来 E R 加 1 方 法 逐 渐 为 人 们 所 摒 弃 。 2 .2 .1.2 结 构 风 险 最 小 化 基 于 E R M , 统 计 理 论 学 的 专 家 学 者 们 提 出 了 结 构 风 险 最 小 化 (Structural RI Sk M in im ization , s R M ) 原 则 15。 在 此 涉 及 到 两 个 概 念 : V C 维 和 推 广 性 的 界 。 对 于 v e 维 (物 p n ik e h ervo n enk is D im
49、 en sio n ), 目 前 最 流 行 的 通 用 定 义 是 模 式 识 别 中 的 直 观 定 义 : 一 个 判 断 函 数 集 中 的 函 数 , 能 把 一 个 容 量 为 n 的 样 本 集 按 照 所 有 2n 种 形 式 分 开 的 最 大 n 值 , 称 为 该 函 数 集 的 v c 维 【17 , 18 。 可 见 , V C 维 代 表 了 函 数 集 所 建 立 模 型 的 复 杂 度 , 模 型 的 复 杂 度 越 大 , 其 学 习 能 力 也 越 强 。 前 面 的 例 第 二 章 相 关 理 论 基 础 子 中 , 函 数 f (x, a ) 二 sin(o x) 的 V C 维 是 无 穷 大 。 推 广 性 的 界 , 简 言 之 , 就 是 经 验 风 险 和 实 际 风 险 之 间 的 关 系 。 在 分