1、本科毕业论文开题报告计算机科学与技术基于 SVM的手写数字识别的应用与实现一、综述本课题国内外研究动态,说明选题的依据和意义阿 拉 伯 数 字 作 为 唯 一 被 世 界 各 国 通 用 的 符 号 ,是 人 类 文 明 发 展 的 标 志 之 一 ,也 是 人 类 交 流 沟 通 的 主 要 媒 介 。在 人 们 日 常 生 活 当 中 ,离 不 开 数 字 的 使 用 ,我 们 每 天 都 要 进 行 大 量 的 数 字 工 作 处 理 ,比 如 邮 政 编 码 、统 计 报 表 、财 务 报 表 、银 行 汇 款 转 账 等 等 ,如 此 繁 琐 的 数 字 工 作 处 理 占 去 了
2、我 们 很 大 一 部 分 时 间 ,空 间 。而 对 于 ,计 算 机 大 范 围 普 及 ,人 工 智 能 高 度 发 展 的 当 今 社 会 ,利 用 手 写 数 字 识 别 系 统 代 替 人 们 进 行 这 样 繁 重 的 手 工 劳 动 ,备 受 国 内 外 人 士 的 高 度 重 视 。由 于 手 写 数 字 识 别 本 身 的 一 些 特 点 , 对 它 的 研 究 有 及 其 重 要 的 理 论 价 值 : 阿 拉 伯 数 字 是 唯 一 被 世 界 各 国 通 用 的 符 号 ,对 手 写 体 数 字 识 别 的 研 究 基 本 上 与 文 化 背 景 无 关 , 各 地
3、的 研 究 工 作 者 基 于 同 一 平 台 开 展 工 作 , 有 利 于 研 究 的 比 较 和 探 讨 。 手 写 数 字 识 别 应 用 广 泛 ,如 邮 政 编 码 自 动 识 别 ,税 表 系 统 和 银 行 支 票 自 动 处 理 等 。这 些 工 作 以 前 需 要 大 量 的 手 工 录 入 ,投 入 的 人 力 物 力 较 多 ,劳 动 强 度 较 大 。手 写 数 字 识 别 的 研 究 适 应 了 无 纸 化 办 公 的 需 要 , 能 大 大 提 高 工 作 效 率 。 由 于 数 字 类 别 只 有 10 个 , 较 其 他 字 符 识 别 率 较 高 , 可 用
4、 于 验 证 新 的 理 论 和 做 深 入 的 分 析 研 究 。 许 多 机 器 学 习 和 模 式 识 别 领 域 的 新 理 论 和 算 法 都 是 先 用 手 写 数 字 识 别 进 行 检 验 , 验 证 理 论 的 有 效 性 ,然 后 才 应 用 到 更 复 杂 的 领 域 当 中 。这 方 面 的 典 型 例 子 就 是 人 工 神 经 网 络 和 支 持 向 量 机 ( Suppor t Ve c t or Ma c hi ne ) 。 手 写 数 字 的 识 别 方 法 很 容 易 推 广 到 其 它 一 些 相 关 问 题 , 如 对 英 文 之 类 拼 音 文 字 的
5、 识 别 。 事 实 上 , 很 多 学 者 就 是 把 数 字 和 英 文 字 母 的 识 别 放 在 一 起 研 究 的 。手 写 数 字 识 别 的 一 般 原 理 为 :首 先 把 数 字 图 像 经 过 预 处 理 ,然 后 得 到 的 数 据 进 行 特 征 提 取 或 不 用 进 行 特 征 提 取 就 可 以 直 接 输 入 识 别 器 进 行 识 别 得 到 结 果 。手 写 数 字 识 别 的 预 处 理 通 常 包 括 数 字 图 像 的 二 值 化 处 理 、细 化 处 理 等 步 骤 。数 字 图 像 的 二 值 化 处 理 是 将 上 一 步 骤 所 得 到 的 灰
6、 度 数 字 图 像 转 化 为 二 值 数 字 图 像 ,即 在 数 字 图 像 中 区 分 出 字 符 和 背 景 。二 值 化 处 理 方 法 很 多 ,但 考 虑 到 大 量 数 字 识 别 的 需 要 ,一 般 只 能 采 用 一 维 的 阈 值 分 割 算 法 进 行 处 理 以 获 得二 值 化 数 字 图 像 , 预 处 理 技 术 在 当 前 比 较 成 熟 。基 于 SVM的 手 写 数 字 识 别 系 统 主 要 是 利 用 支 持 向 量 机 在 识 别 领 域 良 好 的 识 别 性 能 。对 于 一 个 完 整 的 识 别 系 统 应 包 括 从 图 像 采 集 到
7、 得 出 识 别 结 果 的 过 程 ,由 于 本 系 统 主 要 是 用 来 检 验 支 持 向 量 机 在 手 写 数 字 识 别 系 统 中 的 应 用 ,所 以 在 本 系 统 中 图 像 采 集 、样 本 预 处 理 等 就 不 在 提 及 , 主 要 是 在 特 征 提 取 方 法 和 识 别 器 设 计 上 下 功 夫 。手 写 数 字 识 别 一 共 有 10 类 样 本 , 是 属 于 一 个 多 分 类 问 题 。 那 么 对 于 像 手 写 数 字 识 别 这 样 的 多 类 分 别 问 题 ,支 持 向 量 机 又 怎 样 处 理 呢 ? 实 验 中 可 以 将 多 个
8、 支 持 向 量 机 的 二 类 分 类 器 组 合 起 来 构 成 一 个 多 类 分 类 器 。构 造 一 个 多 类 分 类 器 的 原 理 是 这 样 的 :对 于 一 个 N类 分 类 问 题 ,我 们 需 要 构 造 N个 基 于 支 持 向 量 机 的 二 类 分 类 器 ,每 一 个 二 类 分 类 器 将 N类 中 的 每 一 类 与 其 它 N- 1 类 区 分 开 来 ,识 别 的 时 候 ,只 要 把 输 入 样 本 依 次 输 入 到 N个 分 类 器 ,比 较 N个 分 类 器 的 识 别 结 果 ,就 会 得 到 最 终 的 识 别 结 果 。在 本 系 统 中
9、有 10 类 ,那 就 要 设 计 10 个 二 类 分 类 器 , 比 如 分 类 器 0 将 0 与 1 、 2 、 3 、 4 、 5 、 6 、 7 、 8 、 9 数 字 分 开 。 实 验 时 将 输 入 向 量 输 入 到 10 个 分 类 器 中 进 行 分 类 ,比 较 10 个 分 类 器 的 分 类 参 数 性 能 判 断 输 入 样 本 是 属 于 哪 个 数 字 .在 数 字 识 别 领 域 研 究 重 点 是 特 征 提 取 和 识 别 器 设 计 。在 特 征 提 取 方 面 ,过 去 的 40 年 中 , 人 们 想 出 了 很 多 办 法 获 取 手 写 字
10、符 的 关 键 特 征 。 这 些 手 段 分 两 大 类 : 全 局 分 析 和 结 构 分 析 。 对 前 者 ,我 们 可 以 使 用 模 板 匹 配 、像 素 密 度 、矩 、特 征 点 、数 学 变 换 等 技 术 。这 类 的 特 征 常 常 和 统 计 分 类 方 法 一 起 使 用 。对 后 者 ,多 半 需 要 从 字 符 的 轮 廓 或 骨 架 上 提 取 字 符 形 状 的 基 本 特 征 , 包 括 圈 、 端 点 、 节 点 、 弧 、 突 起 、 凹 陷 、 笔 画 等 。 经 过 多 年 的 研 究 研 究 者 提 出 了 各 种 各 样 识 别 的 方 法 ,比
11、 如 有 一 种 基 于 轮 廓 信 息 进 行 结 构 分 析 的 手 写 体 数 字 识 别 方 法 ,实 验 中 取 得 了 较 好 的 识 别 结 果 。数 字 的 类 别 只 有 十 种 ,笔 划 比 较 简 单 ,其 识 别 问 题 似 乎 不 是 很 困 难 。但 事 实 上 ,一 些 测 试 结 果 表 明 ,数 字 的 正 确 识 别 率 并 不 如 印 刷 体 汉 字 识 别 正 确 率 高 ,甚 至 也 不 如 联 机 手 写 体 汉 字 识 别 率 高 , 而 只 仅 仅 优 于 脱 机 手 写 体 汉 字 识 别 。 这 其 中 主 要 原 因 有 :第 一 , 手
12、写 数 字 字 形 相 差 不 大 , 比 如 “ 1 ” 和 “ 7 ”,“ 3 ” 和 “ 8 ”, 由 于 个 人 书 写 习 惯 不 同 , 书 写 出 来 很 容 易 变 得 很 相 似 , 在 数 字 识 别 系 统 中 , 要 准 确 区 分 开 来 , 就 变 得 很 困 单 ;第 二 ,数 字 虽 然 只 有 十 种 ,而 且 笔 划 简 单 ,但 也 正 是 因 为 数 字 的 笔 画 非 常 简 单 ,同 一 数 字 的 写 法 千 差 万 别 ,世 界 各 国 ,各 地 区 的 书 写 习 惯 、书 写 方 式 都 有 很 大 不 同 ,很 难 做 到 兼 顾 到 各
13、地 区 各 种 写 法 的 数 字 识 别 系 统 的 高 识 别 率 。第 三 ,在 实 际 应 用 中 ,手 写 数 字 识 别 的 精 确 度 要 求 也 比 汉 字 识 别 要 严 格 的 多 。因 为 ,数 字 识 别 常 被 用 到 的 领 域 是 财 会 、金 融 等 ,这 方 面 的 严 格 性 要 求 不 言 而 喻 ,往 往 一 字 之 差 ,带 来 的 差 别 与 损 失 是 无 法 估 量 的 。但 是 数 字 识 别 系 统 的 要 求 并 不 仅 仅 是 识 别 率 ,需 要 处 理 的 数 据 一 般 都 是 大 批 量 的 , 所 以 , 即 使 有 了 高 的
14、 识 别 率 , 没 有 相 当 的 速 度 也 是 行 不 通 的 。近 年 来 支 持 向 量 机 已 经 成 为 模 式 识 别 领 域 的 研 究 热 点 因 此 一 些 学 者 也 开 始 把 支 持 向 量 机 技 术 应 用 到 手 写 数 字 识 别 中 ,例 如 有 研 究 者 把 支 持 向 量 机 技 术 与 神 经 网 络 技 术 结 合 ,构 成一 个 复 合 的 识 别 器 来 识 别 手 写 体 数 字 , 在 实 验 中 该 系 统 取 得 了 很 好 的 识 别 效 果 。但 是 ,支 持 向 量 机 应 用 到 手 写 数 字 识 别 中 也 出 现 了 很
15、 多 有 待 解 决 的 问 题 ,例 如 训 练 时 间 过 长 、 识 别 速 度 慢 等 问 题 , 解 决 这 些 问 题 还 有 待 进 一 步 研 究 。二、研究的基本内容,拟解决的主要问题:研 究 基 本 内 容 : 利 用 M a tlab 语 言 编 程 实 现 算 法 功 能 。 拟 解 决 的 主 要 问 题 :1 、 SVM( 支 持 向 量 机 ) 2 、 算 法 的 设 计 与 实 现 。三、研究步骤、方法及措施:研 究 步 骤 :1 . 查 阅 相 关 资 料 , 做 好 笔 记 ; 仔 细 阅 读 研 究 文 献 资 料 ;2 . 理 清 整 个 课 题 的 思
16、 路 , 撰 写 开 题 报 告 和 文 献 综 述 ; 翻 译 英 文 资 料 ;3 . 根 据 需 求 分 析 , 编 写 算 法 , 实 现 算 法 功 能 ;4 . 撰 写 论 文 ; 上 交 论 文 初 稿 ;5 . 反 复 修 改 论 文 ; 论 文 定 稿 。方 法 、措 施 :充 分 利 用 好 学 校 和 网 络 资 源 ,搜 集 与 SVM相 关 的 资 料 ,仔 细 阅 读 、分 析 、总 结 。 在 老 师 指 导 下 , 与 同 组 同 学 研 究 讨 论 , 解 决 设 计 中 所 碰 到 的 问 题 。四、参考文献 1 蒙 庚 祥 , 方 景 龙 . 基 于 支
17、持 向 量 机 的 手 写 体 数 字 识 别 系 统 设 计 . 计 算 机 工 程 与 设 计 , 2005 ( 26 ) . 6 2 刘 宏 兵 , 熊 盛 武 . 用 于 手 写 数 字 识 别 的 改 进 模 糊 支 持 向 量 机 . 小 型 微 型 计 算 机 系 统 , 2008 ( 29 ) . 05 3 柳 回 春 , 马 树 元 , 吴 平 东 , 李 晓 梅 . 手 写 体 数 字 识 别 技 术 的 研 究 . 计 算 机 工 程 , 2003 ( 29 ) . 4 4 张 学 工 . 关 于 统 计 学 习 理 论 与 支 持 向 量 机 . 自 动 化 学 报 ,
18、 2000 ( 26 ) . 01 5 吴 今 培 . 基 于 核 函 数 的 主 成 分 分 析 及 应 用 . 系 统 工 程 , 2005 ( 23 ) . 02 6 汪 同 庆 , 居 琰 , 任 莉 . 基 于 神 经 网 络 及 多 层 次 信 息 整 合 的 手 写 数 字 识 别 . 小 型 微 型 计 算 机 系 统 , 2003 ( 24 ) . 12 7 卜 富 清 ,王 茂 芝 , 于 庆 刚 . 基 于 BP 神 经 网 络 的 数 字 识 别 . 长 江 大 学 学 报( 自 然 科 学 版 )2 009( 6 ) . 6 8 张 晓 龙 , 任 芳 . 支 持 向
19、 量 机 与 Ada boos t 的 结 合 算 法 研 究 . 计 算 机 应 用 研 究 , 2009 ( 26 ) . 01 9 谭 旭 , 孔 梦 荣 . 基 于 层 次 分 解 决 策 树 的 手 写 体 数 字 识 别 . 微 电 子 学 与 计 算 机 , 2004 . 11 10 Ne l l o Cr i s t i a ni ni ,J ohn Sha we - Ta y l or . 支 持 向 量 机 导 论 . 北 京 工 业 出 版 社 ,2 00 4( 3 ). 1毕业论文文献综述计算机科学与技术基于 SVM 的手写数字识别的应用与实现引言:支 持 向 量 机
20、( Suppor t Ve c t or Ma c hi ne , SVM) 是 由 Va pni k 于 1995 年 提 出 的 针 对 分 类 和 回 归 问 题 的 统 计 学 习 理 论 , 是 在 高 维 特 征 空 间 使 用 线 性 函 数 假 设 空 间 的 学 习 系 统 。 近 年 来 , 其 理 论 研 究 和 算 法 实 现 方 面 都 取 得 了 突 破 性 进 展 ,开 始 成 为 克 服 维 数 灾 难 和 过 学 习 等 传 统 困 难 的 有 力 手 段 。 SVM 方 法 具 有 许 多 引 人 注 目 的 优 点 和 极 有 前 途 的 实 验 性 能
21、, 受 到 了 越 来 越 广 泛 的 重 视 。继 神 经 网 络 之 后 ,该 技 术 已 经 成 为 机 器 学 习 研 究 领 域 中 的 新 热 点 ,并 取 得 了 非 常 理 想 的 效 果 , 在 人 脸 识 别 、 手 写 体 数 字 识 别 和 网 页 分 类 等 领 域 受 到 广 泛 应 用 。手 写 体 数 字 识 别 是 手 写 字 符 识 别 的 一 个 重 要 分 支 ,又 可 分 为 在 线 手 写 体 识 别 和 离 线 手 写 体 识 别 。前 者 识 别 系 统 通 过 记 录 文 字 图 像 抬 笔 、落 笔 、字 迹 上 各 像 素 的 空 间 位
22、置 ,以 及 各 笔 段 之 间 的 时 间 关 系 等 信 息 ,对 手 写 体 字 符 进 行 识 别 ;而 后 者 因 为 是 离 线 识 别 ,无 法 获 取 写 字 者 抬 笔 、落 笔 等 笔 划 信 息 ,因 此 难 度 更 大 ,但 具 有 广 泛 的 应 用 空 间 ,如 银 行 票 据 、工 商 报 表 、 财 务 报 表 等 ,再 如 邮 件 自 动 分 类 等 都 需 要 对 手 写 体 数 字 进 行 识 别 。随 着 信 息 化 及 人 工 智 能 的 发 展 , 手 写 数 字 识 别 的 应 用 市 场 已 经 越 来 越 广 泛 了 。1 研究动态手 写 数
23、字 识 别 在 经 过 过 去 几 十 年 的 研 究 发 展 ,取 得 了 很 大 的 成 功 ,识 别 率 在 90 以 上 , 但 是 作 为 数 字 识 别 它 需 要 非 常 高 的 识 别 精 度 以 及 效 率 ,因 为 数 字 识 别 的 错 误 所 带 来 的 影 响 非 比 寻 常 ,比 文 字 识 别 等 其 他 字 符 识 别 所 带 来 的 影 响 更 大 ,尤 其 在 金 融 、财 会 领 域 数 字 识 别 的 错 误 所 带 来 的 后 果 更 是 不 可 低 估 。手 写 体 数 字 识 别 一 直 是 是 多 年 来 的 研 究 热 点 ,具 有 很 广 泛
24、 的 应 用 范 围 及 很 高 的 商 业 价 值 。目 前 ,市 场 上 也 出 现 了 许 多 手 写 体 数 字 识 别 系 统 的 产 品 ,在 许 多 实 际 应 用 系 统 ( 如 邮 政 编 码 自 动 识 别 系 统 、 银 行 支 票 自 动 处 理 系 统 等 ) 中 都 有 广 泛 的 应 用 。显 然 ,高 精 度 ,高 效 率 的 手 写 体 数 字 识 别 器 能 够 提 高 实 际 应 用 系 统 的 整 体 性 能 ,然 而 现在 还 没 有 哪 个 手 写 体 数 字 识 别 系 统 能 够 达 到 完 美 的 识 别 效 果 。因 此 ,进 一 步 提 高
25、 手 写 数 字 识 别 系 统 的 识 别 精 度 和 速 率 是 每 一 位 手 写 数 字 识 别 系 统 研 究 者 的 奋 斗 目 标 。1929 年 德 国 科 学 家 Ta us he k 利 用 光 学 模 板 匹 配 识 别 ,开 创 了 用 机 器 识 别 文 字 符 的 先 河 。 欧 美 国 家 为 了 将 繁 琐 复 杂 的 材 料 输 入 计 算 机 , 让 其 进 行 信 息 处 理 , 从 50 年 代 就 开 始 了 西 文 光 学 字 符 识 别 ( Opt i e a l Cha r a c t e r Re c og ni t i on, OCR) 的
26、研 究 , OCR 的 意 思 就 演 变 为 了 利 用 光 学 技 术 对 文 字 和 字 符 进 行 扫 描 的 识 别 , 转 化 为 计 算 机 内 码 。 1960 70 年 代 , 世 界 各 国 相 继 开 始 了 OCR 的 研 究 ,OCR 可 以 说 是 一 种 不 确 定 的 技 术 研 究 ,因 为 牵 扯 到 书 写 者 的 书 写 习 惯 , 识 别 的 方 法 ,训 练 测 试 的 样 本 等 因 素 ,都 会 影 响 到 识 别 的 正 确 率 。其 正 确 率 就 像 一 个 趋 势 函 数 , 只 能 趋 近 , 而 不 能 达 到 100 %, 大 家
27、都 以 100 %作 为 研 究 目 标 。世 界 上 第 一 个 将 该 技 术 付 诸 实 用 的 是 日 本 东 芝 公 司 研 发 的 手 写 体 邮 政 编 码 识 别 的 信 函 自 动 分 拣 系 统 , 之 后 , 随 着 时 间 的 推 移 , 各 种 各 样 的 产 品 、 系 统 相 继 问 世 。 中 国 对 于 OCR 方 面 的 研 究 起 步 相 对 较 晚 , 直 到 1989 年 , 清 华 大 学 率 先 推 出 了 国 内 第 一 套 中 文 OCR 软 件 清 华 文 通 TH一 OCR, 至 此 中 国 的 OCR 技 术 正 式 起 步 。随 着 研
28、 究 的 进 展 ,文 字 和 数 字 识 别 市 场 稳 步 扩 大 ,用 户 遍 布 世 界 各 地 。近 几 年 来 ,中 国 国 内 对 于 手 写 数 字 识 别 的 研 究 还 是 相 当 成 功 的 ,取 得 了 很 大 的 成 绩 。手 写 数 字 识 别 技 术 可 以 用 于 邮 政 编 码 、统 计 报 表 、财 务 报 表 、银 行 票 据 等 信 息 处 理 ,一 旦 研 究 成 功 并 投 入 应 用 ,将 产 生 巨 大 的 社 会 和 经 济 效 益 。总 而 言 之 , 手 写 体 数 字 识 别 技 术 的 研 究 是 一 项 复 杂 的 系 统 工 程 ,
29、 虽 然 已 经 经 过 了 20 多 年 的 研 究 和 发 展 ,但 是 在 识 别 精 度 和 速 率 上 仍 然 很 难 符 合 实 际 应 用 的 要 求 ,仍 然 需 要 相 关 的 研 究 工 作 者 一 起 努 力 研 发 ,可 谓 任 重 道 远 。随 着 人 工 智 能 、心 理 学 和 计 算 机 科 学 等 学 科 的 融 合 交 叉 发 展 , 以 及 应 用 市 场 需 求 的 推 动 , 手 写 数 字 识 别 技 术 将 会 取 得 更 进 一 步 的 发 展 。2 SVM(支持向量机)简介2.1 SVM(支持向量机)的特点支 持 向 量 机 方 法 是 建 立
30、 在 统 计 学 习 理 论 的 VC 维 理 论 和 结 构 风 险 最 小 原 理 基 础 上 的 , 根 据 有 限 的 样 本 信 息 在 模 型 的 复 杂 性 和 学 习 能 力 即 对 特 定 训 练 样 本 的 学 习 精 度 和 无 错 误 地 识 别 任 意 样 本 的 能 力 之 间 寻 找 最 佳 的 折 衷 , 来 获 得 最 佳 推 广 能 力 。 它 的 主 要 优 点 有 :( 1 )非 线 性 映 射 是 S V M 方 法 的 理 论 基 础 ,S V M 将 输 入 空 间 中 的 非 线 性 问 题 通 过 引 用 核 函 数 映 射 到 高 维 特 征
31、 空 间 , 然 后 在 高 维 空 间 中 构 造 线 性 函 数 以 作 判 别 。( 2 ) 对 特 征 空 间 划 分 的 最 优 超 平 面 是 S V M 的 目 标 ,最 大 化 分 类 边 际 的 思 想 是 S V M 方 法 的 核 心 ,S V M 算 法 可 最 终 转 化 为 凸 优 化 问 题 ,因 而 可 保 证 算 法 的 全 局 最 优 性 ,避 免 了 神 经 网 络 无 法 解 决 的 局 部 极 值 问 题 。( 3 ) 支 持 向 量 机 是 基 于 结 构 风 险 最 小 化 的 原 则 ,保 证 了 学 习 机 器 具 有 良 好 的 泛 化 能
32、力 。( 4 ) S V M 是 一 种 有 坚 实 理 论 基 础 的 新 颖 的 小 样 本 学 习 方 法 。 它 能 够 自 动 识 别 出 训 练 集 中 的 一 个 子 集 ,此 子 集 基 本 上 可 以 代 表 训 练 集 中 的 全 部 信 息 ,也 就 是 说 只 有 这 个 子 集 对 分 类 及 回 归 问 题 的 求 解 起 作 用 。 从 本 质 上 看 ,它 避 开 了 从 归 纳 到 演 绎 的 传 统 过 程 ,实 现 了 高 效 的 从 训 练 样 本 到 预 报 样 本 的 “ 转 导 推 理 ” ,大 大 简 化 了 通 常 的 分 类 和 回 归 等
33、问 题 。( 5 ) S V M 的 最 终 决 策 函 数 只 由 少 数 的 支 持 向 量 所 确 定 ,计 算 的 复 杂 性 取 决 于 支 持 向 量 的 数 目 ,而 不 是 样 本 空 间 的 维 数 , 它 将 实 际 问 题 通 过 非 线 性 变 换 转 换 到 高 维 的 特 征 空 间 ,在 高 维 空 间 中 构 造 线 性 判 别 函 数 来 实 现 原 空 间 中 的 非 线 性 判 别 函 数 ,特 殊 性 质 能 保 证 机 器 有 较 好 的 推 广 能 力 , 这 在 某 种 意 义 上 避 免 了 “ 维 数 灾 难 ”。( 6 ) 少 数 的 支 持
34、 向 量 决 定 了 最 终 结 果 ,这 帮 助 我 们 抓 住 了 关 键 样 本 并“ 剔 除 ”了 大 量 冗 余 样 本 ; 而 且 , 使 用 该 方 法 不 但 算 法 比 较 简 单 ,而 且 还 具 有 较 强 的 “ 鲁 棒 ” 性 , 主 要 体 现 为 : 增 加 、 删 减 非 支 持 向 量 的 样 本 不 会 对 模 型 造 成 影 响 ; 支 持 向 量 样 本 集 也 具 有 较 好 的 “ 鲁 棒 性 ”; 在 一 些 应 用 中 ,S V M 方 法 对 核 的 选 择 范 围 比 较 广 泛 。2.2 SVM(支持向量机)原理SVM以 统 计 学 习 理
35、 论 为 基 础 , 它 具 有 很 强 的 学 习 能 力 以 及 泛 化 性 能 。 SVM学 习 结 果 是 支 持 向 量 的 集 合 ,一 般 是 学 习 样 本 集 中 的 一 小 部 分 ,支 持 向 量 集 可 以 充 分 的 体 现 整 个 样 本 集 的 属 性 。SVM学 习 用 优 化 方 法 得 到 的 结 果 是 全 局 最 优 解 ,不 会 产 生 传 统 方 法 中 的 过 学 习 和 局 部 最 小 等 问 题 。 SVM学 习 结 果 为 支 持 向 量 集 , 通 常 是 学 习 样 本 集 的 一 小 部 分 ,支 持 向 量 集 充 分 体 现 了 整
36、 个 样 本 集 的 属 性 。SVM 方 法 是 通 过 一 个 非 线 性 映 射 , 把 样 本 空 间 映 射 到 一 个 高 维 乃 至 无 穷 维 的 特 征 空 间 中 ( H i l be r t 空 间 ) , 使 得 在 原 来 的 样 本 空 间 中 非 线 性 可 分 的 问 题 转 化 为 在 特 征 空 间 中 的 线 性 可 分 的 问 题 . 简 单 地 说 , 就 是 升 维 和 线 性 化 . 升 维 , 就 是 把 样 本 向 高 维 空 间 做 映 射 , 一 般 情 况 下 这 会 增 加 计 算 的 复 杂 性 , 甚 至 会 引 起 维 数 灾 难
37、 , 因 而 人 们 很 少 问 津 。但 是 作 为 分 类 、回 归 等 问 题 来 说 , 很 可 能 在 低 维 样 本 空 间 无 法 线 性 处 理 的 样 本 集 , 在 高 维 特 征 空 间 中 却 可 以 通 过 一 个 线性 超 平 面 实 现 线 性 划 分 ( 或 回 归 ) . 一 般 的 升 维 都 会 带 来 计 算 的 复 杂 化 , SVM 方 法 巧 妙 地 解 决 了 这 个 难 题 : 应 用 核 函 数 的 展 开 定 理 , 就 不 需 要 知 道 非 线 性 映 射 的 显 式 表 达 式 ; 由 于 是 在 高 维 特 征 空 间 中 建 立
38、线 性 学 习 机 , 所 以 与 线 性 模 型 相 比 , 不 但 几 乎 不 增 加 计 算 的 复 杂 性 , 而 且 在 某 种 程 度 上 避 免 了 维 数 灾 难 . 这 一 切 要 归 功 于 核 函 数 的 展 开 和 计 算 理 论 .选 择 不 同 的 核 函 数 , 可 以 生 成 不 同 的 SVM, 常 用 的 核 函 数 有 以 下 几 种 :i)ji)j线 性 核 函 数 : K ( X , X( X . X多 项 式 核 函 数 : K( Xi , X j )( Xi . X j )1 q径 向 基 ( R B F) 核 函 数 :K( X , X )exp
39、2XiXj2ij3 基于 SVM(支持向量机)手写数字识别的特征提取问题对 于 手 写 数 字 图 像 , 虽 然 没 有 人 脸 图 像 那 样 有 更 多 的 维 数 , 但 是 像 64 64 维 、 32 32 维 对 于 手 写 数 字 识 别 系 统 来 说 已 经 算 多 了 ,如 果 直 接 拿 去 进 行 训 练 识 别 将 会 大 大 影 响 系 统 的 识 别 速 度 、 效 率 等 , 因 此 进 行 特 征 提 取 还 是 有 必 要 的 。基 于 核 的 主 成 分 分 析 方 法 是 传 统 主 成 分 分 析 ( PCA) 方 法 的 推 广 。对 于 样 本
40、集 x1 , xn ,主 成 分 方 向 是 矩 阵 cnx x1Tiin i 1的 特 征 向 量 。 对 x 进 行 非 线 性 变 换( x ) , 可 得 到1 nn i 1i( x )iT( x ), 其 特 征 向 量 v 就 是 原 样 本 集 的 非 线 性 主 成 分 方 向 , 满 足 vCv 。 将每 个 样 本 与 该 式 内 积 , 得 :i( x ).v( x ).Cv, i1,., niii可 以 证 明 , 特 征 向 量 v 可 以 写 成 v( x ) , 定 义 矩 阵 :i jK K ( ( x ) .( x ) ) K ( x , x ) iii ji
41、jK 为 矩 阵 的 第 i 行 第 j 列 个 元 素 , 可 以 得 到 :nK1其 中, . . . ,T ,从 矩 阵 K的 特 征 向 量即 可 求 出 C 的 特 征 向 量 v,即( x ) 空 间n的 主 成 分 方 向 ,可 获 得 所 要 求 的 特 征 值 和 特 征 向 量 。 对 于 原 空 间 中 的 任 意 向 量 x ,它 在 变 换空 间 中 的 主 成 分 是 ( x ) 在 主 成 分 方 向 v 上 的 投 影 , 即 :v. ( x )nii( x ) .i 1( x )iiK ( x , x )显 然 , 这 里 得 到 的 非 线 性 主 成 分
42、方 法 只 需 在 原 空 间 中 计 算 用 作 内 积 的 核 函 数iiK( x , x) 。基 于 核 的 主 成 分 分 析 方 法 进 行 特 征 提 取 中 要 采 用 核 函 数 ,实 验 中 可 采 用 各 种 核 函 数 进 行 实 验 比 较 它 们 的 效 果 。4 总结相 比 BP 神 经 网 络 , SVM具 有 算 法 简 单 、 无 需 先 验 知 识 、 易 于 控 制 、 易 于 训 练 、 稳 定 性 好 等 优 点 . 虽 然 SVM 可 以 很 好 地 解 决 小 样 本 情 况 下 的 识 别 问 题 , 但 是 如 果 能 够 收 集 更 多 的
43、训 练 样 本 仍 然 对 提 高 识 别 率 是 有 益 的 . 一 个 好 的 手 写 数 字 识 别 系 统 不 但 要 有 良 好 的 识 别 性 能 , 而 且 要 有 良 好 的 识 别 速 度 和 识 别 效 率 ,只 有 这 样 才 能 在 实 际 系 统 中 得 到 广 泛 的 应 用 。基 于 支 持 向 量 机 的 手 写 数 字 识 别 系 统 要 想 在 实 际 中 得 到 应 用 就 必 须 解 决 这 两 方 面 的 问 题 。支 持 向 量 机 有 很 强 的 学 习 能 力 和 较 好 的 泛 化 性 能 ,因 此 系 统 在 识 别 性 能 上 是 比 较
44、好 的 ,但 是 在 识 别 速 度 、 识 别 效 率 上 就 有 待 提 高 。 手 写 数 字 识 别 是 一 个 大 样 本 识 别 , 因 此 也 会 有 支 持 向 量 多 的 缺 点 。基 于 支 持 向 量 机 的 手 写 数 字 识 别 系 统 有 较 好 的 识 别 性 能 ,只 要 解 决 识 别 速 度 、识 别 效 率 问 题 将 会 使 系 统 得 到 更 广 泛 的 应 用参考文献 1 蒙 庚 祥 , 方 景 龙 . 基 于 支 持 向 量 机 的 手 写 体 数 字 识 别 系 统 设 计 . 计 算 机 工 程 与 设 计 , 2005 ( 26 ) . 6
45、2 刘 宏 兵 , 熊 盛 武 . 用 于 手 写 数 字 识 别 的 改 进 模 糊 支 持 向 量 机 . 小 型 微 型 计 算 机 系 统 , 2008 ( 29 ) . 05 3 柳 回 春 , 马 树 元 , 吴 平 东 , 李 晓 梅 . 手 写 体 数 字 识 别 技 术 的 研 究 . 计 算 机 工 程 , 2003 ( 29 ) . 4 4 张 学 工 . 关 于 统 计 学 习 理 论 与 支 持 向 量 机 . 自 动 化 学 报 , 2000 ( 26 ) . 01 5 吴 今 培 . 基 于 核 函 数 的 主 成 分 分 析 及 应 用 . 系 统 工 程 ,
46、2005 ( 23 ) . 02 6 汪 同 庆 , 居 琰 , 任 莉 . 基 于 神 经 网 络 及 多 层 次 信 息 整 合 的 手 写 数 字 识 别 . 小 型 微 型 计 算 机 系 统 , 2003 ( 24 ) . 12 7 卜 富 清 ,王 茂 芝 , 于 庆 刚 . 基 于 BP 神 经 网 络 的 数 字 识 别 . 长 江 大 学 学 报( 自 然 科 学 版 )2 009( 6 ) . 6 8 张 晓 龙 , 任 芳 . 支 持 向 量 机 与 Ada boos t 的 结 合 算 法 研 究 . 计 算 机 应 用 研 究 , 2009 ( 26 ) . 01 9
47、 谭 旭 , 孔 梦 荣 . 基 于 层 次 分 解 决 策 树 的 手 写 体 数 字 识 别 . 微 电 子 学 与 计 算 机 , 2004 . 11 10 Ne l l o Cr i s t i a ni ni ,J ohn Sha we - Ta y l or . 支 持 向 量 机 导 论 . 北 京 工 业 出 版 社 ,2 00 4( 3 ). 1本科毕业论文( 20届 )基于 SVM 的手写数字识别的应用与实现专 业 : 计 算 机 科 学 与 技 术摘要手 写 数 字 识 别 是 字 符 识 别 的 一 个 分 支 , 虽 然 只 是 识 别 简 单 的 10 个 数 字 , 但 却 有 着 非 常 大 的 实 用 价 值 。在 文 献 检 索 、邮 政 系 统 、办 公 自 动 化 、表 格 录 入 、银 行 票 据 处 理 等 方 面 都 有
版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如有侵权请立即联系:2622162128@qq.com ,我们立即下架或删除。
Copyright© 2022-2024 www.wodocx.com ,All Rights Reserved |陕ICP备19002583号-1
陕公网安备 61072602000132号 违法和不良信息举报:0916-4228922