EPUB电子书标准研究.doc

上传人:gs****r 文档编号:1431861 上传时间:2019-02-27 格式:DOC 页数:13 大小:38KB
下载 相关 举报
EPUB电子书标准研究.doc_第1页
第1页 / 共13页
EPUB电子书标准研究.doc_第2页
第2页 / 共13页
EPUB电子书标准研究.doc_第3页
第3页 / 共13页
EPUB电子书标准研究.doc_第4页
第4页 / 共13页
EPUB电子书标准研究.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

1、EPUB 电子书标准研究摘要回顾 EPUB开放式电子书标准的发展历程;重点分析 EPUB 3.0标准的结构,并通过 EPUB3.0格式的电子书白鲸记加以展示;最后概括 EPUB3.0在国内外的应用情况及特点。 关键词电子书标准 EPUB 3.0 数字出版 开放电子书论坛 中图分类号G237 文献标识码 A 文章编号 1009-5853 (2013) 02-0089-06 1 EPUB 发展历程 近一二十年,国内外电子书产业迅猛发展。作为一种新型出版物形态,电子书的内容、格式、质量、平台、版权等方面都需要相关标准支持。目前,与电子书有关的标准可大致分为电子文档结构定义和描述标准、多媒体格式标准、

2、编码标准、元数据标准、版权标准等。其中,EPUB(Electronic publication的缩写,电子出版)是一个免费开放的电子书格式标准,由 1999年 9月发布的开放电子书结构(Open eBook Publication Structure,OEBPS)标准不断改进演变而来。提出 OEBPS标准的开放电子书论坛(Open eBook Forum,OeBF)也随着 EPUB电子书标准的发展更名为国际数字出版论坛(The International Digital Publishing Forum,IDPF ) 。EPUB 标准从 OEBPS 1.0到 EPUB 3经历了将近 14年时间

3、,根据标准名称的变化可划分为三个发展阶段。 1.1 第一阶段 OEBPS 1.* OEBPS 1.*阶段包括三个版本的标准:1999 年 9月,OeBF 发布 OEBPS 1.0版本。在随后的应用中,发现该规范存在含糊、错误、不足等地方,于是 OeBF于 2001年 6月发布了 1.0.1版本,修复 1.0版本存在的问题。2002年 8月,OEBPS 1.2版本发布,新功能的增加和格式、显示等方面功能的增强使开放式电子书标准得到进一步完善。 但是,OEBPS 1.2标准也存在缺点。如其元数据(metadata)部分基于都柏林核心集(Dublin Core,DC) ,主要是描述性元数据,虽然可以

4、采用 x-metadata方式进行扩展,但是能力有限,在管理性元数据方面比较欠缺1。又如 OEBPS1.2不支持数学公式,也没有解决数字权利管理(Digital Rights Managem,DRM)问题2。 1.2 第二阶段 EPUB 2.* 2006 年 10月,IDPF 发布开放容器格式(Open Container Format,OCF)1.0 版本。次年 9月,发布开放出版物结构(Open Publication Structure,OPS) 2.0版和开放包裹格式(Open Packaging Format,OPF ) 2.0版。OPS 2.0、OPF 2.0以及 OCF 1.0共

5、同构成 EPUB 2.0电子书标准,并取代 OEBPS 1.2成为 IDPF的正式标准。EPUB 2.0使用 XHTML或 DTBook 2005来展现文字,并以 zip压缩格式来包裹档案内容;在版权处理方面,支持对 OCF容器中的内容文件进行加密;在文件布局和显示方面,出版商可以通过样式表来控制布局,打破固定的行和页,从而呈现流动的文本3。 但是,EPUB 2.0依旧不能支持数学公式,并需要进一步在出版商的控制性和用户的方便性之间寻找平衡。2010 年 7月 2日,IDPF 发布 EPUB 2.0.1版本,组成部分分别升级为 OPS 2.0.1、OPF 2.0.1和 OCF 2.0.1。然而

6、,该标准只是纠正前一版本中的错误和不一致,并没有从根本上改变功能。如新标准依然不能完美支持多媒体内容,无法支持读者和电子书互动,不支持标准注释功能,也无法实现精确排版。 1.3 第三阶段 EPUB 3.0 2011 年 10月 11日,IDPF 宣布完成 EPUB 3.0版本的制定。与 EPUB 2.0.1相比,新版本在很多方面进行了修正、改进和删除,使得开放式电子书标准更加完善。以下将详细分析 EPUB3的结构和应用实例。 2 EPUB 3.0 结构及实例 EPUB 3.0标准在文件结构上有很大改动,将复杂重复的内容进行了整合修改,并且为了更好地体现电子书在多媒体文件方面的运用,新增了多媒体

7、方面的规范。 2.1 标准结构 从标准结构来看, EPUB 3.0主要由 4个规范组成:Publication 3.0、Content Documents 3.0、Open Container Format 3.0和 Media Overlays 3.0。 2.1.1 EPUB Publications 3.0 EPUB Publications 3.0规范取代了之前的 OPF 2.0.1,定义了 EPUB 3格式出版物的层次和符合性要求。它的主要内容是关于包裹文件(Package Document)的,包含电子出版物的目录顺序和相关结构性资料,是电子阅读器如何处理及显示 EPUB电子书的主要

8、信息来源。包裹文件将出版物的信息资料有效地集中在一起,并配上详细说明,使阅读器能准确识别整本电子书的结构以及阅读顺序。包裹文件主要内容有:元数据(metadata) ,用于描述电子书相关信息;资源清单(manifest) ,将电子书的所有资源进行描述定义;结构顺序(spine) ,预设电子书的阅读顺序4。 2.1.2 EPUB Content Documents 3.0 EPUB Content Documents 3.0规范取代了 OPS 2.0.1,但是所规定的内容并没有改变,即对电子书的内容进行定义:首先,整个电子书内容必须为基于 HTML 5的 XHTML文件,每章内容的定义语句均要符

9、合XHTML的语法规则;其次,该规范定义了 CSS层叠样式表,对电子书的布局排版进行了说明;再次,图像的嵌入、导航文件的定义、对 MathML标记的支持等都在该规范中进行了介绍。 2.1.3 EPUB Open Container Format(OCF)3.0 OCF 3.0是 EPUB 2.0中惟一没有被替代的规范,只是对版本进行了升级。它定义 EPUB文件格式和处理模型,将文件中所包含的相关内容打包封装在单一的文档容器中。OCF 是 EPUB电子书必要的容器技术,包括OCF抽象容器和 OCF ZIP容器。OCF 抽象容器针对容器的内容定义了一种档案系统模型,使用单一共通的根目录,将所有出版

10、物资源均放入其中,并生成名为 META-INF的文件。另一个名为 mimetype的文件保留给 OCF ZIP容器所使用。 META-INF 中必须包含 container.xml文件,其中指明了 EPUB电子书根目录的媒体类型和文件路径,除此之外还可以选择性地使用encryption.xml对内容进行加密、用 manifest.xml列举内容清单、用metadata.xml描写电子书相关信息、用 rights.xml设置文档管理的权限,以及 signatures.xml对文件进行数字签名5。 OCF ZIP容器使用 ZIP格式。最终 EPUB格式文件就相当于是一个压缩包,可将后缀名.epub

11、 改为.zip 并解压缩后查看电子书的具体组成内容。 2.1.4 EPUB Media Overlays 3.0 EPUB Media Overlays 3.0规范是 EPUB 3.0标准中新添加的内容,包含对媒体层文件的定义、如何建立媒体层,以及对播放行为的描述。 EPUB 3.0格式电子书添加了文字和语音同步功能,可利用媒体层文件描述来建立同步朗读型书籍。其中 SMIL标记是主要内容,媒体层通过对 SMIL标记的运用将结构化的音频旁白加到对应文字上,从而解决文字和语音同步的问题。另外,该规范还定义了音频和视频嵌入、片段播放的顺序等内容。 2.2 实例分析 IDPF 官方网站给出了由谷歌代码

12、(Google Code)主办的 EPUB 3发展论坛“EPUB 修订” (epub-revision) 。该论坛允许公开访问、注册登记、上传下载 EPUB 3.0文件。本文从该网站下载了未经加密的 EPUB 3格式白鲸记 (Moby Dick) ,用来具体演示 EPUB 3.0电子书标准的结构。白鲸记文件名为 moby-dick-mo-20120206.epub,将后缀“.epub”重命名为“.zip”后变成压缩包,解压后得到同名文件夹,其中包括 META-INF、OPS 和 mimetype(见图 1) 。 2.2.1 mimetype 文件 每一本 EPUB格式电子书中必须包含一个“mi

13、metype”文件。这个文件内容十分简单,只有一条语句“application/epub+zip” ,不能包含新行或者回车且必须作为 ZIP压缩包中的第一个文件。其作用是规定电子书能通过 EPUB阅读设备和 ZIP压缩软件打开。这也是把白鲸记后缀名.epub 改为.zip 并解压缩后可以看到详细内容的原因。 2.2.2 META-INF 文件夹 META-INF 是 OCF抽象容器的必要目录。该目录主要描述电子书的位置、打开方式、信息加密、目录、书籍资料、权限管理等信息。其中必须要有 container.xml容器文件,在这个文档中必须清楚指明容器所包含的 EPUB电子书根文件的媒体类别与路径

14、。实例白鲸记的container.xml文件打开后如图 2所示,它的主要功能在于告诉阅读设备该从何处找到且如何打开该内容文件。container.xml 文件是不能加密的。其中,语句声明了 XML的版本和编码方式。元件中可以看到 EPUB电子书标准参考了开放文档格式标准(Open Document Format,ODF) ,突显出 EPUB格式的开放性。根文件元件为 OPS/package.opf,它指出根目录的路径,与内容之间的关系必须惟一。而该电子书的媒体类型则由语句进行说明。 2.2.3 OPS 文件夹 OPS 文件夹存放了电子书的全部内容。 白鲸记电子书每一个章节的内容、图片、音频、视

15、频,它在阅读器上显示的字体、样式以及该电子书的内部结构.opf 文件都在 OPS中。 2.2.3.1 .opf 文件 .opf 文件指定了所有内容的位置并描述所有具体内容,是 EPUB规范中最复杂的部分。将白鲸记的 package.opf文件打开后,根据规范中各个元件分别显示其内容语句。 (1)元件 这是包裹文件的根容器。version=“3.0“指出该电子书符合 EPUB 3.0版本规范标准。unique-identifier=“pub-id”用以识别元件(见图 3) 。(2)元件 该元件没有定义属性,是的第一个子元件,描述电子书的相关信息。例如:书名、作者、语言、出版社、单一识别符(如 D

16、OI、ISBN、ISSN) 、语言等(见图 4) 。出版物最少需要包括三个必要元件title、identifier 和 language。 由图 4可以了解 EPUB 3.0格式白鲸记仍采用 DC元数据集。其中,书名为“Moby-Dick” ,作者是“Herman Melville”, “Dave Cramer”为创作本书的次要作者。 ISBN号为“9780316000000” ,该书是英文内容,由 Harper & Brothers出版社出版。 (3)元件 EPUB 电子书的详细资源清单由元件构成。它是第二个必要的子元件,每一个资源用一个元件表示(见图 5) 。 其中属性必须在此文件范围内是

17、惟一的;属性指定所对应条目的位置;属性说明条目中出版物的媒体类型和格式;属性定义条目所描述的媒体叠加层文件。实例白鲸记的元件语句中依次提到: 电子书字体为常规、斜体、粗体和粗斜体; 目录“toc.xhtml” ; 版权页“copyright.xhtml” ; 书名页“titlepage.xhtml” ; 定义封面和封面图片路径的“cover.xhtml” “cover-image”; 电子书排版的 CSS样式位置“css/stylesheet.css” ; 书名页图片“aMoby-Dick_FE_title_image”的读取地址; 前言“preface_001.xhtml” ; 简介“int

18、roduction_001.xhtml” ; 评论和引语“epigraph_001.xhtml” ; 分别将第一二章文字及其多媒体语音同步在一起的“chapter_001.xhtml”“chapter_001_overlay.smil”“chapter_002.xhtml”和“chapter_002_overlay.smil” ; 第三章“chapter_003.xhtml” ; 第一章音频“audio/mobydick_001_002_melville.mp4” ; 简要目录“toc-short.xhtml” 。 (4)元件 该元件指定 EPUB 3.0电子书内容的预设阅读顺序(见图 6)

19、。元件是中的子元件,表示出版物资源的顺序。每个元件都需要一个属性,并且和 manifest 中的某个 ID 匹配。可选属性则说明内容是否是线性阅读序列的一部分,还是与前后项无关。 2.2.3.2 .smil 音频文件 白鲸记解压后的 OPS文件夹中有两个.smil 文件,分别是第一二章的同步音频。将.smil 音频文件连接到相应的文本内容上,可实现文字和语音同步播放。 将名为“chapter_001_overlay.smil”的第一章音频通过网页打开,查看其语句定义如图 7所示。 元件是媒体层文件的根元件。属性指明媒体层所遵循的 SMIL版本规格。 是必要元件,是媒体层文件里内容呈现的起点。

20、元件包含要依序播放的媒体文件。属性对媒体文件进行惟一识别编号;属性指定该媒体文件所对应的 EPUB内容文件;属性是在 EPUB内容文件中相对应的结构化语意表达式。 元件包含了所要同步播放的媒体文件。属性同样为惟一识别符。必要子元件通常是引用 EPUB内容文件里的文字元件,属性对应 EPUB内容文件的片段识别符。必要子元件代表一段音频媒体,属性参照至音频文件的相对或绝对 IRI。音频文件必须符合Publications 3.0规范中所规定的音频格式;属性指定了音频片段的起始位置,而属性则是结束位置。 3 EPUB3.0 的特点与应用 EPUB 3.0增加了数学公式、多媒体文件、语音同步等功能,拥

21、有诸多让人欣喜的新特性,能够让读者拥有更好的阅读体验。然而,在对EPUB 3.0格式电子书的实际操作与阅读过程中,仍然能发现其存在不足之处。以下将从优劣两方面分析该标准的特点。 3.1 EPUB3.0 优点 EPUB 3.0格式标准的优点主要体现在以下方面:兼容性好,通过使用 XHTML和 XML语言,该格式文件可被多种多样的软件运用;支持多国语言以及直排,可使用数学符号标记语言 MathML较好地显示数学公式;可根据阅读设备的屏幕大小重新对文本内容进行编排; 通过嵌入字体和 CSS样式表的运用实现优越的内容控制,使版面呈现更加丰富;大量使用 HTML 5语言,能够轻易嵌入影像、声音、对象、A

22、dobe Flash等多媒体文件;支持 JavaScript,意味着 EPUB 3.0格式的电子书可以表现得跟网页应用一样,能给电子书添加下划线、为某段话打分或者是加标记等,因此更加富有交互性;大多数 EPUB XML模式都来自现成的、可免费获得的、已发布的规范,所以 EPUB3.0格式能让出版商减轻负担; EPUB3.0格式体积小,可通过单个 ZIP压缩包进行文件传送; 支持 DRM,能加强对电子书的保护。 另外,EPUB 3.0突出了无障碍阅读的特性:丰富的语义结构、支持同步发音、文字语音同步、快速目录导航等一系列功能可使读者获得更优质的阅读体验。 3.2 EPUB3.0 缺陷 EPUB 3.0 格式标准也存在一些不足,具体表现列举如下。 首先,EPUB 3.0格式文件中的图像不能同文字一样进行缩放。通过Adobe Digital Editions和 Calibre阅读软件中 EPUB 3.0版白鲸记的对比,发现进行菜单栏里的“缩小”和“放大”字体操作时,封面与书名页图片均无任何变化,最大化窗口操作依旧对图片没有影响。这就对 EPUB3.0电子书内的图片有了较高要求,特别是 EPUB3.0格式的漫画

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。