Epub格式电子书
epub电子书本身就是一个ZIP文件,我们将epub格式电子书的后缀.epub修改为.zip后,可以通过解压缩软件进行浏览或解压处理。
解压后的文件:
1.固有文件
1.1 mimetype
电子书阅读器需要验证 EPUB 文件是否真的是 EPUB 文件。他们通过检查 EPUB 存档根目录中的mimetype文件来验证文件。该文件仅包含一行描述 EPUB 文件的 MIME 类型:application/epub+zip
1.2 META-INF
这个文件文件夹的名字翻译成中文就是“元信息”。文件夹里面只有一个container.xml文件。
这两个文件是固定名字,固定位置。
2.文件解析
2.1 container.xml
先看一下container.xml中的内容
image.png这段内容的作用就是标明了.opf文件的位置。这个.opf文件是一个很重要的文件,它记录了epub文件内部各个文件的具体信息。
Ps:.opf文件可以放到任意的位置,任意的命名,通过container.xml文件来找到.opf文件。正是基于这个缘由,epub文件的标准里规定“EPUB 根目录下必须包含 META-INF 目录,并且其中必需要有一个文件 container.xml”
2.2.opf文件解析
Open Package Format(OPF),即包文件格式,其主要功能是用于组织 OPS 文档和提供相应的导航机制,并形成一个开放式的基于 XML 的打包文档,该文档的后缀名为 “.opf” 。
查看文件内容:
image.png
metadata#
EPUB文件元数据
dc:identifier#
书本的唯一标识符,需要和ncx文件中的identifier一致,虽然不一致也没问题。
dc:language#
书本使用的语言 不是很重要。
dc:title#
整本书的书名,重要性不言而喻。
meta#
通过对部分EPUB进行解压,目前只发现设置封面的meta
<meta content="cover-image" name="cover"/>
一般没有需求不更改,如何设置封面查看下文。
manifest#
整本书的清单文件,一般会列出ncx文件和小说正文文件以及封面。
ncx文件是必须的,它定义了书籍的目录,具体格式查看下文。
封面是可选的,不过EPUB没有封面和插图就没有灵魂。
2.3 ncx文件解析
ncx是Navigation Content extended的缩写,用于表示本书的目录。
image.pngmeta#
dtb:uid#
<meta content="urn:uuid:9bfb698f-dfa3-45ca-bea4-d0fbc2ead4f3" name="dtb:uid"/>
这个和opf中的dc:identifier应该保持一致,不一致倒也没什么问题。
depth、totalPageCount和maxPageNumber#
image.png对于电子书不需要进行修改,使用这几个值就OK。
docTitle#
image.png姑且认为应该与opf中的dc:title一致,书名以opf中的为准。
navPoint#
image.png整书的目录,每个navPoint代表目录中的一项,包含标题和文件路径。
一个EPUB有以上这些文件就能被识别,通过创建文件然后压缩就可以完成一个EPUB文件的创建。
3.epub阅读器解析流程
-
解压epub文件
-
解析container.xml获取到opf文件信息
-
解析opf文件,获取epub基本信息,文件信息
-
解析ncx文件,获取目录章节列表
-
通过获取的章节列表信息加载解析对应的xhtml文件
-
页面展示
网友评论