根据PDF官方指南,理解PDF格式可以从四个方面下手——Objects(对象)、File structure(物理文件结构)、Document structure(逻辑文件结构)、Content streams(内容流)。 对象 物理文件结构 整体上分为文件头(Header)、对象集合(Body)、交叉引用表(Xref table)、文件尾(Trailer)四个部分,结构如图。修改过的PDF结构会有部分变化。 文件头 文件头是PDF文件的第一行,格式如下: %PDF-1.7 这是个固定格式,表示这个PDF文件遵循的PDF规范版本,解析PDF的时候尽量支持高版本的规范,以保证支持大多数工具生成的PDF文件。1.7版本支持1.0-1.7之间的所有版本。 对象集合 这是一个PDF文件最重要的部分,文件中用到的所有对象,包括文本、图象、音乐、视频、字体、超连接、加密信息、文档结构信息等等,都在这里定义。格式如下: 一个对象的定义包含4个部分:前面的2是对象序号,其用来唯一标记一个对象;0是生成号,按照PDF规范,如果一个PDF文件被修改,那这个数字是累加的,它和对象序号一起标记是原始对象.
2022-09-16 21:36:40 20.45MB 文档资料 PDF PDF规范
1
本章涵盖 了PDF 对象文件及文件级对象文件的所有语法。中文版本,为第一章语法部分,包含了PDF所有语法,对于解析PDF格式有很大帮助。
2021-02-16 21:11:38 1.66MB PDF 规范 语法中文版
1