PDFの構造について 2

前回の投稿の核心部分というのは2.1.2の「アドビイメージングモデル」というところです。「グラフィックアートから発展した2次元グラフィックスのシンプルで統一された表示機能です。」この部分なんですが「シンプルで統一された表示機能」という部分に集約されています。PDFにおいて一番大切なのはこの「表示」であり、どの端末においても確実に意図した表示にするための実装が最優先されます。各オブジェクトは表示の再現のために配置され、本来持っていた文書構造は担保されません。この事はPDFというフォーマットへの変換は不可逆である事を意味します。近年Acrobat等がOffice関連フォーマットへの変換機能を強力にプッシュしていますが、その機能自体もPDFの見た目から文字列の塊を段落として罫線が交差している部分は表だと認識して、それらの位置情報をもとにデータを再度作成しているのです。やってることは人間と一緒なのですが、レイアウトへの理解の深さという点では人間の判断には及ばない部分があるために複雑な構造のPDFを変換しても意図通りには変換してくれないのも当然な結果なのです。こういった特性に対して予備知識がないと使い物にならないといった印象になってしまうのも理解できます。あくまでもベストエフォートな機能であり、使い所をユーザーが適切に判断して利用するべきものなのです。
端から話がそれていますがファイルフォーマットに対する理解の深化というのは副次的にこういったセールストークに対する懐疑的な部分を確信に昇華してくれるものです。
ファイルフォーマットに限った話ではありませんが、正しい知識は物事を判断する重要な基準となります。また、対象が常に変化する場合において情報は「生鮮物」としての性質も持ちえます。わたし自身もしっかりと学び続けたいと思います。
ということで、続きに入ります。今回は2章の残りの部分についてです。

続きを読む……


PDFの構造について 1

さて、PDFの構造について日本語でお勉強できる資料というのは少なくて、わたしも過去にAdobeSystemsからリリースされたリファレンスの第2版を読んでいました。ところがですね、あれって、専門用語に関する訳に難がありまして、理解を妨げるような書き方の部分のあったりします。なによりPDF1.3の解説ですから今となってはちょっと古いです。

という事で数年前から片手間にPDF1.7リファレンスの翻訳を行ってるんですが、これ、色々な絡みでそのままお出しできませんです。という事で細切れで解説していきたいと思います。ご存知の通り元となったドキュメントもと~っても分厚い資料ですからどれだけやるかってのはあるのですが、最低でもAcrobatの構造表示を読み解くレベルまでは続けようかと思いますです。

では、1回目としては、そもそもPDFってなに?って所から始まります。

※各見出し付加された数字は原本の章番号になります。諸々の都合により順番が前後しているものもあります。

続きを読む……