ここから本文です。

いかに見せるか画質へのこだわり
文字か文字でないか、をどう判別するか
どうすれば画質を保ちつつ、小さなファイルをつくることができるのでしょうか。
「文字の部分、文字以外の部分と分けて、それぞれ適した方法で圧縮すればいいのです」
PDFは、文書をいくつかの層に分割して、それぞれ別の解像度や圧縮方式で保存でき、表示する時には分割した層を合成して、一つの文書として表すことができるという特徴があります。この特徴を利用すれば、文字部分は、MMR※1という文字に適した圧縮方式を使って高解像度で、文字以外の部分は、JPEGを使って低解像度で保存し、そうすることで画質を損なわずに全体のファイルサイズを小さくすることができるわけです。(図1)

でもどうやって、文字と文字以外の部分を見分けるのでしょう。
「文字というのは、黒とか赤とか色やエッジがはっきりしていて濃淡の変化が激しいのです。一方、写真は濃淡が徐々に変わっていく。そういう特徴を調べて、ここは文字、ここは文字以外と判断していくわけです。これをレイアウト解析といいます」
WORKiO(ワーキオ)カラー※2のレイアウト解析には、もともとOCRソフトの『読取革命※3』に使われていた技術が応用されました。これは、『読取革命』の開発元であるパナソニック ソリューションテクノロジー(株)との共同開発です。
「複合機では、OCRのように、読み取ったあとパソコンで文字を修正することができないので、文字を文字として認識するための精度の向上にかなり手を加えました。」
文字の判別と、もう一つ難しいのが文字色の再現です。印刷された文書はよく見ると細かい4色※4のドットで表され、色のついた文字も4色のドットの組み合わせで表現されています。そのため、スキャンされた画像の文字色が均一ではなくなってしまう場合があるのです。そこで、WORKiO(ワーキオ)カラーでは画像をいったん白黒2色に変換してから文字部分の判別を行い、そのあとで、もとの文字色にいちばん近い色1色に置き換えるという方法をとっています。
こうしてできる高圧縮PDFは、高解像度で圧縮したJPEG画像に引けはとりません。同じ解像度のJPEG画像と比べるとファイルサイズは十分の1程度になり、同じくらいのファイルサイズのJPEG画像と比べると特に文字画質は数倍もきれいです(図2)。オンライン、オフラインにかかわらず、これで文書のやりとりがもっと便利になりそうですね。
- ※1 MMR(Modified Modified Read):FAXに使われている、白黒2値の画像に用いられる圧縮方式。
- ※2 DP-C3040V/DP-C3030V/DP-C2626V
- ※3 読取革命:日本語・英語をカラーでOCR(文字認識)するソフトウェア。
パナソニック ソリューションテクノロジー(株)の商品です。
詳細は、読取革命商品ページへ(新しいウィンドウが開きます) - ※4 4色:通常、カラー印刷ではシアン、マゼンタ、イエロー、ブラックの4色を使用する
以上が本文です。ここから関連メニューです。

