« パスワードで音楽対決 | トップページ | 空港、ケーキ、小児科 »

2012.11.30

画像PDFと文字PDFの差

 書類のペーパーレス化、文書の共有の話題でよくある勘違いですが、「PDFファイル」ならどれも同じだと勘違いしている人によく出会います。これアドビ社が狙った作戦なのか、ビジネス向け解説書籍が悪いのか、とにかくPDFファイルの名前ならどれでも一緒くたにしている人たちが何割かいるんです。
Mochi1

 言葉で表現するなら、
(A) 「餅」と毛筆で書いた紙をそのまんまスキャナーでかけてPDFファイルにしたもの。あくまでも画像PDFです。 絵に描いた餅。食べられない。「餅」で検索できない。
(B)一方、ワープロソフトとかで打ち込んで「餅」と打ってPDFファイルとして保存したのは文字PDF。文字が生きてる。あとで「餅」で検索できるのが長所。検索は決定的な差になる。

 Excelで作った表だからといって全部が全部生きた文字になってるわけじゃないです。「Excel打って、FAXで送りましたんでー、そちらでスキャナかけて、PDFにしてくださいねよろしく。」というのを耳にしますが、一度紙に印字してファックスしたら、もう文字は死んだも同然。受信後ファックス用紙をスキャナかけて、PDFにしても、それは「紙一枚を撮影しただけの写真」としての画像PDFだから価値がずっと減る。中に価値ある文章が入っていてもあとで検索不可能。(目で追えるんですけどね)
 で、世の中にはいちおう、OCR光学文字認識という技術があるにはありますが。実にあてにならない技術です。1990年くらいからずっと僕言ってますが、OCRは結果見てずっこける技術です。ギャンブル性も高い。「文書書いたその場で作った、文字が生きてるPDFファイル」の価値を100とすると、ページ一枚がひとつの写真になった画像PDFの価値は20くらい。画像PDFを一度OCRかけると、価値は30くらいに増えるかもしれないけど、とうてい元の100にはならない。
 でも当てにならない技術でも無いよりはましなので、参考資料を置いておきます。
「...画像やPDFからテキスト文字を抽出するスマートな方法」(GoogleドライブのOCR機能。)と、 EvernoteではEvernoteのOCR日本語認識の精度が上がってきた
(画像に出したのはPixelmator, フィルタ、ゆがみ、歪み、ガラスでの処理です)

|

« パスワードで音楽対決 | トップページ | 空港、ケーキ、小児科 »

コメント

OCRと音声認識って昔から期待されている割には進化の速度が遅いですよね。
siriも最初に使ってみて、その認識力の低さに呆れ果てた以来使ってません(;^_^A

投稿: じぞう | 2012.12.01 13:51

ほんと、OCRと音声認識は進歩が遅いです。
でも、今たまに使ってみてよさそうなのは
iPhone でのGoogle アプリ(青いgの字アイコン)
での音声認識です。
「ひろしまし、にしくで、いたりありょうり」とか
ほどほどに拾ってくれますよ。地図と店情報もあるからSiriより便利。
まだ試してないならぜひどうぞ。

投稿: なおひこ | 2012.12.01 18:38

コメントを書く



(ウェブ上には掲載しません)




« パスワードで音楽対決 | トップページ | 空港、ケーキ、小児科 »