noshi’s diary

ゲームの事、映画やドラマ、思いついた事、プログラミングの事、雑記的なことを書いています

PDFのOCR読み込みはどれがいい

実現できるソフトはいろいろある。pdfファイル内のテキストがテキストデータということであれば、アプリケーションソフトも豊富だし、adobe readerでも.doc .rtfなどへのファイルへの変換ツールがある。ただ、画像データとして変換されたテキストはそれらでは実現できない模様。結局はOCRでの読み込みによるテキスト化ということになりそう。OCR機能のサービスやアプリもいくつかあるが、読み込み精度の良し悪しによって、文字化け、レイアウト崩れはやはりある。

フリーのgoogle driveに備わっているOCR機能を使って画像テキストを読み込ませてみた。テキストとしてうまく読み込んでくれた。無料で使えるものとして重宝できるかも。