OCRHelperを作ろうと思ったきっかけは、GoogleドライブのOCRの認識率の高さを目の当たりにしたからでした。
以前Canonのブリンターにバンドルされていた読取革命liteを主に使っていました。当時はそれでもかなり使えるヤツと思っていましたが、それなら最新の読取革命v15なら…と意気込んで購入して試してみました。
確かに高機能なのですが、肝心の認識率の方は気持ち少し高くなったかも?誤差の範囲か?というくらいで少々がっかりしていました。
GoogleドライブでOCRが使えるということを知って試してみたところ、
明らかに認識率が別格だったので感動すら覚えました。そこで今に至ります。
このサンプル画像をそれぞれOCRしてくらべてみました。
上段は、オリジナルで
中段は、Googleドライブ
下段は、読取革命v15です。
(※Googleドライブのテキストのレイアウトは手動で成形しています。)
Googleドライブおそるべしw。
Googleドライブの元になっている?
Tesseract OCRも試してみたのですが
縦書きが駄目なのか文字化けレベルでした。(縦書きオプションとかあるのかな?)
読取革命v15は、Panasonicによると
「2020年8月31日をもちまして、製品版・バージョンアップ版の販売および開発を終了させていただきます。…読取革命の開発および販売はソースネクスト株式会社へ移管し、2020年10月7日に新バージョンを発売いたします。」
とのこと。ちょっと期待してしまいますね!