主にメモ

ただのメモ

OCRの認識率

OCRHelperを作ろうと思ったきっかけは、GoogleドライブのOCRの認識率の高さを目の当たりにしたからでした。

以前Canonのブリンターにバンドルされていた読取革命liteを主に使っていました。当時はそれでもかなり使えるヤツと思っていましたが、それなら最新の読取革命v15なら…と意気込んで購入して試してみました。

確かに高機能なのですが、肝心の認識率の方は気持ち少し高くなったかも?誤差の範囲か?というくらいで少々がっかりしていました。

GoogleドライブでOCRが使えるということを知って試してみたところ、

明らかに認識率が別格だったので感動すら覚えました。そこで今に至ります。

f:id:nmtblue:20200725170226j:plain

このサンプル画像をそれぞれOCRしてくらべてみました。

f:id:nmtblue:20200725171348p:plain

上段は、オリジナルで

中段は、Googleドライブ

下段は、読取革命v15です。

(※Googleドライブのテキストのレイアウトは手動で成形しています。)

 

Googleドライブおそるべしw。

 

Googleドライブの元になっている?

Tesseract OCRも試してみたのですが

縦書きが駄目なのか文字化けレベルでした。(縦書きオプションとかあるのかな?)

 

読取革命v15は、Panasonicによると

「2020年8月31日をもちまして、製品版・バージョンアップ版の販売および開発を終了させていただきます。読取革命の開発および販売はソースネクスト株式会社へ移管し、2020年10月7日に新バージョンを発売いたします。」

とのこと。ちょっと期待してしまいますね!

www.panasonic.com