OCRHelper チュートリアル

f:id:nmtblue:20200621104340p:plain

１．

・必要なら認識率を高める為にChainLP等で見やすく処理する。

・画像ツールでOCRに不必要な部分（ノンブル等）を削除したり、2段に書かれてる文章をOCR時に順序を誤認しないように分割、切り取りを行う。

・エクスプローラで表紙、目次、扉絵、挿絵や奥付等OCRに不必要なファイルを削除する。

f:id:nmtblue:20200621100502p:plain

２．

・画像PDF分割変換で画像フォルダを指定してPDFファイルをつくる。

f:id:nmtblue:20200621100106p:plain

３．

・GoogleドライブにPDFファイルをアップロードする。

・右クリックーアプリで開くーGoogleDocsを選択。これをファイルごと繰り返す。

※自分は、念の為、Googleドライブは複垢で行っています。

f:id:nmtblue:20200621102332p:plain

・作成されたdocxファイルをダウンロードする。

f:id:nmtblue:20200621102335p:plain

４．

・.docx結合.txt変換で.docxファイルのフォルダを指定して.txtに変換する。

（予めMicrosoft WordかOpenOffice Writterのどちらかをインストールしておく。Wordの方がかなり処理が速いです。）

・_OCR.txtと_OCRH.txt（読み上げアプリ最適化）が生成されます。

f:id:nmtblue:20200621100102p:plain

主にメモ