主にメモ

ただのメモ

OCRHelper チュートリアル

f:id:nmtblue:20200621104340p:plain

1.

・必要なら認識率を高める為にChainLP等で見やすく処理する。

・画像ツールでOCRに不必要な部分(ノンブル等)を削除したり、2段に書かれてる文章をOCR時に順序を誤認しないように分割、切り取りを行う。

エクスプローラで表紙、目次、扉絵、挿絵や奥付等OCRに不必要なファイルを削除する。

f:id:nmtblue:20200621100502p:plain

 

2.

・画像PDF分割変換で画像フォルダを指定してPDFファイルをつくる。

f:id:nmtblue:20200621100106p:plain

3.

GoogleドライブにPDFファイルをアップロードする。

・右クリックーアプリで開くーGoogleDocsを選択。これをファイルごと繰り返す。

※自分は、念の為、Googleドライブは複垢で行っています。

f:id:nmtblue:20200621102332p:plain

・作成されたdocxファイルをダウンロードする。

f:id:nmtblue:20200621102335p:plain

4.

・.docx結合.txt変換で.docxファイルのフォルダを指定して.txtに変換する。

(予めMicrosoft WordかOpenOffice Writterのどちらかをインストールしておく。Wordの方がかなり処理が速いです。)

・_OCR.txtと_OCRH.txt(読み上げアプリ最適化)が生成されます。

f:id:nmtblue:20200621100102p:plain

 

nmtblue.hatenablog.com