1.
・必要なら認識率を高める為にChainLP等で見やすく処理する。
・画像ツールでOCRに不必要な部分(ノンブル等)を削除したり、2段に書かれてる文章をOCR時に順序を誤認しないように分割、切り取りを行う。
・エクスプローラで表紙、目次、扉絵、挿絵や奥付等OCRに不必要なファイルを削除する。
2.
・画像PDF分割変換で画像フォルダを指定してPDFファイルをつくる。
3.
・GoogleドライブにPDFファイルをアップロードする。
・右クリックーアプリで開くーGoogleDocsを選択。これをファイルごと繰り返す。
※自分は、念の為、Googleドライブは複垢で行っています。
・作成されたdocxファイルをダウンロードする。
4.
・.docx結合.txt変換で.docxファイルのフォルダを指定して.txtに変換する。
(予めMicrosoft WordかOpenOffice Writterのどちらかをインストールしておく。Wordの方がかなり処理が速いです。)
・_OCR.txtと_OCRH.txt(読み上げアプリ最適化)が生成されます。