主にメモ

ただのメモ

OCRHelper チュートリアル (詳細)

f:id:nmtblue:20200621104340p:plain

サンプルイメージファイルを使って解説します。

f:id:nmtblue:20200630192802p:plain

今回は、まず画像トリマーを起動します。

f:id:nmtblue:20200630192907p:plain

連番の画像ファイルの入ってるフォルダを選び

f:id:nmtblue:20200630193020p:plain

その中の切り取りの目安に最適と思われるファイルを選びます。

f:id:nmtblue:20200630193142p:plain

今回のイメージファイルでは上のノンブル(ページ番号)部分が読み上げアプリには必要ないのでそれ以外の本文部分を切り取るように左上隅をクリック。

f:id:nmtblue:20200630193448p:plain

そして、スクロールして、

f:id:nmtblue:20200630193607p:plain

右下隅をクリック。

f:id:nmtblue:20200630193703p:plain

OKを押してしばらく待ちます。

f:id:nmtblue:20200630193743p:plain

処理が終わるとソースのフォルダを削除するか尋ねてきます。f:id:nmtblue:20200630193906p:plain

どちらか選ぶと、処理後のファイルがエクスプローラで表示されますので、ここで読み上げアプリに必要ないと思われる

表紙や扉絵、挿絵、目次、奥付などを削除します。

f:id:nmtblue:20200630194351p:plain

 今回は、表紙を削除しました。

f:id:nmtblue:20200630211551p:plain

次に画像ファイル分割PDF変換を起動します。

f:id:nmtblue:20200630211720p:plain

今のところデフォルトで4MBになっています。(Googleドキュメントは9MBくらいまで開くことができるようですが、最後までOCRしてくれるとは限りません。)

f:id:nmtblue:20200630212742p:plain

処理したフォルダを選択。

f:id:nmtblue:20200630213457p:plain

しばらく待ちます。

f:id:nmtblue:20200630213531p:plain

処理が終わるとまた、ソースのフォルダを削除するか尋ねてきます。

f:id:nmtblue:20200630213742p:plain

 今回は9個のPDFファイルができました。

WEBブラウザGoogleドライブを開きます。

f:id:nmtblue:20200630214344p:plain

+新規を押して

f:id:nmtblue:20200630214442p:plain

ファイルをアップロードを選択、

f:id:nmtblue:20200630214525p:plain

できたPDFファイルを選んでアップロードします。

f:id:nmtblue:20200630214634p:plain

PDFファイルを右クリックして

f:id:nmtblue:20200630214902p:plain

アプリで開くーGoogleドキュメントを選択

f:id:nmtblue:20200630215016p:plain

それをファイルごとに繰り返します。

(一度に連続してGoogleドキュメントを開くとエラーが起きるので自分の環境では5,6個くらいでしばらく待つのが良いです。)

(※GoogleDriveで新しいタブにフォーカスさせない方法 - 主にメモ

 

f:id:nmtblue:20200630215347p:plain

f:id:nmtblue:20200630215413p:plain

9つの新しいファイルができたら選択してダウンロードします。

f:id:nmtblue:20200630215536p:plain

ダウンロードしたファイルを解凍すると9個の.docxファイルができます。

f:id:nmtblue:20200630215758p:plain

.docx結合.txt変換+読み上げアプリ最適化を起動して.docxファイルのあるフォルダを選択。

f:id:nmtblue:20200630220006p:plain

しばらく待ちます。(予めMicrosoft Wordまたは、Openoffice Writterのどちらかをインストールしておいてください。)

f:id:nmtblue:20200630220233p:plain

ファイルごとに最後までOCRされているかチェックして、テキストファイルに結合変換します。

 

f:id:nmtblue:20200630221416p:plain

同じフォルダにそのまま結合しただけの_OCR.txtと自分の使用してる読み上げアプリに最適化した_OCRH.txtができあがります。