2012年9月18日火曜日

gImageReader+resseract-ocr-jpnのインストールの仕方

UbuntuでのOCRソフト「gimagereader」の威力を試してみた件
http://ccf-squarelab.blogspot.jp/2012/09/ubuntuocrgimagereader.html

で肝心の「gImageReader+resseract-ocr-jpn」のインストール方法を別のエントリで解説するということで、このエントリを用意した。

方法としてはWindowsでもUbuntuでも「gImageReader」と「resseract-ocr-jpn」のパッケージを見つけてインストールすればよいのだが、日本語を読み取りたい場合はいろいろと設定が必要になる。ただこれもファイル位置やボタンによるもので設定ファイルをテキストエディタで弄るという性質のものではないのでかなり敷居は低いはずだ。

インストールの流れ

image

インストールに関しては順序はほぼ無視できるが、一応resseract-ocr-jpnを先に入れるとgImageReaderをインストールしたときに使用するエンジンとして自動的に設定してくれる(逆でもやってくれるとは思う)ので気分的にラクになる。

それでは各項目について

gImageReader(deb/exe)を取得する 【共通】

Ubuntuの場合、私の手元にあった資料ではapt-getで両方ともインストールできたはずなのだが、現在gImageReaderはできないので直接debパッケージをインストールすることになる。

ダウンロード - gimagereader - SourceForge.JP
http://sourceforge.jp/projects/sfnet_gimagereader/releases/

Ubuntuの人はdeb、Windowsの人はexeをダウンロード。Windowsの場合はgimagereader-win32-support-0.6.zipをダウンロードして展開上書きするのもアリかも。

※Windows版ではこんなのもあるけど……

Index of /~smani/download/gimagereader
http://n.ethz.ch/~smani/download/gimagereader/

Resseract-ocr-setup.exe、jpn.traineddataを取得する 【Windowsのみ】

Windowsの場合はさらに最新のResseract-ocr-jpn.exeをダウンロード

tesseract-ocr
http://code.google.com/p/tesseract-ocr/downloads/list

現在はtesseract-ocr-setup-3.01-1.exeが最新。あと日本語を対応させるための学習ファイルjpn.traineddata.gz もダウンロード。

Resseract-ocr-jpnをインストール 【Ubuntuのみ】

これはソフトウェアセンターで検索すると出るので一発インストール

GimageReader.debをインストール 【Ubuntuのみ】

debファイルなので普通にインストール。これでUbuntu環境でGimageReaderを使えるはず。

Resseract-ocr-setup.exeをインストールする【Windowsのみ】

起動すればそのままインストーラが立ち上がるので従う。インストール場所はえふすくの個人的にDドライブにしてある

jpn.traineddataをセットする 【Windowsのみ】

Windows版のResseract-ocrは日本語の学習ファイルがデフォルトで入っていないので、前の段階でダウンロードした圧縮ファイルを解凍して得たjpn.traineddataをインストール先のTesseract-OCR\tessdataフォルダに入れる。

image

GimageReader.exeをインストール 【Windwosのみ】

これも起動すればそのままインストーラが立ち上がるので従う。同じくインストール場所はDドライブにしてある。

日本語読取用設定を行う 【共通】

この状態で、gImageReaderを起動すると次の画面が出るので日本語を設定する。

image

※赤部分が空白の場合は前述のTesseract-OCR\tessdataフォルダまでのパスを入れる。

imageimage

Preferred laungageを選択できるようになるので「日本語」→「ja_JP」を選択

image

「language」タブでは当然日本語を選択して「Apply」する

image

あとは画像を開くなりスキャナを経由するなりして認識させることができる

ファイルパス、ファイル名に日本語が入っていると読み込めないので注意。
※どちらかというと画像は別にスキャンしておいた方がいいと思う。

0 件のコメント:

コメントを投稿