2012年9月17日月曜日

UbuntuでのOCRソフト「gimagereader」の威力を試してみた件

実はWindowsでなくても自炊はできる!

条件としてはスキャナにUbuntu(Linux)用ドライバがあるかどうかだけど、一応EPSONはここ

EPSON Download Center
http://download.ebz.epson.net/dsc/search/01/search/?OSC=LX

Canonは正直よくわからない。Linuxで使いたいならえふすくはEPSONをオススメする。

もちろん若干メーカーが認めてるような感じなだけであって動作ができるかどうかの責任は取らない。ただWindowsではできなかったスキャナビボタン(押せば1回分のスキャンが始まる連続スキャンには垂涎の機能)がLinux用では動いたので作業的にはUbuntuでやる方がラクになった(ただし時間はかかる)

問題はOCRだー!

実際「画像が撮れりゃOCRなんぞ要らんだろ」というブコメもいただいたが、あくまで電子書籍を作るのが目的だったし、そのためにどれだけの労力がかかるのか身をもって知ることが大事と考えた。
で、その結果はもう出たので読者のみなさんがマネする必要は一切ない。むしろ無駄だからしなくていいと思うw

で、えふすくにとっての重要な問題点であるのOCRだが、購入した読んdeココのほかにCanonのスキャナについていた読取革命Liteというソフトもある。

とりあえずこの2大ソフトが双璧なわけだが、両方使える以上どっちが使えるのか比較してみようと思った。
そしてUbuntuにもgImageReader+resseract-ocr-jpnという日本語が使えるオープンなOCRソフトがあったのでこれも比較対象に入れてみた。
ただし導入はちょっと面倒だったので、ここでは解説しない(滅殺) 別のエントリで詳細を伝える予定。

【追記】できました

gImageReader+resseract-ocr-jpnのインストールの仕方
http://ccf-squarelab.blogspot.jp/2012/09/gimagereaderresseract-ocr-jpn.html

ではOCR対象を発表しよう!

001

ホンモノの文章(改行は画像に準ずる)

186
尿道に浮いた先走りを吸い立てる、スィーリア。
(う、うぅぅっ……も、もうすぐっ……出る……!)
 腰の芯から脳天にまで、繰り返し繰り返し突き抜ける肉悦楽を与えてくれる彼女の顔は、
きっとまた蕩けきっていて、鼻先を伸ばし貪欲にペニスに食いついているのだろう。想像
するほどに、もっと淫らにしてやりたい──湧いた新たな欲求が、ギリギリのところで射
精の予兆を抑え込んだ。
 ──といっても、射精が間近に迫っていることに変わりはない。ほんのわずか、その時
を先伸ばしにしたに過ぎなかった。
「ぢゅちゅ……っ!」
 ゆえに手早く、がむしゃらに。顔の上に乗る黒いショーツに、伸ばした舌を這わせ、唾
液をベットリまぶし、舐めしゃぶる。
「んぷぁ……!? ぁんっ、た、貴弘っ。今日は私が奉仕をするとッ、やっ、あ、あぁ、っ
く、あぁ……ん-っ!」
(甘くって……ネバネバで、ぅあ、あぁっ、意識が飛んじゃいそぉっ……)
 鼻から息を吸えば、スカート内に充満した恋人の香りばかりが肺の中へ流入した。小さ
く薄い、汁濡れの股布を脇に押しのけ直接割れ目をねぶり始めた舌先は、吸いつく間もな
く止め処ない蜜で浸され、飲んでも飲んでもあふれてくる甘酸っぱい味わいに、今にも溺

二次元ゲーム文庫11 ワルキューレ ロマンツェ[スィーリアの恋物語] の186ページ。
メイドコスになったスィーリアがおっぱい丸出しで貴弘と69するシーン。

以前もこんな感じのシーンを使いましたが、もともと私の自炊はエロラノベの電子化が目的なのと、こういう「……」みたいな記号や「んーっ!」みたいな誤変換の多そうな文章ってこういう小説の方が当然見つけやすいわけで。と言い訳します。

画像はここに上がったものをそのまま使って各ソフトに入力(全部画像からの入力が可能というのはスキャナを問わないという意味では便利)して、OCRした結果をそのままコピペ(改行コードについてはWindwosに合わせて置換)で結果報告。

読んdeココ Ver.13

認識結果

186
尿道に浮いた先走りを吸い立てる、スィーリア。
(う、うぅぅ……も、もうすぐ……出る……
 腰の芯から脳天にまで、繰り返し繰り返し突き抜ける肉悦楽を与えてくれる彼女の顔は、
きっとまた蕩けきっていて、鼻先を伸ばし貪欲にペニスに食いついているのだろう。想像
するほどに、もっと淫らにしてやりたい1-いた新たな欲求が、ギリギリのところで射
精の予兆を抑え込んだ。
 - といっても、射精が間近に迫っていることに変わりはない。ほんのわずか、その時
を先伸ばしにしたに過ぎなかった。
「ぢゅちゅ……!」
 ゆえに手早く、がむしゃらに。顔の上に乗る黒いショーツに、伸ばした舌を這わせ、唾
液をベットリまぶし、舐めしゃぶる。
「んぷぁ……け‥ぁんっ、た、貴弘っ。今日は私が奉仕をするとッ、やっ、あ、あぁ、
く、あぁ……ん-つー
(甘くって……ネバネバで、あ、あぁっ、意識が飛んじゃいそぉっ……)
 鼻から息を吸えば、スカート内に充満した恋人の香りばかりが肺の中へ流入した。小さ
く薄い、汁濡れの股布を脇に押しのけ直接割れ目をねぶり始めた舌先は、吸いつく間もな
く止め処ない蜜で浸され、飲んでも飲んでもあふれてくる甘酸っぱい味わいに、今にも溺

【感想】さすがの検出率である。大文字・小文字の区別はさすがに手作業が必要だが、縦書き特有の「!?」→「け‥」、「!)」→「⊥」あたりは1000ページ近くもやってるともうクセとしてマクロに登録して処理がしてる程度だ。

読取革命Lite 1.2.00

認識結果

186
尿道に浮いた先走りを吸い立てる、スィーリア。
 (う、うううっ……も、もうすぐっ……出る……!・
 腰の芯から脳天にまで、繰り返し繰り返し突き抜ける肉悦楽を与えてくれる彼女の顔は、
きっとまた蕩けきっていて、鼻先を伸ばし貪欲にペニスに食いついているのだろう。想像
するほどに、もっと淫らにしてやりたい湧いた新たな欲求が、ギリギリのところで射
精の予兆を抑え込んだ。
 といっても、射精が間近に迫っていることに変わりはない。ほんのわずか、その時
を先伸ばしにしたに過ぎなかった。
 「ぢゅちゅ……!」
 ゆえに手早く、がむしらに。顔の上に乗る黒いショーツに、伸ばした舌を這わせ、唾
液をベットリまぶし、翫めしゃぶる。
 「んぷ……り‥ 、た、貴弘っ。今日は私が奉仕をすると、やっ、あ、あ
く、あ……ん1つ!」
 (甘くって……ネバネバで、あ、あっ、意識が飛んじやいそおっ……)
 鼻から息を吸えば、スカート内に充満した恋人の香りばかりが肺の中へ流入した。小さ
く薄い、汁濡れの股布を脇に押しのけ直接割れ目をねぶり始めた舌先は、吸いつく間もな
く止め処ない蜜で浸され、飲んでも飲んでもあふれてくる甘酸っぱい味わいに、今にも溺

【感想】廉価版とはいえ読んdeココ並みの精度を持っているお買い得ソフトかもしれない。他の機能が読んdeココ並みに使えるならばCanonユーザーはこっちをアップグレードした方が安上がりかも。
ただこちらは漢字の誤認がほとんどなく、記号や大文字・小文字ミスがほとんどなので、目立つ部分をマクロで処理、というわけにはいかなさそうなのが残念だ。

gImageReader+resseract-ocr-jpn(Ubuntu)

認識結果

尿道に浮ぃた先走りを吸い立てる、 スーリァ。

()っ、 }つ)っ、っ っ ・・・・ '.も、 も'っすぐっ ・・・・ 〟.出る ' ' ' . ・ - ー')

腰の縄心から脳天にまで、 繰り返し繰り返し突き抜ける肉悦楽を与)ぇてくれる彼女の顔は
きっとまた蕩けきっていて、 鼻先を伸ばし貪欲に。ヘ 一{スに食いついてぃるのだろ}っ。 想像
するほどに、 もっと淫らにしてやりたぃー湧ぃた新たな欲求が、 ギリギリのと,」ろで射
精の予兆を抑)ぇ込んだ。

といっても、 射精が間近に迫っている,」とに変ゎりはない。 ほんのずか、 その時
を先伸ばしにしたに過ぎなかった。

「ぢゅちゅ .... ・-っ"

ゅ,ぇに手早く、 がむしゃらに。 顔の上に乗る黒い`ンョーツに、 伸ぱした舌を濃縄ゎせ、 唾
液をベ ットリまぶし、 舐めしゃぷる。

「んぷぁ .... ・-m〝 ぁん っ、 た、 貴弘っ。 ムゥ日は私が奉仕をするとッ、 ゃつ、 ぁ、 ぁぁ、 っ
く、 ぁぁ ・・・・ ,ーんーつ ー・

(甘くって ---- ・.ネ〟ハネ〟ハで、 )っぁ、 ぁぁっ丶 意識が飛んじゃいそぉっ .... ・.)

鼻から息を吸.乙ート内に充満した恋人の香りぱかりが肺の中ヘ流入した。 小さ
く薄、 汁濡れの股布を脇に押しのけ直接割れ目をねぶり始めた舌先は、 吸いつく間もな
く止め処ない蜜で浸され、 飲んでも飲んでもぁふれてくる甘酸っぱい味ゎぃに、 ムゥにも溺

【感想】さて、いよいよオープンソフトの出番なのだがかなり残念な結果になってしまった。特に記号や喘ぎあたりの認識が完全に狂っている。漢字の認識にも問題が残っているようだがこれは市販品を考えるとまだまだ向上の余地はありそうだ。「こ」→「.」」「今」→「ムゥ」あたりのパターンも目立つ

gImageReader+resseract-ocr-jpn(Windows)

認識結果

尿に浮いた先走りを吸い立てる、スイ1リァ°
っつ、 、つううつ ・・・・ ・・も、 も_つすぐつ ____  I I I I ` _
l憂v
腰の芯から脳天にまで、繰り返し繰り返し突き抜ける肉悦楽を与てくれる彼女の顔は
とまた蕩けきっていて 鼻先を伸ばし貪欲にペ ニスに食いつぃているのだろうo 想像
するほどに、 もっと淫らにしてりたぃl湧いた新たな欲求が ギリギリのところで射
の予兆を抑え込んだo
|lぃつても、射糟が間近に迫ていることに変ゎりはなぃ°ほんのゎずか、その時
を先伸ばしにしたに過ぎなかつたo
芍ぢゆちゆ ____ :っ'屮 ー
ゆえに手早<、がむしらにo顔の上に乗る黒いシヨ竇ッに、伸ぱした舌を這ゎせ、睡
液をべットリまぶし、舐めしゃぷるo
門んぷぁ ____ :瞬 あんっ、 た、 貴弘つ。 今曰は私が奉仕をするとッ、 や、 あ、 あぁ、
ノ\ ああ ____ :んlつ`こ
ハ甘<つて ____ =ネバネバで、あ、ぁあつ、意識が飛んじゃいそぉつ ____ 上
鼻から息を吸ぇば丶スヵ1ト内に充満した恋人の香りぱかりが肺の中へ流入した°小さ
<簿い、汁濡れの股布を脇に押しのけ直接割れ目をねぷり姶めた舌先は<間もな
<止め処ない蜜で浸され、飲んでも飲んでもあふれて<る甘酸っぱい昧ゎぃに、今にも溺

【感想】実はgImageReader+resseract-ocr-jpnにはWindows版がありUbuntu版に比べるとresseract-ocr-jpnのバージョンが若干高い。そのせいなのか認識率は向上しているがやはり「く」→「<」や句読点の誤変換など修正が面倒なモノが多く実用的とは言い難い。
ただ、ここまで向上が可能ならば今後のバージョンアップも期待していいのかもしれない。
 ※オレンジ部はなんなのだろうか

まとめ

  1. 市販品では差がないから、買った方についてたものをアップグレードがいいと思う。
  2. でも手作業での校正をラクにしたかったらクセの読める読んdeココかな。
  3. gImageReader+resseract-ocr-jpnは向上の余地もあるし、思ったより漢字の精度は高い。Windowsでも使えるのは朗報なので安物が駆逐できるくらいはレベルアップしてほしい。

0 件のコメント:

コメントを投稿