2012年9月10日月曜日

エロラノベの自炊をしてみた記録 その1

大雑把な流れ

ここではスキャナはいわゆるADFを使ったドキュメントスキャナでなく、一般にスキャナと呼ばれるフラットヘッド型を用いている。

① 文庫本を解体する

面倒と思われるかもしれないが、特に刃物を使わなくても結構綺麗にページごとに分割できる。挿絵のないエロ小説の場合は非破壊でもなんとかなったりするのでチャレンジの価値はあろう。

② 表紙スキャン

エロラノベの書影やピンナップなどのカラー部分は先に済ませておく。
 帯があることもあるので帯つき、帯なしで2通りの表紙をスキャンしておく。
 ちなみに書影自体は後で使うソフトで取得できたりもするのでそんなにこだわる必要はない。ピンナップは折り目があるので凝りたい人は画像修正もしよう。

③ 本編スキャン&OCR

えふすくはAlsoftの読んde!!ココ Ver.13 アップグレード版 for ダウンロード [ダウンロード] を購入した(EPSONのスキャナについてたもののアップグレード)
 これには「OCRファクトリー」という仕組みがあってスキャンからOCR、結果ファイルの保存先までの手順を一括登録できる仕組みがある。
image
  これを使うと最初にスキャン範囲を決定して、スキャンの間の時間(えふすくは5秒)を設定するだけで流れ作業のごとく各ページをスキャンできる。
 ただし、迅速なスキャンをするにはフタを開けっ放しにしておくことが必要で、その時の弊害として裏写りが気になってしまう。OCRでは画像の処理を行ってから認識をするので特にミスは起こらないが、漫画などの絵がメインの場合は修正がしづらいので、裏に黒い板を用意するなどしてから後で画像にコントラスト処理をかけるという方法を使っている。

④ 校正

このようにして全ページのスキャンを終了するとページ数分のJPGとTXTが生成されている。これらを見比べて誤認識等を手動で直す。面倒に見えるが、OCRの精度は相当高い。細かい部分が多い漢字や「……」を「・・・・・・」、「つ」と「っ」の違い程度がほとんどだ。
 あと「!?」を「け‥」と認識してしまう縦書きならでは誤認識もある。
読んde!!ココ Ver.13」の機能を使うと誤変換の候補が出てくるので結構便利。
 ルビについては例えば
 お前はいつも言葉を誇張しすぎだ
 (「誇張」に「こちょう」とルビがある場合)
→お前はいつも言葉を誇張(こちょう)しすぎだ
と、ルビを()にしてテキストとしてどこでも通用するやり方を採用している。
(場合によっては読めるからつけないというのもある。自己流ならではのやり方だw)
 あとOCRではよくある、本編とは関係ないページ数などを認識して文頭に妙なスペースが空いてしまったりするのも修正する。

⑤ 結合

文章しかない小説ならば④の時点ですべてのTXTを結合すればよい。これはWindowsならばコマンドラインで
copy [TXTの入っているフォルダパス]\*.txt [TXTの入っているフォルダパス]\[結合したファイル名].txt

とすることで簡単に結合できる(終わったら結合部分のチェックはすること)

 しかし挿絵のあるエロラノベでは挿絵の前後で結合を止めなければならない。一番楽なのは、挿絵の前後ごとにフォルダを用意してそのフォルダ内で上記のコマンドを使って結合するやり方である。

 以上が最初の関門でここまで終えるのにスキャンで2時間半以上、校正で2時間かかる。
 普通に読めば1時間少々で済むんだから結構面倒なのだ。
 しかしこのままではエロラノベの場合文章と挿絵の部分が分離したままだったりする。
image ここまでできたの図 

 これを結合して1冊の電子書籍として読めるようにする手順は別のエントリにて

エロラノベの自炊をしてみた記録 その2
http://ccf-squarelab.blogspot.jp/2012/09/blog-post_11.html
に続く




0 件のコメント:

コメントを投稿