自炊のススメ – 雑誌のPDF化&OCR

CubePDF Utility 画面

先日、大量の雑誌や書籍を引き取ってしまい、これをスキャナで自炊しています。

昔も同様のことを試みたことがあったのですが、当時はスキャナの性能などに難があって、あまり良い結果を得られませんでした。

今回は、引き取ったのが主に英文雑誌だったので、これを新しい機材で自炊することにしてみたのです。
そしたら、なかなかうまく行っているので、ご紹介したいと思います。

機材

使っているのは手元のレーザー複合機「ブラザーDCP-L2550DW」です。
モノクロレーザープリンタとスキャナの複合機で、2万円くらいです。
安いです。

プリンタとしてはモノクロですが、スキャナとしてはカラースキャンもできるので、ぜんぜん問題ありません。

ふだんはプリンタとして活躍してくれていますが、自炊用のスキャナとしても活用できるので、コストパフォーマンスは最高です。

スキャンソフトとOCR

スキャンするのに使うアプリケーションは、付属してくるブラザー「iPrint&Scan」で、特に購入しなくても大丈夫です。

この「iPrint&Scan」には、嬉しいことにOCR機能も付いています。
スキャンした画像をPDFで保存する際に、OCR処理する設定にしておけば、テキストを埋め込んだPDFファイルを出力してくれます。

日本語のOCRだとどうだかわかりませんが、綺麗な状態の英文雑誌をスキャンするのであれば、かなり精度の良いOCRができているように思います。

スキャン作業

たった2万円ほどで買えてしまう「ブラザーDCP-L2550DW」ですが、有難いことに自動で紙送りしてくれるADFが付いています。
これを使えば、バラした雑誌のページを次々と読み込んでくれます。

このADF、紙送りに失敗したり、紙詰まりを起こすことも多いのですが、「ブラザーDCP-L2550DW」のADFは、過去に使ったスキャナと比べても、決して悪くないと思います。

残念なことと言えば、両面スキャンができないことです。
バラした雑誌のスキャンでは両面に印刷されているわけですから、奇数ページだけ、または偶数ページだけがスキャンされることになるので、どうしても後処理が必要になるのです。

また、多くの雑誌ではカラーページと白黒ページが混在します。
これを全部カラーでスキャンすると、ファイルサイズも大きくなってしまうので、白黒ページはグレースケールか白黒でスキャンします。
そうなると、出力ファイルが別々になるので、これらを結合する必要もあります。

ちなみに、僕はスキャンの解像度を200dpiくらいにしています。
OCR処理に問題なく、出力画像もだいたい納得できるレベルなので、特に必要な場合を除いては、それ以上の解像度にはしていません。

PDFの結合処置

さて、こうしてスキャンした出力ファイルを、PDFデータの結合やページの並べ替えができるアプリケーションで処理します。

僕が使っているのは「CubePDF Utility」という、無料のソフトウェアです。

CubePDF Utility 画面

CubePDF Utility」は完全無料ですが、邪魔な広告が入ったりすることもありませんし、とても使いやすいソフトウェアです。
ドラッグ&ドロップでPDFデータのページを簡単に並べ替えたり、特定のページだけを取り出したり、削除したりできるのです。

僕の自炊作業には欠かせないソフトウェアです。

ファイルの保存

こうして出来上がったPDFデータは、ちゃんと保存しておかないと意味がありません。

僕の場合は、もちろんNASに保存します。
愛用しているSynologyのDS218jに放り込むのです。
(今は後継製品のDS220jが売られています。)

写真データや音楽データ、PDFデータなど、いろんなファイルが保存してあるNASも、僕の生活に欠かせないガジェットなのです。


自炊のススメ – 雑誌のPDF化&OCR」への2件のフィードバック

  1.  こんばんは、Lです。
     具体的な自炊術のご紹介、ありがとうございます。自分では惜しくて出来ません。篤志家が自炊したPDFファイルの中には”ページごとに画像サイズがひどく違うもの”が散見されとても不思議に思っていましたが、記事を拝見してぼんやりと理由が分かった気がします。
     さてブースカさんのツイッターを拝見しております。毎日タダッピやカルト、あざらしなどのお相手をなさっていて「えらいなあ」と思っています。ご案内でしょうが、かの魯迅先生はこういう問題についても示唆的な文章を遺しています。「水に落ちた犬は叩き殺せ」で有名な「フェアプレイは時期尚早のこと」であります。ポパーの”不寛容には不寛容を”同様にフェアでない者にはフェアに扱うなという趣旨です。更にそいつが日頃言っているようにそいつを扱え(死刑賛成なら吊るしてやれ)、カシコぶった冷笑派はぶん殴れ、内戦、戦国の世にフェアさは屑に付け込まれて殺されるだけと言ったことを詳しく説得的に強く書いた約100年前の文章です。
     以前、篤志家によるスパイスの利いた訳がネットにあったのですが消えてしまいました。幸い、竹内好訳が上がってますので(小生は高橋和巳訳で出会った気が)URLを紹介します(書棚にあるでしょうが)。https://note.com/monolith9000/n/na63b0bbbd26b

    1. ありがとうございます。
      スキャナによるPDF化は、基本的に紙の本を破壊してしまうので、なかなか踏み切れませんね。
      溜まってしまった古雑誌を処分するとか、重複して持っている書籍を処分するなど、解体しても惜しくないものを対象にするのが手始めになると思います。
      僕は昔、古雑誌のPDF化をやったのですが、その頃はスキャナの性能が低く、グレースケールの画質が酷いものになってしまいました。
      今のスキャナやPCの処理能力なら、あんなことにならずに済んだだろうと思うと、あれは時期尚早だったかもしれません。

L へ返信する コメントをキャンセル

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください