はじめに
この記事は苫小牧高専アドベントカレンダー2021 6日目の記事です。
これを作った話です
導入
とある先生がノート提出を白黒2値のpdfで出せとのたまいました。
そこでカラーのPDFを白黒2値で印刷する必要があったのですが、調べた感じAcrobat Proが必要っぽかったです。
奴その先生はライセンスを持っていますが、我々学生はそんな高いものは持っていません。
大変キレたので自分用にこれを作成しました。
MacOSなら普通に二値化できるらしい
成果物
使い方
CTRL+ENTERでセル内のコードを実行しつつ次のセルに進むことができます。
セルを順番に実行したいときはCTRL+ENTERを連打すると良いでしょう
-
1つ目のセルを実行します。
(pdfをアップロードするためのフォルダ(pdf_file)が生成されます。) -
残ったすべてのセルを上から順に実行します。
増えたフォルダについての解説は以下の通りです。
- result_dir
- 白黒変換後のpdfが格納されているフォルダ。
- img_dir
- 白黒変換後のpdfの内容がページ毎に画像化したものが格納されているフォルダ
- ほしいデータをダウンロードします。
- 補足:二値化のしきい値は1つ目のセルにある変数threshに代入する値をいじることで変更できます(0~255)
実行例
ソースコード
[ここに載ってます。]
(https://github.com/SnowFairyTea/pdfBlackAndWhiteBinarization)
やってることはpdf2imageでpdfを画像に変換し、その画像をcv2で二値化してimg2pdfでpdfにくっつけなおしているだけです。
終わりに
奴先生は多分この課題を出し続けると思われます。
そうなったときにこの記事を思い出して楽をしてもらえたらなと思いこの記事を執筆しました。
ちなみに紙でノートを取っている人はスキャンの段階で二値化できるのでそうしたほうが速いですね。
私はiPadのGoodNotesを使ってノートを取っていたのでバックアップのpdfファイルをこれに投げて提出しました。締め切り後に
苫小牧高専アドベントカレンダー2021、明日は[nullpointerexception]さんです!!
それでは!!