1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

RPAAdvent Calendar 2024

Day 24

PDF文書をページ単位にバラしてJPEG画像に変換するVBOを作りました。 #blueprism

Last updated at Posted at 2024-12-23

やりたいこと

PDFを1ページずつバラして画像にしたい。
DXを探しても、Excel→PDFとか、画像→PDFとか、惜しいのはあるんだけどこれは無い。
将来的に掲載されるかもしれんけどたぶん有料アセットになりそう(BP社は最近そういう傾向ですねー)。

なんでそんなことがしたいのか

たとえば

など……。
意外とそういう需要はあるんです。
オンラインサービスは手軽だけど、セキュリティやら何やらで業務では使えないことが多いですしね。

なければ自作

無いものはしょうがない。あれば使う、なければ作る。
お金のある人は、有料アセットが公開されたら金で解決して有料アセットを契約してもいいかも。
有料アセットはBP社のサポートあるし。
他の有料アセットを見てると400ドル/年とかそれくらいが多いみたい。

準備

必要なDLL

  • PDFiumViewer.dll
    GitHubここです。NuGetパッケージマネージャでDLLを取ってきて、Blue Prismの実行フォルダに配置してください。

  • pdfium.dll
    PDFiumというのがGitHubにあって、これをNuGetパッケージマネージャで開くと、「pdfium_x86.dll」「pdfium_x64.dll」の2個が入っています。
    両方Blue Prismの実行フォルダに配置して、どっちかを「pdfium.dll」に改名します。
    私の環境では「pdfium_x86.dll」のほうを改名するのが正解でした。

  • System.ValueTuple.dll
    .NET4.7以上だと自動で入ります。
    Blue Prismのインストール要件が4.7以上なので、つまりBlue Prismが入っていればPCのどこかにあるはず。検索して、Blue Prismの実行フォルダにファイルをコピペしてください。
    検索して探し当てた場所に元々あったやつは、そのままそこに置いといてください。

  • PDFiumSharp.dll
    どうもこれもないといけないっぽい。GiuHubここです。

グローバルコードオプション

もとからあるやつに追加するぶんです。
上で挙げたDLLをBlue Prismの実行フォルダに配置してからやってください。

上のDLLの欄

  • netstandard.dll
  • mscorlib.dll
  • PdfiumViewer.dll

下の名前空間の欄

  • System.IO
  • System.Drawing.Imaging
  • PdfiumViewer

アクション作成

コードステージ1個配置するだけ。

コードステージの入力引数

pdfPath:変換したいPDF文書ファイルのフルパス。データ型はtext。
outputFolder:変換した画像を格納するフォルダの場所。末尾の「\」要ります。データ型はtext。

出力引数はありません。
image.png

コードステージ

C#で書きました。
最後に「PdfDocumentを明示的に破棄」とやっているのは、BPのコードステージはusingで囲ってもDisposeしてくれないっぽい(PDFファイルを掴んだままになってしまって移動や削除などできなくなってしまう)ので、明示的に書きました。

// PDFを読み込む
using (PdfDocument pdfDocument = PdfDocument.Load(pdfPath))
{
// PDFファイル名から拡張子を除去
string baseFilename = Path.GetFileNameWithoutExtension(pdfPath);

// 各ページをJPGに変換し保存
for (int i = 0; i < pdfDocument.PageCount; i++)
{
    using (Image image = pdfDocument.Render(i, 300, 300, true))
    {
        image.Save(Path.Combine(outputFolder, $"{baseFilename}_{i+1:D3}.jpg"), System.Drawing.Imaging.ImageFormat.Jpeg);
    }
}

// PdfDocumentを明示的に破棄
if (pdfDocument != null)
{
    pdfDocument.Dispose();
}

}

ファイル名の「$"{baseFilename}_{i+1:D3}.jpg"」の説明

ファイル名の頭についてる「$」

MS Learnの説明はこちらをご覧ください
「文字列補完式」というもので、文字列の中に変数や式の値を埋め込む方法です。
コードの「PDFファイル名から拡張子を除去」というところで定義してるbaseFilename。
たとえばPDF文書が「文書あいうえお.pdf」だったら、baseFilenameは「文書あいうえお」。

{i+1:D3}

i:ループカウンタ。forで0から始めてインクリメントしてるやつ。
D:整数
3:最低3桁。たとえば1だったら001。
つまり「{i+1:D3}」は、「i+1」の結果を最低3桁の数字で書いてね、というフォーマット指定子です。
バラしたPDFのページを別々のファイルにするときに、001、002、003…… と、ファイル名の末尾に連番を振れます。

だから、たとえば4ページある「文書あいうえお.pdf」を変換すると、

文書あいうえお_001.jpg
文書あいうえお_002.jpg
文書あいうえお_003.jpg
文書あいうえお_004.jpg

と4個のjpgファイルが出力されることになります。

終わりです

今回もChatGPT大先生にはたいへんお世話になりました。
もう大先生のいない世界では生きていけない……。

あとBlue Prism Community。公式コミュニティサイトです。
すごく頼りになります。世界中のいろんな人が助けてくれる。超おすすめ。ただし英語。
Blue Prismユーザでなくてもメアドだけあればアカウントが取れます。メアドはGmailとかでもOK。

将来的には逆パターンも作りたいけど、別のDLLが必要なのでそれは改めて。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?