**Portable Document Format (ポータブル・ドキュメント・フォーマット、略称:PDF)**はAdobeが開発および提唱する、電子上の文書に関するファイルフォーマットである。1993年に発売されたAdobe Acrobatで採用された。(ウィキペディア)
今、PDFが電子マニュアルや資料など他の多くの目的としてたくさんの人に使用されています。また、多くのWebサイトでは、Webページに埋め込むのではなく、データをPDFファイルとしてアップしてダウンロードしてもらうような形をとっています。これでWebスクレイピングを効果的に避けることができます。
PDFファイルを簡単に表示、保存、印刷できます。しかし問題は、PDFがファイルの整合性を保つように設計されていることです。「電子ペーパー」のように、どんな環境のパソコンで開いても、同じように見ることができます。
しかし、PDF中の一部を削除したりし、文字や図形を書き込んだりするPDFを編集することがちょっと難しいですよね。編集したい時はどうすればいいでしょうか。これから本記事でPDFからExcelに変換する方法を紹介します。
#1.コピペ
データ量が少ない場合はコピペが手っ取り早い方法です。すべてのドキュメントを開き、抽出するテキストを選択して、Excelファイルにコピーして貼り付けます。場合によっては、テーブルをコピーする必要があるときに、まずそれをWordファイルに貼り付け、次にWordからExcelにコピーして貼り付けて構造化テーブルを作成する必要があります。
ただ、量が多い場合、この方法では無理そうですね。自動化ツールを使ったほうがおすすめです。
#2.PDFエクセル変換ソフト
PDFファイルをExcelに取り込んで再編集できるソフトやウェブサービスなどがたくさんあります。操作が簡単で、瞬時でPDFファイルをExcelに変換できます。PDFファイルをドラッグして、変換ボタンをクリックしてExcelファイルをエクスポートします。変換されたファイルは、テキストと画像だけでなく、フォーマット、フォント、色もそのまま残られます。
以上の手順が完了したら、スプレッドシートを編集できます。多くのPDF変換ソフトでは、PDFファイルに保存されている画像、テキスト、ページを直接編集し、Excelスプレッドシートにエクスポートすることもできます。
もちろん、PDF形式の最初の開発者であるAdobe Acrobatには、変換機能が含まれています。すばやく簡単に、スマフォを含むあらゆるデバイスで行うことができます。Acrobatはファイルの変換だけでなく、共同作業中のドキュメントを作成、編集、エクスポート、署名、およびレビューできます。スキャンしたドキュメントを編集可能な検索可能なPDFに変換することもできます。
#3. PDFの表を読み取るツール
文章をPDFから抽出するのはそれほど難しくはないですが、表を表の形のまま、抽出するのはなかなか難しそうです。ファイルから特定のデータを取得できない場合があります。多くの場合、必要なデータはその中の表だけです。ファイル全体を変換した後でも、変換されたファイルから表を選択する必要があります。
Tabulaは、PDFファイル内の表を抽出で切るツールです。クリックしてドラッグしてテーブルを選択し、表の周りにボタンをクリックするだけで抽出データを取り出せます。ファイルとして出力した結果は改行を含むセルのデータもきちんとズレずに抽出されている。
PDFからデータを抽出するための非常に多くのツールがあります。これらの自動化ツールを使用すると、PDFファイルからデータを取得する方法について頭を悩ます必要がなくなります。各ツールには長所と短所があるため、結果は異なる場合があります。最適なものを見つけてみてください!
PDFからExcelに変換するその他のツールは次のとおりです。
smallpdf
PDFelement
Nitro Pro
cometdocs
iSkysoft PDF Converter Pro