More than 3 years have passed since last update.

Octoparseで自治体のウェブサイトの情報をスクレイピングしてみた

Posted at 2020-08-07

はじめに

横浜市のウェブサイトに市民の声という市民要望、意見のコーナーがあります。ここにはさまざまな市民の意見が蓄積されてる。数えると総数5000件以上あるがこれをウェブ上で閲覧するのは非常に検索性がない。そこでエクセルファイルに落とし込めば、後はいろいろ自由に検索できると思い方法を探してみた。

どうやったらいいのだろう？

世の中にはたくさんのウェブサイトがあり、そこにある情報を有効に使われることを待ってるが実際には閲覧性が弱いため十分に利用されてないケースが多いと思われる。そこでウェブスクレイピングという技術を使い、効率よくウェブサイトの情報を収集して、閲覧者がもっとも使いやすい様式に変換する手助けをするツールがあることがわかった。代表的なツールにはOctoparseがあることが分かった。

Octoparseのインストール

自身のPC環境は、OS：WIndows10、アプリケーション：Octoparse8 で行った。
OSがXPまたは32bitの場合は、バージョンOctoparse 7.3.0が動作します。
64bitではOctoparse 8.1 Betaが動作可能です。
Octopaseのウェブサイト
https://www.octoparse.jp/

1.　Octoparseのダウンロードサイトに行き、無料トライアルを選択。

2.　アカウント作成をする。使用には必ずアカウントが必要。指示に従って必要な情報を入力。

3.　アカウント認証のメールの送付、受取り、認証をする。

アカウントの認証後に下記のページになります。今回はフリープランを選択します。
ダウンロードページに移り、今回は機能が向上した8.1 Beta版を選択した。
自身の環境に合わせてWindows版を選択した。ダウンロードしたzipファイルを解凍して、exeファイルを実行してインストール開始します。手順に従ってインストールを完了させます。
アプリケーションを開始する。取得したアカウント情報を入力して使用始める。
この画面が見えたでしょうか。フリープランだと確認できればインストール完了です。

フリー版で実際の情報収集

実際に使ってみてうまくいった方法を紹介します。

用意するものは、具体的に情報収集したいサイトのURLです。今回は横浜市のウェブサイト内にある「市民の声」の公開ページです。
意見の全件数は現在5239件あります。これを効率よく取得するために1ページ50件をページネーションで100ページくらいを繰り返し読み出しする必要があります。その条件の検索後のページのURLを取得します。

検索後のページが取得できました。このページのURLをコピーして控えます。
これから実際のOctoparseで情報抽出します。先ほどコピーしたURLを入力して、それから抽出開始ボタンをオン！
この画面で実際に抽出する情報を選んでいきます。画面の説明です。
操作ヒントにある「Webページを自動識別」を使ってみましょう。このように識別が始まります。
いくつかの識別結果が得られました。ここで識別結果を選択できます。
2番目の識別結果を都合よさそうです。これを選択しましょう。それから「ワークフローを生成」を押します。
ワークフローの説明です。上から順番にまず指定されたURLのページを開き、そのなかでページの構成を解析して、ページネーションを認識します。そのページの中で指定された情報の抽出の繰り返し(ループ)をして1ページ内にある50個の情報を抽出します。それからページネーションの次ページをクリックするようOctoparseからWebサーバーに自動操作します。それを繰り返すことで100ページ分の抽出を繰り返し(ループ)します。
このワークフローを確定するために「保存して実行」を押します。
このような画面が現れます。ここで選択後に実際のWebサイトで抽出作業が開始されます。今回はローカル抽出を選びます。データの抽出が始まります。件数が長い場合は時間がかかります。
データの抽出後にこの画面が現れます。エクスポートを選び、フォーマットにExcel(xlsx)を選びます。
無事にエクセルファイルをローカルに保存できてOctoparseの操作は完了です。ファイルを確認すると、市民の声のそれぞれのタイトル、その詳細が載ってるURL、シリアル番号1～5000が生成されていることが確認できました。