#はじめに
横浜市のウェブサイトに市民の声という市民要望、意見のコーナーがあります。ここにはさまざまな市民の意見が蓄積されてる。数えると総数5000件以上あるがこれをウェブ上で閲覧するのは非常に検索性がない。そこでエクセルファイルに落とし込めば、後はいろいろ自由に検索できると思い方法を探してみた。
#どうやったらいいのだろう?
世の中にはたくさんのウェブサイトがあり、そこにある情報を有効に使われることを待ってるが実際には閲覧性が弱いため十分に利用されてないケースが多いと思われる。そこでウェブスクレイピングという技術を使い、効率よくウェブサイトの情報を収集して、閲覧者がもっとも使いやすい様式に変換する手助けをするツールがあることがわかった。代表的なツールにはOctoparseがあることが分かった。
#Octoparseのインストール
自身のPC環境は、OS:WIndows10、アプリケーション:Octoparse8 で行った。
OSがXPまたは32bitの場合は、バージョンOctoparse 7.3.0が動作します。
64bitではOctoparse 8.1 Betaが動作可能です。
Octopaseのウェブサイト
https://www.octoparse.jp/
1. Octoparseのダウンロードサイトに行き、無料トライアルを選択。
2. アカウント作成をする。使用には必ずアカウントが必要。指示に従って必要な情報を入力。
#フリー版で実際の情報収集
実際に使ってみてうまくいった方法を紹介します。
-
用意するものは、具体的に情報収集したいサイトのURLです。今回は横浜市のウェブサイト内にある「市民の声」の公開ページです。
-
意見の全件数は現在5239件あります。これを効率よく取得するために1ページ50件をページネーションで100ページくらいを繰り返し読み出しする必要があります。その条件の検索後のページのURLを取得します。
検索後のページが取得できました。このページのURLをコピーして控えます。 -
ワークフローの説明です。上から順番にまず指定されたURLのページを開き、そのなかでページの構成を解析して、ページネーションを認識します。そのページの中で指定された情報の抽出の繰り返し(ループ)をして1ページ内にある50個の情報を抽出します。それからページネーションの次ページをクリックするようOctoparseからWebサーバーに自動操作します。それを繰り返すことで100ページ分の抽出を繰り返し(ループ)します。
-
このような画面が現れます。ここで選択後に実際のWebサイトで抽出作業が開始されます。今回はローカル抽出を選びます。データの抽出が始まります。件数が長い場合は時間がかかります。
-
無事にエクセルファイルをローカルに保存できてOctoparseの操作は完了です。ファイルを確認すると、市民の声のそれぞれのタイトル、その詳細が載ってるURL、シリアル番号1~5000が生成されていることが確認できました。
#フリー版の限界
フリー版でもしっかりスクレイピングできた。フリー版の制限としてデータエクスポート10,000レコード/回、並行ローカルタスク数2個、作れるタスク数10個とあります。今回実際に行った抽出でも5239個あった情報のうち、5000個しか抽出できなかったのはこの制限によることかもしれません。。?
#今後の発展
様々なウェブサイトをめぐり有用な情報を一覧化したい。または定期的に同一項目の情報を抜き出すクローリングにも挑戦したい。