Edited at

Instagramから投稿をスクレイピングする

KOLという言葉をご存じですか?「Key Opinion Leader」の略で、SNS上で影響力の高いアカウントのことを指します。いわゆるインフルエンサーで、人気のあるKOLを商品のプロモーションにうまく利用すれば、大きな利益を上げることができます。中国でKOLはマーケティング上欠かせない存在となっており、中国のECサイトで商品を売りたい日本企業などの間では、KOLを使ったプロモーションが常識になっています。

「インスタ映え」の流行語に象徴されるように、すでに多くの人が楽しんでいる人気SNSのInstagram(インスタグラム)にも多くKOLがいます。今回はWebスクレイピングツールOctoparseを使って、KOLの投稿をスクレイピングしてみます。

この記事では、Instagramから投稿をスクレイピングする方法を示すために、https://www.instagram.com/izkiz/ を例として使います。さて、始めましょう!


1) 「Go To Web Page」 - 内蔵ブラウザで対象のWebページを開く

· 「Advanced Mode」でタスクを作成します。

· URLを「Extraction URL」ボックスに貼り付け、「Save URL」をクリックして移動します。

· Webページの内容を読み込めない場合は、「setting」でブラウザを変更してください。

save-url.gif


2) ページ遷移のループを作る - 複数のページからデータを取得する

· 一番目の画像をクリックし、「Action Tips」の下部にある「UL」から「A」にタブを変更してください。(データ/ URL /画像/ HTMLを詳細に選択して抽出する方法をご覧ください。)

· 「Action Tips」にある「Click the link」をクリックします。

· 「>」をクリックし、 「Loop click next page」を選択します。

· 「Advanced Options」パネルで「Load the page with AJAX」をチェックし、「AJAX timeout」を設定します。

pagination-loop-1.gif

ヒント!

AJAXとは「Asynchronous JavaScript + XML」の略で、簡単に言えばページを再読み込むことなくコンテンツの一部をWebページが更新できるようにする一連のWeb開発テクニックです。

AJAX技術を使ったページには「AJAX Load」を選択するほうがいいです。AJAXの詳細はこちら


3) データを抽出する - 抽出したいデータを選択する

· 必要なデータをクリックし、「Action Tips」にある「Extract data」を選択します。

· 必要に応じて、フィールド名を編集します。

extract-text-data.png

ヒント!

OctoparseはWebサイトから選択した画像のURLのみを抽出することができます。場合によっては、「Action Tips」の下部にあるタブを調整し、正しい情報を得る必要があります。

extract-url-of-selected-image.gif


4) 抽出タスクを始める - タスクの実行を行いデータを取得する

· 「Save」をクリックします。

· 「Start Extraction」をクリックします。

run-extraction.gif

いかがでしょうか?ここでサンプルWebクローラーをダウンロードできます。興味を持ち方は是非お試してください。