LoginSignup
13
15

More than 1 year has passed since last update.

Instagramから投稿をスクレイピングする

Last updated at Posted at 2018-10-22

KOLという言葉をご存じですか?「Key Opinion Leader」の略で、SNS上で影響力の高いアカウントのことを指します。いわゆるインフルエンサーで、人気のあるKOLを商品のプロモーションにうまく利用すれば、大きな利益を上げることができます。中国でKOLはマーケティング上欠かせない存在となっており、中国のECサイトで商品を売りたい日本企業などの間では、KOLを使ったプロモーションが常識になっています。

「インスタ映え」の流行語に象徴されるように、すでに多くの人が楽しんでいる人気SNSのInstagram(インスタグラム)にも多くKOLがいます。今回はWebスクレイピングツールOctoparseを使って、KOLの投稿をスクレイピングしてみます。

この記事では、Instagramから投稿をスクレイピングする方法を示すために、https://www.instagram.com/izkiz/ を例として使います。さて、始めましょう!

1) 「Go To Web Page」 - 内蔵ブラウザで対象のWebページを開く

· 「Advanced Mode」でタスクを作成します。

· URLを「Extraction URL」ボックスに貼り付け、「Save URL」をクリックして移動します。

· Webページの内容を読み込めない場合は、「setting」でブラウザを変更してください。
save-url.gif

2) ページ遷移のループを作る - 複数のページからデータを取得する

· 一番目の画像をクリックし、「Action Tips」の下部にある「UL」から「A」にタブを変更してください。(データ/ URL /画像/ HTMLを詳細に選択して抽出する方法をご覧ください。)

· 「Action Tips」にある「Click the link」をクリックします。

· 「>」をクリックし、 「Loop click next page」を選択します。

· 「Advanced Options」パネルで「Load the page with AJAX」をチェックし、「AJAX timeout」を設定します。
pagination-loop-1.gif

ヒント!
AJAXとは「Asynchronous JavaScript + XML」の略で、簡単に言えばページを再読み込むことなくコンテンツの一部をWebページが更新できるようにする一連のWeb開発テクニックです。
AJAX技術を使ったページには「AJAX Load」を選択するほうがいいです。AJAXの詳細はこちら

3) データを抽出する - 抽出したいデータを選択する

· 必要なデータをクリックし、「Action Tips」にある「Extract data」を選択します。

· 必要に応じて、フィールド名を編集します。
extract-text-data.png

ヒント!
OctoparseはWebサイトから選択した画像のURLのみを抽出することができます。場合によっては、「Action Tips」の下部にあるタブを調整し、正しい情報を得る必要があります。
extract-url-of-selected-image.gif

4) 抽出タスクを始める - タスクの実行を行いデータを取得する

· 「Save」をクリックします。

· 「Start Extraction」をクリックします。
run-extraction.gif

いかがでしょうか?ここでサンプルWebクローラーをダウンロードできます。興味を持ち方は是非お試してください。

13
15
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
13
15