#【概要】
大目標として、女性服の分類機を作成します。
今回はディープラーニングを行うための素材を集めるための手法について簡単に記述します。
#【目標】
ネットで画像を取得する
#【環境】
Windows10
google crome (ブラウザ)
python3.6
selenium (pythonライブラリ)
#webスクレイピングについて
###知っておくべきこと
webスクレイピングは用法容量を守らないと大変なことになります。
webサイトの規約に違反する場合や相手サーバへ負荷をかけてしまう場合は違法となります。
またスクレイピングで取得したモノの扱い方も注意しましょう。肖像権、著作権など知らなければいけないことは山ほどあります。頑張りましょう。
これらについては自分で時間をかけて調査して、健全なスクレイピングを行ってください。
Python + Selenium
私がスクレイピングにセレニウムを利用する理由はjsで動的に生成されるサイトにも対応できるからです。requestsなんかでもweb探索は可能ですができないことが多く感じたためライブラリを変更しました。
あとは実際にwebを自動的に探索している様子を見るのが楽しかったというのもあります。
###サンプル
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import urllib.request as req
site_a= "webページのurl"
options = Options()
# options.add_argument('--headless')
driver = webdriver.Chrome(options=options)
driver.get(site_a)
time.sleep(3)
これを実行すると自動的にcromeが起動し、指定のページを開き、3秒後にページを閉じます。
簡単な導入ですが、勝手にブラウザが立ち上がってページを開く様子は見ていて楽しいですね♪
ここから画像を取得したり、連鎖的に他のページへ移動する手法は少し踏み込まないといけません。
調べていくうちにurlの構造を学ぶことができたり、htmlの構造なども学ぶきっかけになるかと思います。そのうちスクレイピングはcromeが最強かもしれないと思い始めるかもしれません。
それらを書き出すと果てしなく長くなりそうなので別記事にでも記述しようかと思います。