0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

ディープラーニング 服装の分類機 素材集め編_1

Last updated at Posted at 2020-03-16

#【概要】
大目標として、女性服の分類機を作成します。
今回はディープラーニングを行うための素材を集めるための手法について簡単に記述します。

#【目標】
ネットで画像を取得する

#【環境】
Windows10
google crome (ブラウザ)
python3.6
selenium (pythonライブラリ)

#webスクレイピングについて
###知っておくべきこと
webスクレイピングは用法容量を守らないと大変なことになります。
webサイトの規約に違反する場合や相手サーバへ負荷をかけてしまう場合は違法となります。
またスクレイピングで取得したモノの扱い方も注意しましょう。肖像権、著作権など知らなければいけないことは山ほどあります。頑張りましょう。

これらについては自分で時間をかけて調査して、健全なスクレイピングを行ってください。

Python + Selenium

私がスクレイピングにセレニウムを利用する理由はjsで動的に生成されるサイトにも対応できるからです。requestsなんかでもweb探索は可能ですができないことが多く感じたためライブラリを変更しました。
あとは実際にwebを自動的に探索している様子を見るのが楽しかったというのもあります。

###サンプル

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import urllib.request as req

site_a= "webページのurl"
options = Options()
# options.add_argument('--headless')
driver = webdriver.Chrome(options=options)
driver.get(site_a)
time.sleep(3)

これを実行すると自動的にcromeが起動し、指定のページを開き、3秒後にページを閉じます。

簡単な導入ですが、勝手にブラウザが立ち上がってページを開く様子は見ていて楽しいですね♪

ここから画像を取得したり、連鎖的に他のページへ移動する手法は少し踏み込まないといけません。

調べていくうちにurlの構造を学ぶことができたり、htmlの構造なども学ぶきっかけになるかと思います。そのうちスクレイピングはcromeが最強かもしれないと思い始めるかもしれません。

それらを書き出すと果てしなく長くなりそうなので別記事にでも記述しようかと思います。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?