こんにちは。最近暑いですね。暑くなるとページ巡回して要素を抽出するのもうんざりします。ここはpythonのlassieを使ってさっさと済ませちゃいましょう。
#lassie
Web Content Retrieval for Humans™
だそうです
#installation
pip install lassie
pipからいけます
#usage
>> import lassie
>> fetched = lassie.fetch('http://www.youtube.com/watch?v=tkjbEqnp_0U')
こんだけ。
中身はこんな感じ。
>> from pprint import pprint
>> pprint(fetched)
{'description': u'Recording of the July 12, 2013 webcast, "What\'s New in Riak 1.4"',
'images': [{'src': u'http://b.vimeocdn.com/ts/ 445/011/445011693_640.jpg',
'type': u'og:image'}],
'title': u"What's New in Riak 1.4",
'url': u'http://vimeo.com/71448923',
'videos': [{'height': 400,
'src': u'http://vimeo.com/moogaloop.swf?clip_id=71448923',
'type': u'application/x-shockwave-flash',
'width': 640},
{'height': 400,
'src': u'https://player.vimeo.com/video/71448923',
'width': 640}]}
タイトル、説明、(ここでは出てないけど)キーワード、画像、ビデオ等を抜き出して返してくれます。サムネ候補もタイプ付きで返してくれるのが心憎いですね。
暑い夏も穏やかに過ごせそうです。
#dependencies
setup.py
install_requires=[
'requests==1.2.3',
'beautifulsoup4==4.2.1',
'html5lib==1.0b3'
],
おなじみですね。
#lassie
【名詞】【可算名詞】《スコットランド方言》 娘,少女; お嬢さん (⇔laddie).
[LASS+‐IE]
なるほど
えっとひょっとして
#名犬ラッシー
「Lassie」は、英語では、「お嬢さん・少女」の意味の愛称的な言葉で、当然ラッシーは雌のコリーである。
知りませんでした。勉強になりますね。