PyQuery使ってみたんですけど、 PyQuery で item_detail というクラスの inner html を全部抜き出すとき、
d = PyQuery(htmlstr)
detail = d('.item_detail').html()
っつってやったんだけど、なんか取得結果をChromeで表示するとかなりおかしくて、理由が、中身に iframe があったんだけど、もともとは <iframe src=XXX></iframe>
となってたところが PyQueryで抜き出したら<iframe src=XXX/>
みたいな感じで、XMLになってる。どうやらこいつのせいで以降の表示がおかしくなってる。てかよくみたら<br>
とかも<br/>
とか言って全部XMLにしてくださっている!! ただ一部を抜き出したいだけなのに勝手にそういうことしないでくれるかな!!! 藤吉郎気分か!!!!
んで、ただのhtmlで欲しいんだけど…… って思って、公式ドキュメント見たらこうでした。
d = PyQuery(htmlstr)
detail = d('.item_detail').html(method='html')
それだけなんだけど。ちょっと迷ったので備忘録。
おしまい。