Qiita Teams that are logged in
You are not logged in to any team

Log in to Qiita Team
Community
OrganizationAdvent CalendarQiitadon (β)
Service
Qiita JobsQiita ZineQiita Blog
Help us understand the problem. What is going on with this article?

PyQueryで抜き出したhtmlがxmlで困るの巻

More than 5 years have passed since last update.

PyQuery使ってみたんですけど、 PyQuery で item_detail というクラスの inner html を全部抜き出すとき、

d = PyQuery(htmlstr)
detail = d('.item_detail').html()

っつってやったんだけど、なんか取得結果をChromeで表示するとかなりおかしくて、理由が、中身に iframe があったんだけど、もともとは <iframe src=XXX></iframe> となってたところが PyQueryで抜き出したら<iframe src=XXX/> みたいな感じで、XMLになってる。どうやらこいつのせいで以降の表示がおかしくなってる。てかよくみたら<br>とかも<br/>とか言って全部XMLにしてくださっている!! ただ一部を抜き出したいだけなのに勝手にそういうことしないでくれるかな!!! 藤吉郎気分か!!!!

んで、ただのhtmlで欲しいんだけど…… って思って、公式ドキュメント見たらこうでした。

d = PyQuery(htmlstr)
detail = d('.item_detail').html(method='html')

それだけなんだけど。ちょっと迷ったので備忘録。
おしまい。

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away