Help us understand the problem. What is going on with this article?

Goutteでリダイレクトされたとき

More than 5 years have passed since last update.

Goutte使ってスクレイピングをするとき、例えば格闘技のサイトで、選手の名前を取得したいとき、こんなコードかくと思います。

$client = new Client();
$crawler = $client->request('GET', 'http://hogehoge.com/fighter/100');
$name = $crawler->filter('#fighter_name')->first()->text();

ただ、URLが存在しない場合、上記だと100番目の選手が存在しない場合、トップページとかに飛ばされると思います。
このとき、#fighter_nameな要素が存在しないと、データが取得できなくて例外が投げられてしまいます。
うーん、例外をキャッチしてもいいんですけど・・・。

どうしたか

色々調べたら、ClientがURLの履歴を管理していることが分かりました。
リダイレクトした場合、最新にrequest時のURLではなく、リダイレクト後のURLが挿入されます。
なので、こんな風にするとリダイレクトしたかどうかがわかると思います。

$targetUrl = 'http://hogehoge.com/fighter/100';
$client = new Client();
$crawler = $client->request('GET', $targetUrl);
$currentUrl = $client->getHistory()->current()->getUri();
if ($targetUrl !== $currentUrl) {
    // リダイレクト
}

私の場合、色んなリダイレクトが発生するようなサイトのスクレイピングに挑戦したので、リダイレクト先を判断するために、最初はリダイレクト後に固有で存在する要素をチェックしてました。
が、面倒だったため、crawlerで要素を取得する前にリダイレクトしてないか、した場合はリダイレクト先はどこなのかを、必ずURLで確認するようにしました。

ukisoft
まったり developer です。python と js を使うことが多いです。
rymansat
普段は宇宙開発に関わっていないサラリーマンが身近で誰でもできる宇宙開発を実現させることがリーマンサット・プロジェクト(Ryman Sat Project=rsp.)の目的です。キューブサットの開発をはじめ、宇宙を軸として様々なコミュニティやクリエイターとコラボレーションし、民間宇宙開発に関するネットワークを強化、拡張することを目指して活動しています。
https://www.rymansat.com/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした