PHP
scraping

URLを元に相対パスを絶対パス(URL)に変換する

URLを元に相対パスを絶対パス(URL)に変換する

スクレイピング系の処理を組んでいる人から「古い環境でも動くコードはあるか?」という質問を受けました。

内心「それぐらいググれよカス」と思いつつ、ググってみると意外とまともに動くコードが見つからなかったため、気分転換に書いてみました。


コード

都合上、PHP5.2辺りでも動くように書いてます。
未検証ですが、4系でもstripos()の代替となる関数を用意すれば動くかも?

function pathToUrl($pPath, $pUrl)
{
    $path = trim($pPath);    // 変換対象パス
    $url = trim($pUrl);      // 変換元URL

    //-- 変換不要
    if (stripos($path, 'http') === 0 ||
        stripos($path, 'mailto:') === 0 ||
        stripos($path, 'tel:') === 0) { return $path; }

    //-- #anchor
    if (strpos($path, '#') === 0) { return $url . $path; }

    //-- 変換元URLのホームURL(scheme://host)
    $tmpUrlAry = explode('/', $url);
    if (empty($tmpUrlAry[2])) { return $url; }
    $urlHome = $tmpUrlAry[0] . '//' . $tmpUrlAry[2];

    //-- 変換元URLの path
    if (!$tmpUrlAry = parse_url($url)) { return $url; }
    $pathUrl = (isset($tmpUrlAry['path'])) ? $tmpUrlAry['path'] : '/';

    //-- ?query
    if (strpos($path, '?') === 0) { return $urlHome . $pathUrl . $path; }

    //-- /path
    if (strpos($path, '/') === 0) { return $urlHome . $path; }

    //-- ./path or ../path
    $pathUrlAry = array_filter(explode('/', $pathUrl), 'strlen');
    if (strpos(end($pathUrlAry), '.') !== FALSE) { array_pop($pathUrlAry); }

    foreach (explode('/', $path) as $pathElem) {
        if ($pathElem === '.') { continue; }
        if ($pathElem === '..') { array_pop($pathUrlAry); continue; }
        if ($pathElem !== '') { $pathUrlAry[] = $pathElem; }
    }

    $urlBuild = $urlHome . '/' . implode('/', $pathUrlAry);
    if (substr($path, -1) === '/') { $urlBuild .= '/'; }

    return $urlBuild;
}

動作テスト

$url = 'http://user:pass@example.com/base/path/here/index.php?p=q';

$testAry = array(
    'URL' => 'https://www.google.com/gmail/',
    'mailto:' => 'mailto:info@example.com',
    'クエリのみ' => '?aaa=bbb&ccc=ddd',
    'パス+クエリ' => 'new.php?aaa=bbb',
    'アンカーのみ' => '#anchor',
    'パス+アンカー' => 'new.html#anchor',
    '絶対パス' => '/new/path/abs.html',
    '相対パス1' => './',
    '相対パス2' => './new/path/rel2/',
    '相対パス3' => './new/path/rel3.html',
    '相対パス4' => '../../rel4.html',
    '相対パス5' => '.././/new/../././rel5.html',
);

foreach ($testAry as $title => $test) {
    echo "{$title}('{$test}') ⇒ ", pathToUrl($test, $url), "\n";
}

テスト結果

URL('https://www.google.com/gmail/') ⇒ https://www.google.com/gmail/
mailto:('mailto:info@example.com') ⇒ mailto:info@example.com

クエリのみ('?aaa=bbb&ccc=ddd') ⇒ http://user:pass@example.com/base/path/here/index.php?aaa=bbb&ccc=ddd
パス+クエリ('new.php?aaa=bbb') ⇒ http://user:pass@example.com/base/path/here/new.php?aaa=bbb

アンカーのみ('#anchor') ⇒ http://user:pass@example.com/base/path/here/index.php?p=q#anchor
パス+アンカー('new.html#anchor') ⇒ http://user:pass@example.com/base/path/here/new.html#anchor

絶対パス('/new/path/abs.html') ⇒ http://user:pass@example.com/new/path/abs.html

相対パス1('./') ⇒ http://user:pass@example.com/base/path/here/
相対パス2('./new/path/rel2/') ⇒ http://user:pass@example.com/base/path/here/new/path/rel2/
相対パス3('./new/path/rel3.html') ⇒ http://user:pass@example.com/base/path/here/new/path/rel3.html
相対パス4('../../rel4.html') ⇒ http://user:pass@example.com/base/rel4.html
相対パス5('.././/new/../././rel5.html') ⇒ http://user:pass@example.com/base/path/rel5.html

Webで見つけたコードは何故上手く動かない?

  1. そもそもPHPの古いバージョンに対応していない
    • これは仕方ないですね。私もPHP5.4以前の話とかはもう流石に忘れました(笑)

  2. user や pass の指定のあるURLを考慮できていない
    • user:pass@ の部分が欠落してしまうコードが多いようです。

  3. クエリパラメータを含むURLを考慮できていない
    • ?p=q の部分です。
      クエリパラメータを含むURLを元に変換すると、結果がめちゃくちゃになるコードが多いようです。

  4. mailto: や tel: を考慮できていない
    • 他にも色々ありますので、ここはもう少し丁寧に書いた方が良いと思います。
      今回はこれで十分との事で手を抜きました。

  5. クエリやアンカーのみを渡された時の事を考慮できていない。
    • '?name=value' や '#anchor' を渡された時です。

  6. 相対パスのちょっと変わった書き方に対応していない
    • '.././/new/../././rel5.html' というのは流石にお遊びですが、
      './' という書き方に対応できていないコードが多いようです。

4と5については、関数に渡す前にパラメータを先にチェックした方が良いでしょうね。
今回は使う人の用途に合わせたため、このような形になっています。


余談

少し気になったのは、正規表現を多用しているコードが多く見つかったという点です。

スクレイピングの性質上、関数の呼び出し回数がかなりの数になる事も多いと思いますので、できるだけ正規表現のようなコストのかかる処理は避けた方が良いのではないでしょうか。

また、パスにも様々な書き方がありますので、意外と見落としがありますね。
私も気分転換でサクっと書くつもりだったのですが、意外と時間がかかりました。

まだ見落としているところが色々とあるかもしれませんので、参考の際はご注意ください。
ご指摘などがございましたらどうぞお気軽に。