PHP

UTF-8を想定して、不正なバイト列が含まれていないかを1行でチェックする

More than 3 years have passed since last update.

function validate_utf8($input) {

return (bool)preg_match('//u', $input);
}

あら簡単。

え?ホントにこれだけで大丈夫なの?

って思う人も多いと思うので(というか私も最初そう思ったので)、検証してみます。

(追加したほうがいいテストケースがあればコメントください)


テスト用関数

function test($input) {

$output = htmlspecialchars($input, ENT_QUOTES, 'UTF-8');
$code = str_replace('%', '\\x', rawurlencode($input));

if (validate_utf8($input)) {
echo "【{$output}】({$code}) は有効なUTF-8シーケンスです。\n";
} else {
echo "({$code}) は無効なUTF-8シーケンスです。\n";
}

}



テストケース

<?php

test("☝( ◠‿◠ )☝");
test("ゔ〲〰");
test("\x0a\x92\xff"); // てきとー
test("\xef\xbb\xbf"); // BOMだっけ
test(""); // 空文字列

echo "\n";

test("\x2f"); // スラッシュ(1バイト)
test("\xc0\xaf"); // スラッシュ(冗長2バイト)
test("\xe0\x80\xaf"); // スラッシュ(冗長3バイト)
test("\xf0\x80\x80\xaf"); // スラッシュ(冗長4バイト)



結果

【☝( ◠‿◠ )☝】(\xE2\x98\x9D\x28\x20\xE2\x97\xA0\xE2\x80\xBF\xE2\x97\xA0\x20\x29\xE2\x98\x9D) は有効なUTF-8シーケンスです。

【ゔ〲〰】(\xE3\x82\x94\xE3\x80\xB2\xE3\x80\xB0) は有効なUTF-8シーケンスです。
(\x0A\x92\xFF) は無効なUTF-8シーケンスです。
【】(\xEF\xBB\xBF) は有効なUTF-8シーケンスです。
【】() は有効なUTF-8シーケンスです。

【/】(\x2F) は有効なUTF-8シーケンスです。
(\xC0\xAF) は無効なUTF-8シーケンスです。
(\xE0\x80\xAF) は無効なUTF-8シーケンスです。
(\xF0\x80\x80\xAF) は無効なUTF-8シーケンスです。


おー空文字列のときでも大丈夫なのか!

冗長表現もちゃんと弾いてる!

u修飾子 すごい。


発展型


リソース型以外ならばなんでも判定できるようにしたバージョン(可変長引数対応)

function validate_utf8() {

return (bool)preg_match('//u', serialize(func_get_args()));
}

まだまだPHP捨てたもんじゃない!!!