ドメインには日本語が使えるとちょっと前から聞くようになってきた。
ファイル名なども、推奨しないことも多いけど、大抵動くような気がする。
フレームワークなどによって、URIがそのままパラメーターになることもよく見かける。
でも、注意しなければいけないことは、マルチバイト文字列はときにパーセントエンコーディングされるということだ。
Firefoxなんかは日本語を含むURLをコピペしたときにパーセントエンコーディングされて難儀する。
ただのアドレスならブラウザが味良うしてくれるのか、問題になることは少ない。
しかし、エンコードが起こるという時に気をつけないといけないことは、エンコードが多重に起きないかということだ。
とくにエンコード後の%
がエンコード対象(%25
)になるのがミソ。
つまり
エンコード デコード
エンコード
ポエム → %E3%83%9D%E3%82%A8%E3%83%A0
再エンコード
%E3%83%9D%E3%82%A8%E3%83%A0
→ %25E3%2583%259D%25E3%2582%25A8%25E3%2583%25A0
デコード
%25e3%2583%259d%25e3%2582%25a8%25e3%2583%25a0
→ %e3%83%9d%e3%82%a8%e3%83%a0
再デコード
%e3%83%9d%e3%82%a8%e3%83%a0
→ ポエム
なにが原因かはわかりませんが、気をつけようと思った(小並感