プログラミング勉強日記
2020年9月30日
URLとIRIを正確に理解できていなかったのでまとめる。
IRIとは
IRIはInternationalized Resource Identifierの頭文字をとったもので、URI(URL)をユニコード文字を使えうるように拡張したもの。国際化されたURIでURIではASCII文字しか使うことができないが、IRIではユニコード文字を使うことができる。
具体的には、IRIではURIのホスト部分やパス部分やクエリ部分やフラグメント部分にユニコードの文字を使用することができる。しかし、スキーム部分(httos:
, scp:
など)には使用できない。
ユニコード文字とは
符号化文字集合と呼ばれるものの1つで、コンピュータが使う文字と文字に割り当てた番号の対応表の1つである。
使用できるユニコード文字は以下の範囲のみで、コードポイントは16進数として表している。
使用できるユニコード文字の範囲
A0からD7FFまで
F900からFDCFまで
FDF0からFFEFまで
10000から1FFFDまで
20000から2FFFDまで
30000から3FFFDまで
40000から4FFFDまで
50000から5FFFDまで
60000から6FFFDまで
70000から7FFFDまで
80000から8FFFDまで
90000から9FFFDまで
A0000からAFFFDまで
B0000からBFFFDまで
C0000からCFFFDまで
D0000からDFFFDまで
E0000からEFFFDまで
しかし、以下のコードポイントは使用できない
使用できないユニコード文字
200E
200F
202A
202B
202C
202D
202E
参考文献
Unicode
URLとURIの違いとは? パーツの構造・名称・意味も大解説!
ウェブ開発者なら必ず知っておくべき基礎知識(8)IRI
Web Information System Design No.5 Web文書操作