0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

基本情報(文字の表現方法)

Posted at

コンピュータは文字に数値を割り当てることで、文字データを表現します。
文字コードはたくさんあるみたいです。とりあえず文字コード表を見てみます。
文字があああああああああああ

文字コード表(ASCII)

2進 8進 10進 16進 略語 図形表現 CS エスケープシーケンス 名前/意味
0000000 000 0 00 NUL ^@ \0 ヌル文字
0000001 001 1 01 SOH ^A ヘッディング開始
0000010 002 2 02 STX ^B テキスト開始
0000011 003 3 03 ETX ^C テキスト終了
0000100 004 4 04 EOT ^D 伝送終了
0000101 005 5 05 ENQ ^E 問い合わせ
0000110 006 6 06 ACK ^F 肯定応答
0000111 007 7 07 BEL ^G \a ベル
0001000 010 8 08 BS ^H \b 後退
0001001 011 9 09 HT ^I \t 水平タブ
0001010 012 10 0A LF ^J \n 改行
0001011 013 11 0B VT ^K \v 垂直タブ
0001100 014 12 0C FF ^L \f 書式送り
0001101 015 13 0D CR ^M \r 復帰
0001110 016 14 0E SO ^N シフトアウト
0001111 017 15 0F SI ^O シフトイン
0010000 020 16 10 DLE ^P 伝送制御拡張
0010001 021 17 11 DC1 ^Q 装置制御1、XON
0010010 022 18 12 DC2 ^R 装置制御2
0010011 023 19 13 DC3 ^S 装置制御3、XOFF
0010100 024 20 14 DC4 ^T 装置制御4
0010101 025 21 15 NAK ^U 否定応答
0010110 026 22 16 SYN ^V 同期信号
0010111 027 23 17 ETB ^W 伝送ブロック終結
0011000 030 24 18 CAN ^X 取消
0011001 031 25 19 EM ^Y 媒体終端
0011010 032 26 1A SUB ^Z 置換
0011011 033 27 1B ESC ^[ \e エスケープ
0011100 034 28 1C FS ^\ ファイル分離標識
0011101 035 29 1D GS ^] グループ分離標識
0011110 036 30 1E RS ^^ レコード分離標識
0011111 037 31 1F US ^_ ユニット分離標識
1111111 177 127 7F DEL ^? 抹消

文字コードの種類と特徴

文字コードの代表的な種類としては、次のようなものがあります。

ASCII(アスキー)

米国規格協会(ANSI)によって定められた、かなり基本的な文字コード。
含まれる文字はアルファベットと数字、あといくつかの記号のみで、1文字を7ビットで表します。
アスキーアートが有名ですね
   ∩___∩
   | ノ      ヽ
  /  ●   ● | クマ──!!
  |    ( )  ミ
 彡、   |∪|  、`\
/ __  ヽノ /´>  )
(___)   / (_/
 |       /
 |  /\ \
 | /    )  )
 ∪    (  \
       \_)

EBCDIC(エビシディック)

IBM社が定めた文字コードで、8ビットを使って1文字を表します。大型の汎用コンピュータなどで使われています。

シフトJISコード(S-JIS)

ASCIIのコード体系の文字と混在させて使えるようになっている日本語文字コードです。
ひらがなや漢字、カタカナなどが扱えます。
マイクロソフト社のOSであるwindowsでも使われており、1文字を2バイトで表すそうです。

EUC(イーユーシー)

拡張UNIXコードとも呼ばれ、UNIXのOS上でよく使われる日本語文字コードです。
基本的には1文字を2バイトで表しますが、補助漢字などは3バイト使います。

Unicode(ユニコード)

全世界の文字コードを一つに統一してしまえということで、各国のありとあらゆる文字を
1つのコード体系であらわそうとした文字コード。
当初は1文字を2バイトで表す予定だったらしいですが、3バイト、4バイトと拡張されているようです。
1993年にISOで標準化されています。

まとめ

へぇって感じですね。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?