More than 5 years have passed since last update.

PDP-11による機械語入門

PDP11

Last updated at 2016-02-14Posted at 2015-11-08

PDP-11とはUNIX V6の動作対象となるアーキテクチャです。バイナリを通してUNIXを学習します。

この記事は以前開催していた池袋バイナリ勉強会の初回編で教えていた内容をまとめたものです。

この記事には姉妹編があります。

8086による機械語入門 2015.11.09
VAXによる機械語入門 2016.02.14

環境設定

UNIX V6のバイナリを動かすためのインタプリタと、その上で動く当時のコンパイラをインストールします。

インタプリタとコンパイラ一式をインストール

コンパイル

ハローワールドでテストします。

hello.c

main() {
    printf("hello\n");
    return 0;
}

※ UNIX V6にはlibcのヘッダがないため#includeはしません。

先ほどインストールしたコンパイラでPDP-11用のバイナリを生成します。

$ v6cc hello.c

※ v6ccはシェルスクリプトで、インタプリタ上で当時のコンパイラ（PDP-11バイナリ）を実行しています。

a.outというファイルが出力されます。PDP-11用のバイナリであることを確認します。

$ file a.out
a.out: PDP-11 executable not stripped

実行

出力されたバイナリをインタプリタで実行します。

$ 7run a.out
hello

オプション

7runを引数なしで実行するとオプションが確認できます。

$ 7run
usage: 7run [-p] [-d|-v/-s] cmd [args ...]
    -p: PDP-11 mode
    -8: 8086/V6 mode
    -d: disassemble mode (not run)
    -m: verbose mode with memory dump
    -v: verbose mode (output syscall and disassemble)
    -s: syscall mode (output syscall)

よく使う-dと-mを説明します。

逆アセンブル

バイナリの中にどのような命令が入っているかを分析します。この操作を逆アセンブルと呼びます。

$ 7run -d a.out

[crt0.o]
start:
0000: f009            setd
0002: 1180            mov sp, r0
0004: 1226            mov (r0), -(sp)
（略）

簡単なプログラムなのにすごく複雑だと感じられたと思います。入門にはあまりに複雑過ぎるため、今回の記事ではもっと簡単なものから始めます。基礎を固めてから、このバイナリに挑戦していただきます。

読み方

[crt0.o]やstartはシンボルと呼ばれ、見出しのようなものです。

その後は次のような構成になっています。

アドレス	機械語	アセンブリ言語
`0000:`	`f009`	`setd`
`0002:`	`1180`	`mov sp, r0`
`0004:`	`1226`	`mov (r0), -(sp)`

アドレスは行番号のようなものです。そこにCPUに対する命令が入っています。
命令は数字で構成されており機械語と呼ばれます。ここでは16進数表記されています。
機械語は人間には読みにくいため、意味を英語の略語などで表記したものがアセンブリ言語です。

機械語やアセンブリ言語については後で詳しく見ていきます。

トレース

命令やレジスタなどのログを表示しながら実行できます。この操作をトレースと呼びます。

$ 7run -m a.out
 r0   r1   r2   r3   r4   r5   sp  flags pc
start:
0000 0000 0000 0000 0000 0000 fff6 ---- 0000:f009 setd
0000 0000 0000 0000 0000 0000 fff6 ---- 0002:1180 mov sp, r0
fff6 0000 0000 0000 0000 0000 fff6 -N-- 0004:1226 mov (r0), -(sp) ;[fff6]0001 ;[fff4]0000
（略）

逆アセンブルと異なるのは、命令が実行される順番に表示される点です。基本的には上から順番に実行されますが、分岐や関数呼び出しなどでアドレスが飛びます。

例

fff8 0000 0000 0000 0000 0000 fff4 -N-- 000c:09f7 0008      jsr pc, 0018 ;[0018]0977
_main:
fff8 0000 0000 0000 0000 0000 fff2 -N-- 0018:0977 023c      jsr r5, 0258 ;[0258]1140
csv:
fff8 0000 0000 0000 0000 001c fff0 -N-- 0258:1140           mov r5, r0

アドレスが飛んでいることを確認してください: 000c → 0018 → 0258

シンボル

逆アセンブルのときに出て来たシンボルを一覧表示します。

$ v6nm a.out
024e T _exit
020c T _flush
02be B _fout
（略）
027c d swtab
02b4 b width
0018 t ~main

構成は次の通りです。

アドレス	種類	シンボル名
`024e`	`T`	`_exit`
`020c`	`T`	`_flush`
`02be`	`B`	`_fout`

種類は初めから細かく理解していなくても、大雑把にTとtが関数、それ以外は変数だと考えておけば良いです。それらがどのアドレスに関連付けられているかを示しています。

※ 関数や変数以外にも種類はありますが、当面は必要ありません。

ファイルサイズの縮小

シンボルは付加的情報で実行には必要不可欠なものではありません。シンボルを削ってファイルサイズが縮小できます。

$ wc -c a.out
1186 a.out
$ v6strip a.out
$ wc -c a.out
706 a.out

シンボルがなくなっていることを確認します。

$ v6nm a.out
no name list

実行には支障ありません。

$ 7run a.out
hello

逆アセンブルでシンボルが出て来なくなります。

$ 7run -d a.out
0000: f009            setd
0002: 1180            mov sp, r0
0004: 1226            mov (r0), -(sp)
（略）

シンボルがないと関数の切れ目などが分からなくなるためデバッグや解析が困難になります。次のような運用方法が一般的です。

開発時にはデバッグのためシンボルを付けておきます。
完成品をバイナリ配布する際には、ファイルサイズを縮小するためシンボルを取り除きます。ソース非公開の商用製品の場合、内部構造を解析されにくくする意図もあります。

小さなバイナリ

小さなバイナリを作って分析します。

write.s

/ write(1, hello, 6);
mov $1, r0
sys write
hello
6

/ exit(0);
mov $0, r0
sys exit

.data
hello: <hello\n>

実行結果

$ v6as write.s
$ v6strip a.out
$ 7run a.out
hello

アセンブリ言語の文法はアセンブラによって方言があります。
- このアセンブラでは/はコメントです。
アセンブリ言語はCPUによって異なります。今回はPDP-11です。
- r0 はレジスタと呼ばれます。変数のようなものです。
- mov は前から後ろに代入します: mov $0, r0 ⇒ r0 = 0
- sys は割り込みを発生させる命令です。

システムコール

割り込みでカーネルを呼び出してOSの機能を利用することをシステムコールと呼びます。

sys の後にシステムコール名を書きます: write, exit など
r0 は第一引数
- write に渡す 1 は標準出力
sys の次の行には追加の引数を書きます。

UNIX V6のシステムコール定義: /usr/sys/ken/sysent.c

int sysent[]
{
    追加の引数の数, &処理関数, /* システムコール番号 = システムコール名 */
    ...
};

exit: システムコール番号 1, 追加の引数の数 0
write: システムコール番号 4, 追加の引数の数 2
sysent[] { の間にイコールがないのはC言語が古いため（pre K&R）

逆アセンブル

バイナリを分析します。

$ 7run -d a.out
0000: 15c0 0001       mov $1, r0
0004: 8904            sys 4 ; write
0006: 0010            ; arg
0008: 0006            ; arg
000a: 15c0 0000       mov $0, r0
000e: 8901            sys 1 ; exit

write.s →（アセンブル）→ a.out →（逆アセンブル）→ 上記結果
- アセンブル: アセンブリ言語 → バイナリ
- 逆アセンブル: バイナリ → アセンブリ言語
逆とは言っても完全に元に戻るわけではありません。
- 逆アセンブルでは対応するバイナリが確認できます。
逆アセンブラの出力はアセンブリ言語の文法とは異なります。
- アセンブリ言語は8進数
- 逆アセンブラは16進数

バイナリダンプ

バイナリを16進数で出力します。

$ hd a.out
00000000  07 01 10 00 06 00 00 00  00 00 00 00 00 00 01 00  |................|
00000010  c0 15 01 00 04 89 10 00  06 00 c0 15 00 00 01 89  |................|
00000020  68 65 6c 6c 6f 0a                                 |hello.|
00000026

※ hd がない環境では hexdump -C や od -tx1z -Ax を使用します。

メモリに読み込み

先頭の16バイトはヘッダです。ヘッダはメモリに配置しないため、ファイルのオフセットとメモリのアドレスは16バイトずれます。

メモリ配置

0000 c0 15 01 00 04 89 10 00 06 00 c0 15 00 00 01 89 ................
0010 68 65 6c 6c 6f 0a                               hello.

text（命令）＋data

仕様

コード例は擬似言語で示します。

ヘッダ＋text（命令）＋data
ヘッダは最初の16バイト

aout = File.readAllBytes("a.out")
h = aout.slice(0, 16)

ヘッダを2バイトずつ区切って、2番目がtextのサイズ、3番目がデータのサイズ。リトルエンディアン。
今回のサンプル: tsize = 0x0010, dsize = 0x0006

tsize = h.read16Unsigned(2)
dsize = h.read16Unsigned(4)

ヘッダの後にtextがあり、その後にdataがある。連続した領域なので一気にメモリに読み込みます。
「メモリに読み込み」はmemをダンプしたものです。

mem = aout.slice(16, tsize + dsize)

練習

※ 制限時間内に作成できない場合、解答例に進んでください。

【問1-1:20分】ファイルをそのままバイナリダンプするプログラムを作ってください。（hd a.out 相当）

PDP-11による機械語入門

環境設定

コンパイル

実行

オプション

逆アセンブル

読み方

トレース

シンボル

ファイルサイズの縮小

小さなバイナリ

システムコール

逆アセンブル

バイナリダンプ

メモリに読み込み

仕様

練習

少しずつ拡張

数値をメモリに書き込む

練習

ディスプレースメント

練習

movb

練習

レジスタの値をメモリに書き込む

練習

バイト命令

練習

アドレスを直接指定

相対アドレス

練習

引き算

練習

仕様書

練習

テストコード集

nm

cc

カーネルビルドへの道