概要
IO待ちについて自分で調べた自分めも。
vmstat wa列
- ディスクIO待ちのwaはCPU使用率が上がると自然と減ってしまうものです。I/O待ちについてはb列を活用しましょう。
- waはあくまでもCPUがアイドルであり、そのCPUに紐付くI/O待ちスレッドがあるときにカウントされる
- wa列は要注意です。一般にI/O待ちの指標と思われていますが、I/O待ちが増えるとwa列が上がる傾向があるものの、必ずしも上がるとは限らない情報だからです
絵で見てわかるOS/ストレージ/ネットワーク~データベースはこう使っている (DB Magazine Selection) より
スリープしているプロセスの中には、I/O待ちをしているものもある。その場合、「wa(waitI/O)」として現れることが多い。多くのOSでは、CPUがアイドル(id)であり、かつそのCPUから発行されたI/Oがある場合、「wa(waitI/O)」となる
* iowait について より
システムコール発行したらコンテキストスイッチが発生してスリープし、TASK_UNINTERRUPTIBLE で Disk Sleep する。CPU が空いてるのに、I/O要求が残っている場合に iowait としてカウントされるということだと思う。
この辺りの説明でカバーできていそう。たぶん。
↓
R(TASK_RUNNING)が多い場合、D(TASK_UNINTERRUPTIB)プロセスがたくさん存在していてもwaには反映されない。なのでIO待ちの具合を調べるのはb列を確認するのが確実そう。
I/O wait時間の統計
カレントプロセスがswapperプロセスの場合に(TASK_RUNNNINGなプロセスが存在しない場合)、IO待ちのプロセスが一つでも存在すればIOwait時間として足し込まれます。
IO待ち時間
I/O待ち時間は非常に誤解を招きやすい指標だ。CPUを酷使するプロセスがほかにやってくると、I/O待ち時間の値は下がる。するべき仕事ができたので、CPUはアイドル状態で待っていなくてよいのである。しかし、I/O待ち時間の数値が下がっても、同じディスクI/Oがなくなったわけでも、スレッドをブロックしなくなったわけでもない。逆もありうる。
LinuxではI/O待ち時間は今でもよく使われている指標であり、混乱を招く性質を持ちながら、あるタイプのディスクのボトルネック、つまりCPUがアイドルでディスクがビジーになっている状態を見つけ出すことができている。I/O待ち時間の一つの解釈方法は,I/O待ち時間が存在することをシステムにボトルネックがある兆候と捉え、例え高いCPU使用率とI/O待ち時間が両立している場合でも、I/O待ち時間を最小限に抑えるようにシステムをチューニングするというものである。
IO待ち多数による影響
load average が高いと、CPU がなかなか割り当てられないので、「ターミナルエミュレータを使って ssh などでログインしてコマンドを打ってもレスポンスが帰ってくるのが遅い」というような状況になっているときだと思う。
- TASK_RUNNING
- 実行中もしくは実行可能でCPU割り当てを待っている状態。
- vmstat でr 列
に表示されるのがこの状態のプロセスの数。
- TASK_UNINTERRUPTIBLE
- 割り込み不可能な待ち状態。ディスクI/O待ちなど短い事象。
- vmstat で
b 列
に表示されるのがこの状態のプロセスの数。
ディスクI/O待ちなど短い
事象。
[24時間365日] サーバ/インフラを支える技術 ‾スケーラビリティ、ハイパフォーマンス、省力運用 (WEB+DB PRESS plusシリーズ) より
ロードアベレージが報告する負荷の正体
- CPuの実行権限が与えられるのを待っているプロセス
- ディスクI/Oが完了するのを待っているプロセス
これはたしかに、直感と一致します。
ディスクからデータを大量に読み出している間は、システムの反応がにぶくなったりします。
まとめ
- CPU使用率(us+sy)が高いとwa列が低くてもIO待ち少ないとは言い切れなさそう。ただ、waの値が高い状態は、そのまま単純にIO待ちが多いということを表している。
- io待ちはvmstatの
b列
でみていくのもよさそう。waの値が低い場合にIO待ちは少ないとは言いきれないので。 - CPU使用率が高いプロセスがいると待ち行列が長くなる確率が高くなる。
- Load averageが高いとCPUがなかなか割り当てられない。
- カーネルがプロセスをスケジューリング対象とするランキューには
TASK_RUNNING
しか存在せず、IO待ちプロセスは別のキューに存在するが、TASK_UNINTERRUPTIBLE
状態が解除され、都度?ランキューに入り込んでくるので?その分のスケジューリング対象が増えCPUがなかなか割り当てられないことが増える?ので一見IO待ちが増えてもCPUはidleなのでシステムに負荷かかっていないように見えるが、LAが高いと(IO待ち含む)とCPUがなかなか割り当てられないので負荷がかかっているといえる?
- カーネルがプロセスをスケジューリング対象とするランキューには