Edited at

curlコマンドからネットワークを理解する 第二章: curlを追え! パケットキャプチャとシステムコールからcurlを見る

More than 1 year has passed since last update.


index

つながっているか微妙ですが、一章はこちら

下記の順番で説明します。


  • 0節: 物理アドレスと論理アドレス

  • 1節: 一番シンプルなLAN(L2 スイッチ: スイッチングハブ)

  • 2節: LAN同士をつなぐ(L3 スイッチ: ルーター)

  • 3節: curlコマンドを追え: パケットキャプチャ編

  • 4節: curlコマンドを追え: システムコール編

0節では、前提知識としてネットワークの世界における2つのアドレスMACアドレスIPアドレスを説明します。

1節では、シンプルなLANを通じて、

インターネットの構成単位であるLANとはどんなものかを説明するパートです。

複雑なものは、小さい単位でみていくことで理解しやすくなります。

2節では、1節で出てきたLAN同士をつなぎ合わせネットワークを作ります。

このLAN同士をつなぐ役割がL3 スイッチです。

これによって、多数のLANの集合がインターネットになっていることが理解できます。

3節では、パケットキャプチャを通じてcurlコマンドの挙動を追っていきます。

4節では、システムコールを通じてcurlコマンドの挙動を追っていきます。

ネットワークの基本を一通り学んでみて、感じていることが2つあります。

一つ目は、1つ1つの事が色んな観点から觀れることです。

二つ目は、一個学ぶと新たなが疑問がでてくることです。

たとえば、IPプロトコルというものを理解しようとしたときに、それは色んな観点から観れます。

この多面性があるためにネットワークについての記事や本を1つ読んだくらいでは、いまいち腹落ちできません。

また、ポートってなんだ?ソケットってなんだ?などと、以前からなんとなく使ってきた言葉が、

本当の意味で理解できていないことに気づいて深みにハマっていきます。

explain_in_many_ways.jpg


0節: 物理アドレスと論理アドレス

郵便とおなじく、誰かとコミュニティケーションを取ろうとしたら、その場所を表すアドレスが必要になります。

ネットワークの世界でアドレスといったら、MACアドレスとIPアドレスしかありません。

名前
論理/物理
用途/意味

MACアドレス
物理
あるパケットが次にどこにいくのかを表す
34:36:3b:77:6f:82

IPアドレス
論理
あるパケットが最終的にどこにいくのかを表す
192.0.2.0/24

パケットがローカルを出て、目的地に到着するまでに、通常いくつかのネットワーク機器(L2 スイッチやL3 スイッチなど)を経由して運ばれます。

下記のスクショはtracerouteコマンドで自宅からFaceBookまでの経路を表示した例です。

traceroute-2.png

スタート地点S--中継地点A--中継地点B--中継地点C...--ゴール地点G、とパケットをバケツリレーするときに、

各々の--の間の行き先を決めるのがMACアドレスです。

スタート地点Sから、ゴール地点Gの行き先を決めるのがIPアドレスです。

次のアドレスを表現するMACアドレスはバケツリレーの間、変わり続けます。一方で、最終地点を表現するIPアドレスは不変です。

MACアドレスはハードウェアに直接刻印されていて、そのハードが製造されたときにはすでに一意の値がその機器にふられています。なので、同じ機器を使っているかぎり不変です。これが物理アドレス。

IPアドレスはソフトウェア(OS)が管理しており、ネットワーク管理者によって静的に割当られるときもあれば、DHCPで動的に割当られるときもあります。なので、自分のPCのIPアドレスが今日と明日で同じということは保証できません。これが論理アドレス。

参考までに下記のような写真も載せておきます。

自宅のルーター(ONUにルーター機能も内蔵)にはMACアドレスが刻印されている。

route_mac_address.jpg

自分のPCのwifiのネットワークインターフェースにはMACアドレスが刻印されている。

local_mac_address.png

自分のPCには、DHCPによって動的にIPが割り振らている。

local_ip_address.png


1節: 一番シンプルなLAN(L2 スイッチ: スイッチングハブ)

1節と2節では、下の図の部分をはなします。

two_main_layer.png

OSI参照モデルでいう、Layer 2と Layer 3を理解することで、どうやってコミュニティケーションを実現しているのかはわかります。

その土台が分かってから、それより上のレイヤーであるTCPや、UDP, HTTPなどを土台に乗せる感じで理解したほうが分かりやすいです。

余談ですが、Layer 1はLANケーブルのコネクタの形状とか、そういうハード面を定義しているので、Layer 2からでいいと思います。

1章の繰り返しになりますが、大切なのは上のレイヤーは下のレイヤーに依存しているということです。

下のレイヤーは上のレイヤーについて知らない、と言い換えることもできます。

大切なところだと思うので例をあげて説明します。

たとえばHTTPでhtmlを取得するときに、htmlのサイズが大きい場合、パケットは分割して送信されます(実際にTCPが分割している単位はパケットではなくセグメントと呼ばれる)。

このパケットの分割/順番などを管理しているのがTCPプロトコルです。

つまり上位のTCPーの視点から観れば、パケットの順番というのは確かに存在しますし、それはとても大切な情報です。

しかし下位のIPの観点からみれば、順番なんてものはまったく知りません。どうでもいいことです。

パケットを分割しているのはTCPであって、IPはそのパケットを最終目的地に到達させることだけを考えます。

TCPにとっては連番がついて関係のあるように見えるパケット1とパケット2は、IPからみれば意味としてはまったく同じものに見えます。

この関係性はそのまま各レイヤーが、何のヘッダーを読み込み/書き込みするのか、ということに現れています。

前置が長くなりました、本題のL2 スイッチに進みましょう。

L2 スイッチ(Layer 2 Switch)とは、こんな感じのやつです。

layer2switch.jpeg

自分の部屋にある3台のコンピュータでコミュニティケーションしたい、という一番シンプルな場合を考えたときの図です。

L2_switch.jpg

上の例だと、PC AはPC BのMACアドレスを最初から分かっているように見えますが、それは間違えです。

インターネット層からIPパケットをネットワークインターフェース層が受け取ったときには宛先IPアドレスしかありません。なのでこの宛先IPアドレスをもつノードのMACアドレスを知る必要があります。このとき使われるプロトコルがARP(Address Resolution Protocol)です。

ローカルにキャッシュされたARPテーブルの例

arp-2.png


2節: LAN同士をつなぐ(L3 スイッチ: ルーター)

前節でMACアドレスをもとに、同一のネットワーク上でのフレームのやりとりをL2 スイッチを使って実現できました。

ですが、このままでは、他のネットワークへアクセスすることができません。

ネットワークとネットワークをつなぎ、IPアドレスをもとにパケットを転送する装置をL3 スイッチといいます。

無線ルーターの例

wifi-router-007b.jpg

自分の部屋の3台がつながったネットワークと、隣の部屋で3台つながったネットワークをつなぐ。

L3_switch.jpg

もちろん、ルーティングテーブルをそもそもどう作るのかとか、ルーティングテーブルからどう経路を選ぶのかとか、

細かい話はいっぱいあるのですが、だいたい上の図ようなことを抑えておけばいいかなと。


3節: curlコマンドを追え: パケットキャプチャ編

この実験をするためにわざわざサーバレンタルして、ドメインまでとりました(笑)

次の記事でSSLの仕組みを書こうと思っていたので、まぁいいでしょう!

下記の図のような構成です。

architect.jpg

wiresharkでキャプチャするとこんな感じになりました。

curl http://kohei-experimental.siteのとき

curl_tcp-2.png

DNSをみせたいがためにnslookup kohei-experimental.siteを打つ

curl_dns.png

ARPもやり取りされてます。

curl_arp.png


4節: curlコマンドを追え: システムコール編


クライアント側でシステムコールをみてみる

こちらの記事で詳細に説明されています。

結果はこんな感じ。

strace -e trace=network curl -s -o /dev/null http://kohei-experimental.site

client_strace_org.png

ソケットソケットってなんやねん!となるのですが、ソケットってなんですか?という質問は、

プロセスってなんですか?という質問と似ています。

両方ともOS上の概念なので、理解するのが若干難しいです。

こちらの説明がわかりやすい。


昔々、カリフォルニア大学バークレイ校というところで、AT&Tのベル研が開発 したオペレーティングシステムであるUNIXを拡張しようという研究が行われ、 BSD UNIXという名称で、便利で高機能のUNIXが開発されておりました。その研 究の一つにUNIXから通信ネットワーク、特にTCP/IPを利用した通信プログラム を容易にする工夫として開発されたのがソケットです。

UNIXでは、キーボード、画面などのデータを読んだり、書き込む対象は何でも ファイルとして扱ってしまおうという哲学があります。そこで、コンピュータ 間通信もファイルへの読み書きとしてプログラミングができないかということ を目標にして開発されました。このため、ファイルの入出力プログラムの流れ である、ファイルのオープン・データの書き出し/読み出し・ファイルクロー ズに乗っ取り、UNIXにおける初期のTCP/IPの利用では /dev/tcp というファイ ルへのオープン・読み/書き・クローズがそのまま通信になるようにデザイン されていました。しかし、BSD UNIXを開発しているグループは、TCP/IPの多様 な通信形態を扱うには、オープン・読み/書き・クローズの流れだけでは困難 であると考え、代わりに生み出されたのがソケットです。ソケットは、ファイ ルオープンに相当する操作が通常のファイルより複雑ですが、より高度が通信 が可能であり、さらにオープン後はファイルへの読み書きと同じスタイルで通 信が可能になります。

ソケットはその取り扱いの容易さから、その後、UNIXの本流であるAT&TのUNIX にも採り入れらましたし、他のオペレーティングシステムにも徐々に利用でき るようになりました。特に、初期のインターネットでは接続されているコンピュー タの多くがUNIXオペレーティングシステムを利用していたため、インターネッ ト用のソフトウェアの殆どはソケットを利用して開発されました。この結果、 他のオペレーティングシステムが、これらのインターネット用のソフトウェア を利用するには、そのオペレーティングシステムでもソケット機能を提供して PCいる必要が生じ、大型計算機(メインフレーム)から、WindowsやMacOSなどの 用のオペレーティングシステムまでもがソケット機能を提供しています。 このため、ソケットの使い方さえ知っていれば、インターネットに代表される TCP/IPを基礎とした通信ネットワーク用のプログラミングができるようになり ますし、ソケットを利用したプログラムが書けないと、インターネット用のプ ログラムは書けないといっても過言ではありません。(コラム終わり)


Everything is a fileというUNIXの設計思想を理解すると、なんとなくわかった気になれます。

この動画とか分かりやすいです。


サーバー側でシステムコールをみてみる

nginxのwoker processを指定してstraceを実行しています。

server_strace_org.png

C言語まったく読めませんが、MAN page頼りになんとなく、読んでみると

accept4でソケットへの接続を受ける。 =>

この接続でつかうソケットを表すファイルディスクリプタの3が返る

recvfromでソケットからメッセージの読み込み =>

GETリクエストがバッファに保存され、読み込んだメッセージの長さ87が返る

openでindex.htmlを開く => ファイルディスクリプタの11が返る

writev3で示されるソケットにHTTP headerを書き込む

sendfile11で示されるindex.htmlの内容を3で示されるソケットへコピーしHTTP bodyを書き込む

writeで、これは多分ログの書き込み

close(11)でindex.htmlを閉じる

close(3)でソケットを閉じる


まとめ

まだLV 1感がすごいですが、全体像をイメージできたのと、ネットワーク関連の広さと深さを認識できて、よかったです。

普段当たり前につかってるネットですが、その動作原理をみると、すげー!!!!って感動しました。

自宅から電波になってONUに入って、プロバイダのルーティング回されて、海底ケーブルの光回線通って、でまたどこかの国のプロバイダのルーティング回されて、そして同じように帰ってくる。

物理的には電気や電波や光など色んなものに姿を変えながら、たくさんのパケットが、とんでもなく広い範囲で、なんども経由されながら交通している様をイメージすると、やっぱり感動しました。すごいなって(笑)


参考文献

インフラ/ネットワークエンジニアのためのネットワーク技術&設計入門

ネットワークはなぜつながるのか 第2版 知っておきたいTCP/IP、LAN、光ファイバの基礎知識

マスタリングTCP/IP 入門編 第5版

Eli The Computer Guy, Understanding Switches

ネットワークエンジニアとして

Linuxカーネルの基本機能