More than 5 years have passed since last update.

@nshunin

確率的鯖缶

GPU サーバのログを ELK サーバに送信して管理する

Last updated at 2018-06-23Posted at 2018-06-23

はじめに

　GPU サーバのログを別の ELK (Elasticsearch + Logstash + Kibana) サーバで管理したい人向けのものです．

注意

　サーバの基本的なセットアップは済んでるものとして話を進めます．

導入環境

　まずは筆者の環境を載せておきます．

GPU サーバ(1台の例)
- Ubuntu 16.04 LTS
- Geforce GTX 1080
- Geforce Driver Version: 396.26
ELK サーバ
- Ubuntu 16.04 LTS
- Elasticsearch 2.4.6
- Kibana 4.5.4

　他のディストリビューションを使ってる場合や Kibana のバージョンが異なる場合は，コマンドなど適当に読み替えてください．

全体像

　今回、Logstash の input 形式に HTTP POST を選択しました．HTTP POST の利点として、 curl でログを送れるため，他のパッケージをインストールしなくよく、設定ファイル等もいじらなくていい点があります．
　（今回多数の GPU サーバのログを収集したかったため，GPU サーバ側の手順を簡略化したかったという理由もあります．）

ELK サーバ側の設定

　まず GPU のログを受け取る ELK サーバの設定から始めていきます． root 権限が必要になりますので、 root 権限を持ったユーザーでログインすることを勧めます．

Logstash

　Logstash の設定ファイルを公式サイトを参考に編集していきます．
　Logstash の設定は input, filter, output の段階で設定します．今回は service として起動するためファイルを分けていますが，1つの設定ファイルにまとめても構いません．

注意

すでに Logstash で他のログを収集している場合は追記するかファイル名を変えてください．
テキストエディタとして vim を使いますが、好きなテキストエディタで編集してください．
Logstash と Elasticsearch の待ち受けポートに 5141番と 9200番を指定していますが、既に使用してる場合は適当なポートを指定してください．

$ cd /etc/logstash/conf.d/
$ sudo vim ./01-inputs.txt

01-inputs.conf

# http input from gpu server on port 5141
input {
  http {
    port => 5141
    type => "gpu"
  }
}

$ sudo vim ./10-gpu-filter.conf

10-gpu-filter.conf

filter {
  if ［type］ == "gpu" {
    grok {
      match => ["message", "(?<name>[^,]*),(?<Date>[^,]*),(?<gpu_util>[^,]*),(?<memory_util>[^,]*),(?<memory_total>[^,]*),(?<memory_free>[^,]*),(?<memory_used>[^,]*),(?<temperature>[^,]*)"]
    }
    date{
      match => ["Date" , "yyyy/MM/dd HH:mm:ss.SSS"]
      timezone => "Asia/Tokyo"
    }
    mutate{
      convert => {
        gpu_util => float
        memory_util => float
        memory_total => float
        memory_free => float
        memory_used => float
        temperature => float
      }
      remove_field => ["headers"]
    }
  }
}

$ sudo vim ./30-outputs.conf

30-outputs.conf

output {
    if [type] == "gpu" {
    elasticsearch {
        hosts =>  ["localhost:9200"]
        index => "logstash-gpu-%{+YYYY.MM.dd}"
    }
}

port 開放

　Logstash の待ち受けポートに設定した 5141 番ポートを開けます．ディストリビューション毎に方法が違いますので注意してください．
　ファイアウォールを有効化してない場合は読み飛ばして構いません．

$ sudo ufw allow 5141

GPU サーバ側の設定

次にログを送る側の GPU サーバーの設定をします．

nvidia-smi でログをみる

　nvidia 社のグラフィックボードに対応するドライバーを入れ、 nvidia-smi を実行するとグラフィックボードの状態が分かります．正常に動作することを確かめるため、 nvidia-smi を実行してください．
　筆者の環境では，下のように表示されます．

$ nvidia-smi
Sat Jun 23 16:24:39 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.26                 Driver Version: 396.26                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 1080    Off  | 00000000:01:00.0 Off |                  N/A |
|  0%   35C    P0    35W / 180W |      0MiB /  8119MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

もし，正常に表示されない場合，下のように表示されることがあります．

Failed to initialize NVML: Driver/library version mismatch

その場合は，再起動やドライバーの再インストール等を試してください．(筆者も再起動後に表示できたサーバがありました)

シェルスクリプトを書く

　nvidia-smi のクエリを用いて上記の中から必要なログを出力させます．出力形式には csv を指定し、，curl で ELK サーバに POST します．
　ELK サーバの IP アドレスと GPU マシン名には自身の環境に合わせます．

$ cd ~
$ sudo vim ./sendlog.sh

sendlog.sh

# !/bin/bash
nvidia-smi --query-gpu=timestamp,utilization.gpu,utilization.memory,memory.total,memory.free,memory.used,temperature.gpu --format=csv,noheader,nounits | (read log ; curl -XPUT ${ELK サーバの IP }:5141 -d "${GPU サーバの名前},${log}" > /dev/null 2>&1)

実行権限を与えます

$ sudo chmod +x ./sendlog.sh

curl を入れてない場合

$ sudo apt install curl

定期的にログを送る

　cron を用いて先程のスクリプトを1分間隔で定期実行させます．
　cron を有効化してない場合は有効化させます．

$ crontab -e

最終行に以下の1行を追記してください

* * * * * bash /home/${ユーザー名}/sendlog.sh

終わりに

　以上で作業は完了です．
　Kibana でうまく log を受け取れていることが確認できれば成功です．グラフとダッシュボードを作成して可視化しましょう．

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up