8
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

マイニングリグのGPUの不調を察知してSlackに通知し自動でOSを再起動するツール

Last updated at Posted at 2018-03-11

手前味噌エントリです。

ethOSで複数のGPUを駆使していると困った事がよく起きてました。

  • 2〜3日ほど連続稼動しているとGPUがサボりだす(サボってても1枚あたり35Wほど電気を食べるため、無視はできない)
  • autorestart という設定項目が local.conf 等にあるのだけど、機能しているところをまだみたことがない
  • Web上( {rig-unique-address}.ethosdistro.com ) でリグの稼働状況を確認できるのですが、
    情報の PULL はあっても PUSH がないという状態

ethOS.png

つまり、 自発的に情報を取りに行かないとわからないのは困る、何かあったらあちらから通知を送ってほしいし、適切に対処してほしい という状況です。

よろしい、ならば自動化だ

という事で、作ったのがこちら https://github.com/uupaa/tools-ethos

  • node.js + ESModules
  • 数分に1度、ethOSの稼働状況やGPUの稼働状況を監視する
  • GPU がサボりだしたら Slackに通知して、OSをリブートする
  • /etc/rc.local に追加しておけば OS起動時に自動的に起動して監視を行う
  • 問題発生時の挙動を事前にテスト可能

といった機能があります。

Slack に来る通知はこのようになります。

スクリーンショット 2018-03-11 13.40.36.png

ethOS version 1.2.9 で動作を確認していますが、
おそらく version 1.3.0 以上でも動作すると思います(だめそうだったらコメントいただけると)

8
2
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?