4
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

IBM Cloud Standard Imageの正しい取り方

Posted at

今回はIBM Cloudの仮想サーバのちょっとネタです.

Standard ImageはOSバックアップを取るための仕組みで、AWSで言うAMIを作成するのと同等です.

Standard Imageの取り方はいろんなBlogで紹介されていますが、失敗例の情報が少ないので、経験上の注意事項と防止するための手順の一部を掲載します。

**「正しい取り方」**じゃないところが見つかったら直してまいります.


Standard Imageの取り方

ポイント

  • 稼働中の場合はOSが停止します.
  • 仮想サーバ停止中でも取得できます.

ブートディスクのみ取得する場合

[guest@guest ~]$ slcli vs capture t01 -n backup-2018  --note "initial backup" 

2番目のディスクも含めて取得する場合 (オプション付加: --all True)

[guest@guest ~]$ slcli vs capture t01 --all True -n backup-2018  --note "initial backup" 

2番目のディスクを含めるケースではブートディスクの一部として2番目のディスクを必要とするケースです.
2番目のディスクがデータディスクであれば、含めないようにします.

作成中はaction欄が"Check Cloud Image Transfer"などのように変化していきます.

Standard Imageのリストに取得したイメージが表示されます.

[guest@guest ~]$ slcli image list --private 
:.........:....................:........:............:.........:
:    id   :        name        :  type  : visibility : account :
:.........:....................:........:............:.........:
: 1900821 :        t01         : System :  Private   :  323xxx :
: 1900833 :        t02         : System :  Private   :  323xxx :
:.........:....................:........:............:.........:

取得するコマンドそのものは容易なので、簡単!と思うことでしょう. ( Cloudだから当たり前か )


Standard Imageのリストア

OS Reload機能を使ってStandard Imageをリストアします.

ポイント

  • rootパスワードはリセットされます.
  • SSHキーもリセットされます. (必要でしたらリロード時にキーを指定します. オプション:-k)
[guest@guest ~]$ slcli image list --private 
:.........:....................:........:............:.........:
:    id   :        name        :  type  : visibility : account :
:.........:....................:........:............:.........:
: 1900821 :        t01         : System :  Private   :  323xxx :
: 1900833 :        t02         : System :  Private   :  323xxx :
:.........:....................:........:............:.........:

[guest@guest ~]$ slcli vs reload --image 1900833 -k guest_rsa_key t01
This action cannot be undone! Type "52669399" or press Enter to abort: 52669399
[guest@guest ~]$

OSリロード中はaction欄が変動していきます.

[guest@guest ~]$ slcli vs list 
:..........:..........:............:...............:............:...........................:
:    id    : hostname : primary_ip :   backend_ip  : datacenter :           action          :
:..........:..........:............:...............:............:...........................:
: 52669399 :   t01    :     -      : 10.133.173.68 :   tok02    : Register Physical license :
:..........:..........:............:...............:............:...........................:

OSリロードが完了するとaction欄の表示が消えます.

[guest@guest ~]$ slcli vs list 
:..........:..........:............:...............:............:..............:
:    id    : hostname : primary_ip :   backend_ip  : datacenter :   action     :
:..........:..........:............:...............:............:...............
: 52669399 :   t01    :     -      : 10.133.173.68 :   tok02    :      -       :
:..........:..........:............:...............:............:..............:

OSリストアに失敗するとどうなるの?

よくある例では"Setup provision configuration" で停滞した後、リストア失敗となります.

リストア中の仮想サーバの状態

[guest@guest ~]$ slcli vs list 
:..........:..........:............:...............:............:...............................:
:    id    : hostname : primary_ip :   backend_ip  : datacenter :             action            :
:..........:..........:............:...............:............:...............................:
: 52669399 :   t01    :     -      : 10.133.173.68 :   tok02    : Setup provision configuration :
:..........:..........:............:...............:............:...............................:

"Setup provision configuration"で停滞すると長い場合は数時間この状態が続きます. この状態ではキャンセルもできず、ひらすら待ちとなります.
しばらく放置した後、再確認すると action欄が空白となり、「できた!」と思っても、pingにも応答しない,SSHもできない場合があります.

[guest@guest ~]$ slcli vs list 
:..........:..........:............:...............:............:..............:
:    id    : hostname : primary_ip :   backend_ip  : datacenter :   action     :
:..........:..........:............:...............:............:...............
: 52669399 :   t01    :     -      : 10.133.173.68 :   tok02    :      -       :
:..........:..........:............:...............:............:..............:

最終的には、IBM Cloudのticketが起票され、OSリロードに失敗した通知を受けます.

Subject: IBM Cloud チケット 58138729 - Updated - Custom Image Template Issues During Provisioning - IBM

お客様各位、

サブスクライブしているチケット上で更新が発生しました。
    アカウント ID : 323xxx
    チケット     : Custom Image Template Issues During Provisioning (58138729)

使用したStandard Imageはstatus: Inactiveに変化し、利用できない状態になります.

[guest@guest ~]$ slcli image detail 1900833 
:....................:......................................:
:               name : value                                :
:....................:......................................:
:                 id : 1900833                              :
:  global_identifier : 8aaa41b8-5891-4a8b-9887-680846ef9418 :
:               name : t01                                  :
:             status : Inactive                             :
: active_transaction : -                                    :
<中略>
:         disk_space : 4.07G                                :
:        datacenters : tok02                                :
:....................:......................................:

え? バックアップが無くなった!? なんてことになり、焦ります.

status: Inactiveになったものは、ticketを起票してActiveにすることはできますが、イメージの編集ができませんので実質使えません...
レスキューブートして問題判別したいと思っても、rootパスワードは参照できず、以前のパスワードも受け付けられません.

[guest@guest ~]$ slcli vs credentials t01 
:..........:..........:
: username : password :
:..........:..........:
:..........:..........:

これを防ぐにはStandard Image取得時の手順で解決できます.


Standard Image取得時のチェックリスト

OSリロードやImage boot時に失敗しないためのチェックリストです.

  • OSリロード時の環境条件
    • 仮想マシンのOSとStandard ImageのOSの種類は一致していること
  • 外部ディスク関連
    • 外部ディスクのマウントオプションに"nofail"を指定する(/etc/fstab)
  • サービス関連
    • IPアドレスにバインドしたサービスを無効化する
    • 外部ファイルシステムに依存したサービスを無効化する
    • kdumpを無効化する
    • ホストFirewallを無効化する
  • rootユーザ認証関連
    • rootユーザのリモートログインを許可する
    • rootユーザのパスワード認証を許可する
  • その他のハードニング解除
    • アンチウィルスやホストIPS/IDSを無効化する
  • その他パッケージャー関連
    • 外部参照のyumリポジトリを無効化する

チェックリストにいろいろ書きましたが、じゃあどうやって確認するのか?なぜそれが必要なのか?というところをご説明します.

1) 外部ディスクのマウントオプションに"nofail"を指定する

外部ファイルシステム(Local/SAN/cifs/nfs)を自動マウントしたままの場合、ブート時にマウントできずProvisioningに失敗します.
これを回避するためにマウントが失敗してもOSが起動するように"nofail"を指定します.

またローカルファイルシステムの場合は、ブート時のfsckの対象外とするように設定しておきましょう.

外部ディスクの識別方法はlsblkコマンドで確認します.
デバイス名:/dev/xvda,/dev/xvdb,/dev/xvdh以外は外部ディスクです.

この例では LVM: /dev/datavg/volume1が外部ディスクとなります.

[guest@t01 ~]$ lsblk 
NAME               MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
xvda               202:0    0   25G  0 disk 
├─xvda1            202:1    0  256M  0 part /boot
└─xvda2            202:2    0 24.8G  0 part /
xvdb               202:16   0    2G  0 disk 
└─xvdb1            202:17   0    2G  0 part [SWAP]
xvdc               202:32   0   25G  0 disk 
└─xvdc1            202:33   0   25G  0 part 
  └─datavg-volume1 253:0    0   25G  0 lvm  
xvdh               202:112  0   64M  0 disk 

[guest@t01 ~]$ df -h
ファイルシス               サイズ  使用  残り 使用% マウント位置
/dev/xvda2                    25G  1.2G   22G    5% /
devtmpfs                     484M     0  484M    0% /dev
tmpfs                        494M     0  494M    0% /dev/shm
tmpfs                        494M  6.6M  487M    2% /run
tmpfs                        494M     0  494M    0% /sys/fs/cgroup
/dev/xvda1                   240M  121M  107M   54% /boot
tmpfs                         99M     0   99M    0% /run/user/0
/dev/mapper/datavg-volume1    25G   33M   25G    1% /ext/volume

/etc/fstabから外部ディスクのファイルシステムのマウントオプションを以下の内容で設定します.

  • nofailを指定し、マウントできない場合でもブート可能とします.
  • ブート時にfsckをしないようにします.
カラム 説明 設定するべき値
1 ブロックデバイス
2 マウントポイント
3 ファイルシステムタイプ
4 マウントオプション "nofail"を追加します
5 dump実行対象 "0"(dump不要)を指定します
6 ブート時のfsck順 "0"(fsck不要)を指定します

/etc/fstabの例

UUID=685c0159-c0b0-4c2b-b45b-550a962e4062 /                       ext3    defaults,noatime,noatime        1 1
UUID=f1c4ed45-98f5-4982-9a25-de08a52234dc /boot                   ext3    defaults,noatime,noatime        1 2
LABEL=SWAP-xvdb1 swap swap    defaults        0 0
/dev/datavg/volume1                       /ext/volume             xfs     defaults,noatime,nofail         0 0

2) サービス関連

  • IPアドレスにバインドしたサービスは無効化する
  • 外部ファイルシステムに依存したサービスは無効化する
  • kdumpは無効化する

tcp/udpのListenアドレスを確認し、localhostまたはALL以外の特定IP指定のdaemonが存在しないか確認します.
以下の例では、DNSポート(53/tcp,53/udp)が特定IPに紐づいています.
このようなサービスは停止するか、特定IPに紐つかないように設定します.

[guest@t01 ~]$ ss -tuln
Netid State      Recv-Q Send-Q     Local Address:Port            Peer Address:Port              
udp   UNCONN     0      0                      *:53124                      *:*                  
udp   UNCONN     0      0                      *:18920                      *:*                  
udp   UNCONN     0      0                      *:68                         *:*                  
udp   UNCONN     0      0                      *:10000                      *:*                  
udp   UNCONN     0      0                      *:1812                       *:*                  
udp   UNCONN     0      0         10.133.173.68:53                          *:*                  
udp   UNCONN     0      0                      *:1813                       *:*                  
udp   UNCONN     0      0              127.0.0.1:323                        *:*                  
udp   UNCONN     0      0                     :::14322                     :::*                  
udp   UNCONN     0      0                     :::37001                     :::*                  
udp   UNCONN     0      0                     :::1812                      :::*                  
udp   UNCONN     0      0                     :::1813                      :::*                  
udp   UNCONN     0      0                    ::1:323                       :::*                  
tcp   LISTEN     0      50             127.0.0.1:3306                       *:*                  
tcp   LISTEN     0      128                    *:111                        *:*                  
tcp   LISTEN     0      128                    *:10000                      *:*                  
tcp   LISTEN     0      128                     :22                         *:*                  
tcp   LISTEN     0      128        10.133.173.68:53                         *:*                  
tcp   LISTEN     0      128                   :::111                       :::*                  
tcp   LISTEN     0      128                   :::22                        :::*

今回は特定サービスにひもづくDNSを無効化します.

[guest@t01 ~]$ sudo systemctl disable named-chroot

kdumpもメモリ割り当ての少ない仮想サーバで起動する際にメモリ不足でfailする場合があります. こちらも無効化します.

[guest@t01 ~]$ sudo systemctl disable kdump

最後に外部ディスク上のファイルシステムを必要とするサービスがあれば、それも無効化します.

[root@t01 ~]# fuser /ext/volume 
/ext/volume:          1145c
[root@t01 ~]# ps 1145
  PID TTY      STAT   TIME COMMAND
 1145 ?        Sl    55:31 /usr/libexec/mysqld --basedir=/usr --datadir=/ext/volume --plugin-dir=/usr/lib64/mysql/plugin --lo

[root@t01 ~]# systemctl disable maridb
Removed symlink /etc/systemd/system/multi-user.target.wants/mariadb.service.

その他チェックリスト記載の内容が満たされるかを確認していきます.
バックアップの検証を行う時期では、この状態で一度OS再起動し、無効化したサービスが起動しないことなどを確認します.

この状態からStandard Imageを取得すればOKです.
リストアテストは時間単位の仮想サーバを注文してテスト、またはOS Reloadでテストします.

Standard Imageのリストアの事後作業

前述のように様々な設定を無効化するため、OSリロード時の事後処理はサービスの有効化等が必要です.
Cloud Nativeにclout-init/provisioning scriptを使ったり、構成管理ツールのansible等を用いて自動化することが望ましいですね.

最後に

個人の経験をまとめたものですので、実態にそぐわない場合がございます. あらかじめご了承ください.

間違いやご意見などありましたら、コメントお願いします.

4
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?