背景
AWSのドキュメントに従ってEKS(k8s)のバージョンアップする時、
EKS clusterをアップデートした後、
node groupを同一バージョンに更新する必要がある。
今回は1.24 -> 1.25。前は1.21 -> 1.22 -> 1.23 -> 1.24 と更新してきた。
問題
node groupを更新しようとたら、NodeCreationFailure Couldn't proceed with upgrade process as new nodes are not joining node group
のエラーで失敗。
下記の記事のどれも当てはまるようには見えず、スタックした。
解決方法
kube-proxy
のバージョンが原因のようで、
なぜか過去の更新でkube-proxy
がv1.21から上がっていない。
下記の記事で、現在のkube-proxy
のバージョンを特定できた。
そこで、v1.24をインストールして、再度node groupを更新したら、うまくいった。
補足
問題発見に辿り着くまでのプロセス:
podの一覧を確認したところ、crashLoopBackOff
のpodをいくつか発見した。
ログを漁ると、Unable to connect to the server: dial tcp 10.0.0.1:443: i/o timeout error
が共通だった。そこから色々調べて、kube-proxy
のバージョン問題に辿り着いた。