背景
AWSのドキュメントに従ってEKS(k8s)のバージョンアップする時、
EKS clusterをアップデートした後、
node groupを同一バージョンに更新する必要がある。
今回は1.24 -> 1.25。前は1.21 -> 1.22 -> 1.23 -> 1.24 と更新してきた。
問題
node groupを更新しようとたら、NodeCreationFailure Couldn't proceed with upgrade process as new nodes are not joining node groupのエラーで失敗。
下記の記事のどれも当てはまるようには見えず、スタックした。
解決方法
kube-proxyのバージョンが原因のようで、
なぜか過去の更新でkube-proxyがv1.21から上がっていない。
下記の記事で、現在のkube-proxyのバージョンを特定できた。
そこで、v1.24をインストールして、再度node groupを更新したら、うまくいった。
補足
問題発見に辿り着くまでのプロセス:
podの一覧を確認したところ、crashLoopBackOffのpodをいくつか発見した。
ログを漁ると、Unable to connect to the server: dial tcp 10.0.0.1:443: i/o timeout errorが共通だった。そこから色々調べて、kube-proxyのバージョン問題に辿り着いた。