起こったこと
久しぶりにドメイン内に新規ユーザープロファイル作成してsagemaker studioを起動しようとしたら以下のエラー画面が表示されハマったのでメモ。
なぜ起動できなかったか
エラーメッセージを見ていると「LifecycleConfig」「install-autoshutdoqn-extension」という単語が見つかりました。ライフサイクル...?となって確認すると、ドメインのライフサイクル設定に「install-autoshutdoqn-extension」がデフォルトで設定されていました。
(会社環境なので他メンバーが設定してくれていた模様)
コスト対策で一定時間経過したら自動でシャットダウンしてくれるスクリプトを仕込んでくれていました。
くわしくCloudWacth logsを確認すると該当のライフサイクルのシェルの処理でコケていました。
(ログはロググループ/aws/sagemaker/studio
内のログストリームドメインID/ユーザープロファイル名/JupyterServer/default/LifecycleConfigOnStart
で確認することができました。)
このシェルはAWSのサンプルコードの内容を参照しているのですが
調べているとどうやらこのライフサイクルを設定した当時はJupyter Lab1.0向けのシェル内容だったようです。現在Jupyter Labは3.0を使用しておりそれが原因で起動に失敗していました。
現在のサンプルコードはJupyter Lab1.0, 3.0の両方に対応しているようです。
ライフサイクルのスクリプトを修正することで解決できました。