はじめに
お仕事で、AWSのSagemaker Studioを毎日使っています。
イメージは、これです💡
左側にフォルダマークがあります。
作業するときはここをいわゆるフォルダ分けのようにして、いろんな分析のワークスペースとして活用できます。便利!
課題
分析するのがゴールなので、アウトプットの報告が終わると次の仕事に移りがちですよね・・・。すると、どんどん作業中の一時ファイルなどがワークスペースに溜まり、コストを圧迫していきます!
これはなんとかせねば・・・!
ー立ちはだかる壁ー
ファイルの容量が大きい=高コスト ですが、どのファイルの容量が大きいかは、ぱっと見で判断できない・・・(´;ω;`)ううぅ
対応手順
きっとファイル情報を取得するコマンドがあるはず!ということで下記方法で対応しました✨
・ルートフォルダでipy作成し、立ち上げ
・最低インスタンスを立ち上げ
・適当なセルで
ls -lRh ./
を入力し実行。
たくさんファイルの情報が出力されます!
う~ん、トータル81GB 1ファイル16GB ・・・
★後工程
・出てきた一覧を、画面上で選択&コピーし、Excelに貼り付け
・張り付けた列を選択 - F5から空白セルのみ選択 ― 削除
・Excelのデータタブ ー 区切り位置 ― スペースで区切り ― すべて文字列 ― 完了
・ここまでで、概ね 各ファイルのサイズ、フォルダのサイズがわかるので、整理する際の参考にできます
・青い文字はフォルダを示し、詳細は下部に記載されています。フォルダのサイズもそっちに記載あります。
最後に
たくさんお掃除できてスッキリですね!
トータルで削除したデータ容量は、怖いので非公開です・・・