はじめに
前回は、ZiDOMA dataでファイルサーバの分析で以下のようなデータが
ZiDOMA dataの画面、CSVファイルから取得できることをご紹介しました。
- 各ディレクトリの使用率やサイズ
- 作成日時、更新日時、最終アクセス日時
- 拡張子
- 所有者
参考:
"100TB"のファイルサーバにあるファイルを断捨離するために(2) ~ZiDOMA data編~
https://qiita.com/karin_to/items/7e1dab963e0dc0ba2e9b
ZiDOMA dataの画面からデータを確認する場合
https://ari-jp.com/lp/zidoma/report-1.php
今回は、CSVファイルをどのように活用してファイルサーバーの利用者に利用状況を
お知らせするレポートをお届けするか検討した際のことをまとめます。
CSVファイルの活用方法を検討する
まずは、ZiDOMA dataで出力した後のCSVデータからどのようなデータを作れば、
- 使用状況
- ファイルを整理するためのポイント
が提供できるかを考えました。
そのためにも、最初に手作業でディレクトリごとのレポート作成です。
どのようなレポートを作れば、ファイルを断捨離(整理)することにつなげられるのか
考えながらExcelファイルに以下のような項目のデータ集計をしてみました。
最終的にレポートとして採用しなかったものも含めていくつか例として挙げます。
<採用案>
- ディレクトリの使用量(使用量/上限容量)
- (ファイル作成日、更新日、アクセス日) 期間ごとのファイル数、サイズ
- アクセス日時が古く、かつファイルサイズが大きい
- 拡張子ごとのファイル数、ファイルサイズ
<不採用案>
- 重複ファイル
- 旧Office拡張子(.doc, .ppt, .xls)、かつファイルサイズが大きい
- 50文字以上のファイル名
- ファイルサイズが大きいもの
私が実際に取り組んだ例としては、
部署ごとに作成しているディレクトリのデータ分析でしたので、
とりあえず試作で3、4部署分を手作業で作成しました。
データの集計自体は、CSVファイルをExcelで開いて、「フィルタ」機能を使って
ほしい条件に絞り込みデータをまとめました。
その後に、データを集計したものをグラフ化するといった具合です。
これらの作業を約2~3週間取り組んでいたと思います。
(もちろん1日ずっとこの作業のみです)
その後は、ファイルサーバーの管理関係者にもレビューしていただいて、
上記のレポートの中からユーザーに提供する内容を決定しました。
レポートの自動作成への検討
次なる課題となったのは、レポートを作成する手間と工数でした。
あと、レポートを作成する人も確保する必要が出てきてしまいます。
たとえ年に1回作成するにしてもレポートが出来上がってユーザーにお見せするために
膨大な時間がかかることになります。
そして、その頃にはデータとしてもう古くなっている…
となると、次はこのレポートを自動で作成できないか?と考えて
どうやったら自動化できるか…と検討して実際に使ってみたのが
PythonのPandasライブラリ
でした。
このライブラリのおかげでほぼプログラミング経験が初心者の私でも比較的簡単に作れてしまいました。
そのため、次回は実際にPythonで使ったPandasをご紹介していきたいと思います。
参考:初心者レベル
Pythonの基礎の書き方を社内勉強会で週1回1~2h、約2か月間取り組んだことあり
関連記事:
"100TB"のファイルサーバにあるファイルを断捨離するために(1)
https://qiita.com/karin_to/items/8a375f41de0e4f754cfb
"100TB"のファイルサーバにあるファイルを断捨離するために(2)
https://qiita.com/karin_to/items/7e1dab963e0dc0ba2e9b