"100TB"のファイルサーバにあるファイルを断捨離するために(3) ～データ活用検討編～

Posted at 2021-02-20

はじめに

前回は、ZiDOMA dataでファイルサーバの分析で以下のようなデータが
ZiDOMA dataの画面、CSVファイルから取得できることをご紹介しました。

参考:
"100TB"のファイルサーバにあるファイルを断捨離するために(2) ～ZiDOMA data編～
https://qiita.com/karin_to/items/7e1dab963e0dc0ba2e9b

ZiDOMA dataの画面からデータを確認する場合
https://ari-jp.com/lp/zidoma/report-1.php

今回は、CSVファイルをどのように活用してファイルサーバーの利用者に利用状況を
お知らせするレポートをお届けするか検討した際のことをまとめます。

まずは、ZiDOMA dataで出力した後のCSVデータからどのようなデータを作れば、

が提供できるかを考えました。

そのためにも、最初に手作業でディレクトリごとのレポート作成です。
どのようなレポートを作れば、ファイルを断捨離(整理)することにつなげられるのか
考えながらExcelファイルに以下のような項目のデータ集計をしてみました。
最終的にレポートとして採用しなかったものも含めていくつか例として挙げます。

<採用案>

<不採用案>

私が実際に取り組んだ例としては、
部署ごとに作成しているディレクトリのデータ分析でしたので、
とりあえず試作で3、4部署分を手作業で作成しました。

データの集計自体は、CSVファイルをExcelで開いて、「フィルタ」機能を使って
ほしい条件に絞り込みデータをまとめました。
その後に、データを集計したものをグラフ化するといった具合です。
これらの作業を約2～3週間取り組んでいたと思います。
(もちろん1日ずっとこの作業のみです)

その後は、ファイルサーバーの管理関係者にもレビューしていただいて、
上記のレポートの中からユーザーに提供する内容を決定しました。

次なる課題となったのは、レポートを作成する手間と工数でした。
あと、レポートを作成する人も確保する必要が出てきてしまいます。
たとえ年に1回作成するにしてもレポートが出来上がってユーザーにお見せするために
膨大な時間がかかることになります。
そして、その頃にはデータとしてもう古くなっている…

となると、次はこのレポートを自動で作成できないか？と考えて
どうやったら自動化できるか…と検討して実際に使ってみたのが

PythonのPandasライブラリ

でした。

このライブラリのおかげでほぼプログラミング経験が初心者の私でも比較的簡単に作れてしまいました。
そのため、次回は実際にPythonで使ったPandasをご紹介していきたいと思います。

参考：初心者レベル
　Pythonの基礎の書き方を社内勉強会で週1回1～2h、約2か月間取り組んだことあり

"100TB"のファイルサーバにあるファイルを断捨離するために(1)
https://qiita.com/karin_to/items/8a375f41de0e4f754cfb

"100TB"のファイルサーバにあるファイルを断捨離するために(2)
https://qiita.com/karin_to/items/7e1dab963e0dc0ba2e9b