- データサイエンス100本ノックをやりきる会を作りました🎉
- こちらのSlack招待URLからご参加ください!!
- ぜひ一緒に励まし合いながら、データサイエンス100本ノックをやり切りたいと思っています!
所感
- データサイエンス100本ノック(構造化データ加工編)の10問目までを解説して感じたことを3つ書きます。
Pandasは「構造化されたデータを条件指定して抽出する」のに非常に便利
- 構造化されたデータは、あくまで必要と思われるすべての情報を表形式で整理したものです
- 目的に応じて、見たい情報を抽出する必要があります
- そのために、条件指定をして抽出するのですが、Pandasは条件指定のコードを簡潔に記載することができるという点で非常に便利です
「どういった条件を」「どういったコードで表現するのか」がポイント
- Pandasの特徴として、条件指定とコードが対になる点が挙げられます
- 例えば、「先頭の10件を表示する」という条件指定は「.head(10)」というコードで表現されます
- このパターンを知り、100本ノックを通じて理解を深め、使えるようになるまで繰り返すことが習得の近道です
- 条件指定とコードの対を覚えることがPandasを習得する際のポイントになります
実務では「何のために」「どういったデータを抽出したいのか」を常に考える習慣をつけることが重要
- ただし、使えるようになるだけでは実務では使えません
- 例えば、コンビニ店長になったつもりで「売上を前年比で+5%にしたい」という目標を達成するために、「よくセットで買われている商品を同じ棚に配置して、購入単価を上げる」という戦略を立てたとします
- この場合は、目的がはっきりしているので、「誰が」「いつ」「何の商品を」「いくらで」購入したのか、というデータを抽出すればいい、と考えることができます(※もちろんデータを抽出するだけではダメで、データを分析し、そこから有力な示唆を得られなければ目標を達成することはできません)
- しかし、そういった目的が不明瞭な場合、いくらデータを抽出することができるようになったとしても、ビジネス課題を解決する手段として一切機能しません
- 「データを抽出する(+データを分析する)」のは、適切な意思決定をするための手段の1つである、ということを常に念頭に置きながら、100本ノックを楽しみましょう!
#解説まとめ
- ここからはリンクを貼ります。
- データサイエンス100本ノック初心者の方は、001から順番に解いていくことをおすすめします。
- 011から020までの解説はこちらをご覧ください。