はじめに
Pythonで機械学習を始めると、scikit-learn,pandas,NumPyといったライブラリが必ずと言っていいほど登場します。一度別の授業に扱った内容ですが、今一度まとめてみようと思います。
3つのライブラリの役割分担
料理に例えてまとめます。
-
pandas: 食材の下ごしらえ担当- CSVなどのファイルからデータを読み込み、扱いやすい形(データフレーム)に整えます。Excelのようにデータの確認や並べ替え、不要な部分の削除などを行います
-
scikit-learn: メインの調理担当- k-近傍法など、様々な機械学習アルゴリズム(調理法)を使って、pandasが整えてくれたデータ(食材)を学習(調理)させます
-
NumPy: キッチン全体を支える基礎技術- 高速な計算処理を担当します。私たちが直接触る機会は少ないかもしれませんが、pandasやscikit-learnが効率よく動くための土台となる重要なライブラリです