機械学習入門
こんにちは!Kazuyaです。
クラウドベンダーのカスタマーサクセスにいながら、
広範囲の知識を得るために、
経験の浅い機械学習のコンテンツを学習中!
覚書をこのタイトルのシリーズでやっていこうと思います。
データクレンジングにおける注意の学び
Pythonを使いながら機械学習をしていると、
データクレンジング、データビイングなどなどをする必要があり。
その中で、分析したいデータセット・データフレームに、
欠落値があった場合、その値を以下のいずれかで処理。
- 欠落値があるデータ行をDropnaで削除してしまう。
- replaceで欠落値を平均値や、より一般的な値で置き換えてしまう。
- そのまま処理する
このいずれにするのかというのによって、
得られる結果が変わってきます。
「そのまま処理する」となると、NAだらけになり統計が取れなくなる可能性がある反面、
代替の値を入れてしまったことによる不確実性を避けられる別の案を検討することができます。
平均値を使うと、それは欠損していないデータをもとに、平均を出しているため、
例えばデータの40%が欠損していないデータだった場合、
標本全体の半数を超えるデータは、半数以下のデータの平均値を使うこととなり、
そのデータを用いた分析は果たして統計として正しいのか、精度に疑問が出てきます。
いかようにして、機械学習の精度を高いものにするかは、
やはり「データ」が資産であることを理解の上で、
DataFabricが今のCognitiveなFeatureを追い求める時代には、
必要不可欠。
たかがログ、されどログということを改めて理解したシステム設計が必要ですね。
と、導入はこんなところで、今後は実践編を。
See you next time!