LoginSignup
14

More than 5 years have passed since last update.

データサイエンティストになりたいなら、ロジスティック回帰を最初に学ぶべき5つの理由

Posted at

本投稿は、海外の投稿記事の翻訳・要約になります。
5 Reasons Logistic Regression should be the first thing you learn when becoming a Data Scientist

はじめに

本記事の筆者は数年前に、データサイエンスの世界の自学を開始。当時ソフトウェアエンジニアであり、最初にオンラインで学び始めた。
オンラインで検索すると、線形回帰、SVM、決定木、ランダムフォレスト、ニューラルネットワークなどの学習アルゴリズムの名前しか見ていなかった。どこから始めるべきかを理解することは非常に困難だったことを覚えている。

データサイエンティストになるために学ぶ最も重要なことはパイプライン、つまりデータの取得と処理、データの理解、モデルの構築、結果の評価(モデルとデータ処理の両方のフェーズ)とデプロイ)であると考えている。ロジスティック回帰を最初に知って、パイプラインに精通し、派手なアルゴリズムに圧倒されないようにすべき

ロジスティック回帰から始めてデータサイエンティストになるべきと考える理由が5つある。これはもちろん筆者の意見であり、他の人にとっては、別のやり方でやる方が簡単かもしれない。

理由1. 学習アルゴリズムはパイプラインの一部にすぎないため

データサイエンスの仕事は単なるモデル構築ではない。これには次のステップが含まれる。
image.png

「モデリング(Modeling)」は、この繰返しプロセスの一部。
データプロダクトを構築するときは、パイプライン全体を最初に構築し、できるだけシンプルにし、何を達成しようとしているのか、どのように自分自身を測定できるのか、そしてベースラインが何であるかを理解する必要がある。その後に、魅力的な機械学習を行い、より良くなっているかどうかを知ることができる。

なお、ロジスティック回帰(または任意のMLアルゴリズム)は、「モデリング」の部分だけでなく、「データの理解」と「データの準備」でも使用できる。

理由2. 機械学習についてより理解できる

この記事のタイトルを読むとき、「ロジスティック」であり、 「線形」回帰ではないの?と恐らく尋ねる。重要な真実は、それは重要ではない、問題ではないということ。
この質問からは、分類(ロジスティック回帰)と回帰(線形回帰)の2種類の教師あり学習があるという気づきが得られる。
ロジスティック回帰または線形回帰を使用してパイプラインを構築すると、機械学習の概念のほとんどを理解しやすくなる。

  • 教師付き学習、教師なし学習、分類vs回帰、線形vs非線形問題など多くの概念がある。
  • データの準備方法、インプットや特徴量選択などの課題、モデルの測定方法、精度、Precision-Recall、ROCとAUC、平均二乗誤差やピアソンの相関係数などを使用する必要がある。 これらすべての概念は、データサイエンスのプロセスにおいて最も重要な部分である。あなたがそれらに精通した後は、単純なモデルをあなたがマスターしたもっと複雑なアルゴリズムに置き換えることができる。

理由3. 「ロジスティック回帰」が(時には)十分であるため

ロジスティック回帰は非常に強力なアルゴリズムであり、非常に複雑な問題であっても良い仕事をするでしょう。
例えば、MNISTを考える。 ロジスティック回帰のみを使用して95%の精度を達成することができるが、それは素晴らしい結果ではない。でも、パイプラインが機能するかを確認する上では十分である。

理由4. 統計学上の重要なツールの1つである

線形回帰は、予測だけに利用できるわけではない。
フィットした線形回帰モデルを使用すると、説明変数(特徴量)と目的変数間の関係性を知ることができる。

EX)住宅価格の予測。線形回帰モデルに適合し、良い結果が得られる場合がある。モデルが各説明変数について学習した実際の重みをしることで、それらが有意であればその特徴が他の特徴よりも重要であると判断できる。
線形回帰は、データからの関係を学ぶための強力なツールであり、統計家はそれを非常に頻繁に使用します。

理由5. ニューラルネットワークを学ぶ最初のスタートになる。

ニューラルネットワークを学ぶ際に、ロジスティック回帰の学びは非常に役に立った。

  • ネットワーク内の各ニューロンをロジスティック回帰と考えることができる。
  • インプット、重み、バイアス、次に非線形関数を適用する。
  • ニューラルネットワークの最後のレイヤは、多くの場合で単純な線形(もしくはロジスティック)モデルを利用している。

image.png

Conclusion

一見すると、学習アルゴリズムが最も重要な部分であるかのように見える。
実際のところ、学習アルゴリズムはほとんどの場合非常に複雑で、理解するために多くの時間と労力が必要。でもデータサイエンスのパイプラインのほんの一部です。

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
14