42
29

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

AIが分析してくれる時代に、なぜデータサイエンスを学ぶ必要があるのか

42
Posted at

AIにデータを渡せば、レポートを作ってくれる。

チャートも作ってくれる。

ダッシュボードも作ってくれる。

さらに、「このデータから何が言えるのか」「次にどんなアクションを取るべきか」といったインサイトまで返してくれる。

image.png

そんな時代に、データサイエンスや統計学を学ぶ必要はあるのでしょうか?

私は、その答えはもちろんYesだと考えています。

むしろ、AI時代だからこそ、以前にも増してデータサイエンスを学ぶ重要性は高まります。

なぜなら、AIは「答え」を返してくれますが、その答えが本当に信頼できるものなのかを判断するのは、最終的には人間だからです。

AIがもっともらしいレポートを作ったとしても、そこに出てくる数字は本当に正しいのか。

その差は意味のある差なのか、それとも単なるばらつきなのか。

相関があるように見える関係は、本当に因果関係と言えるのか。

その分析に使われたデータは、そもそも意図したように正しく加工されているのか。

こうした問いに向き合う力がなければ、AIが出した答えをそのまま信じるだけになってしまいます。

しかし、それではデータを使ってより良い意思決定をしているつもりでも、実際にはAIの答えを検証せずに受け入れているだけかもしれません。

AIを使っているようで、AIに判断を委ねてしまっている。

それは、データインフォームドな(データの裏付けを持ちつつも人間が判断する)意思決定とは言えません。

AI時代に本当に必要なのは、AIの答えをそのまま信じることではなく、その答えを問い直し、検証し、より良い意思決定につなげる力です。

これこそが、AI時代に求められるデータサイエンスの力です。

データサイエンス1.0からデータサイエンス2.0へ

これまでのデータサイエンスは、大きく分けると3つの要素で成り立っていました。

機械学習、統計学、そしてプログラミングです。

image.png

RやPythonのようなプログラミング言語を使い、オープンソースのライブラリやパッケージを活用しながら、データを加工し、可視化し、分析する。

これが、いわばデータサイエンス1.0の世界でした。

しかし、LLMをはじめとする生成AIの登場によって、この構造は大きく変わり始めています。

機械学習の領域には、AIが強力な形で入ってきました。

特にテキスト分析のような領域では、従来の機械学習手法よりも、AIを使った方が簡単で、しかも高い精度が得られる場面も増えています。

また、人間とデータの間のインターフェイスも変わりました。

以前は、プログラミングを書くか、GUIのメニューを操作する必要がありました。

しかし今は、自然言語で指示するだけで、データの加工、分析、レポート作成までできるようになってきています。

つまり、インターフェイスは「プログラミング」から「UI」、そして「プロンプト」へと広がっているのです。これがデータサイエンス2.0です。

image.png

では、この変化によって、統計学やデータサイエンスにおける考え方やスキルは不要になるのでしょうか。

そうではありません。

AIによって、分析はしやすくなりました。

様々な手法にも簡単にアクセスできます。

そして、そういった手法やその裏にある理論なども学びやすくもなりました。

しかし、データから何が言えるのかを判断するための統計学的な考え方、仮説を立てて検証する科学的思考、分析結果を意思決定に結びつける力は、依然として必要です。

むしろ、AIが簡単に答えを出してくれる時代だからこそ、そうした答えが正しいのかを判断する力の重要性は増しています。

AIの答えは、質問の質に左右される

AIを使っていると、誰もが気づくことがあります。

それは、AIから返ってくる答えの質は、こちらが投げかける質問の質に大きく左右されるということです。

曖昧な質問をすれば、曖昧な答えが返ってきます。

表面的な質問をすれば、表面的な答えが返ってきます。

一方で、こちらが問いを深め、前提を整理し、何を知りたいのかを明確にすれば、AIの答えもより具体的で、より役に立つものになります。

これは、データ分析において特に重要です。

なぜなら、データ分析では「何を問うか」が結果の価値を大きく左右するからです。

たとえば、AIにデータを渡して「このデータを分析してください」と頼めば、それらしいレポートは返ってくるでしょう。

しかし、そのレポートが本当に自分たちのビジネス上の意思決定に役立つかどうかは別問題です。

本当に知りたいのは、売上が伸びたかどうかではなく、なぜこのタイミングで伸びたのか、何が貢献しているのか、なのかもしれません。

顧客数が増えたかどうかではなく、どの顧客セグメントで増え、そのセグメントの特徴が知りたいのかもしれません。

コンバージョン率が上がったかどうかではなく、その上昇が想定されるばらつきの範囲内なのでしょうか、それとも何かトレンドが変わったと言えるような変化なのでしょうか。

AIに良い答えを出してもらうためには、人間の側に良い問いを立てる力が必要となります。

そして、その問いを立てるために必要なのが、データサイエンス力です。

AI時代に重要な4つのデータサイエンスの力

私は、AI時代に特に重要となるデータサイエンス力は、次の4つだと思っています。

  • 統計学のリテラシー
  • 科学的思考
  • 分析手法の理解と結果の解釈
  • データ加工のスキル

これら4つは、それぞれ独立したスキルのように見えますが、実際にはつながっています。

image.png

統計学リテラシーは、良い問いを立てるために必要です。

科学的思考は、その問いや仮説を検証するために必要です。

分析手法の理解と結果の解釈は、得られた結果を意思決定につなげるために必要です。

そしてデータ加工のスキルは、これらすべての土台になります。

どんなに優れたAIを使っても、元のデータが間違っていれば、出てくる結果も間違っています。

どんなに高度な分析手法を使っても、データの単位や欠損値の扱いを誤れば、結論は簡単に変わってしまいます。

だからこそ、AI時代においても、いや、AI時代だからこそ、これら4つの力が重要になるのです。

それでは、これら4つの力を、それぞれもう少し詳しく説明したいと思います。

1. 統計学リテラシー:良い問いを立てる力

統計学リテラシーとは、難しい数式や理論を覚えることではありません。

データを見るときに、何に注意すべきかを知っているということです。

ばらつき

たとえば、「先月に比べてサインアップが10%増えました」という数字があったとします。

これは一見すると良いニュースです。

しかし、ここで立ち止まる必要があります。

その10%増加は、本当に意味のある変化なのでしょうか。

それとも、通常のばらつきの範囲内なのでしょうか。

ビジネスの数字は、毎月上がったり下がったりします。

ある月は10%上がり、次の月は30%下がり、その次の月は5%上がる。

こうした変動は、多くのビジネスで普通に起こります。

image.png

このとき、統計学リテラシーがあると、「通常のばらつき」であるノイズと「特別な変化」であるシグナルを切り分けて考えられるようになります。

image.png

そして、ノイズからシグナルを見つけ出すには、標準偏差や標準誤差といった統計学の基本的な概念を知っておく必要があります。

目の前の数字に反応するのではなく、その数字がどの程度のばらつきの中で起きているのかを見る。これができないと、データを見ているつもりで、実際にはノイズに振り回されてしまいます。

相関と因果

もう1つ重要なのが、相関と因果関係の違いです。

私がよく使う例となりますが、アイスクリームの売上とサメの襲撃件数のチャートがあったとします。

image.png

5月から7月にかけて、アイスクリームの売上が増えますが、同じ時期にサメの襲撃件数も増えています。つまりこの2つには相関があるように見えます。

しかし、もちろんアイスクリームの売上が増えたからサメの襲撃が増えたといったような因果関係があるわけではありません。

実は、この関係の背後には「気温」という別の要因があるのです。

image.png

気温が上がることで、アイスクリームの売上も増え、海に入る人も増えるのでサメに襲撃される可能性が増える。

その結果、アイスクリームの売上とサメの襲撃件数という2つの数字の関係だけ見ていると、あたかもそれらが相関しているように見えただけなのです。

このような関係を見たときに、「これは本当に因果関係なのか」「他の変数はコントロールできているのか」「サンプル数は十分なのか」と問い直せること。

これが統計学のリテラシーです。

AIが「この変数は売上に影響しています」と言ったときに、それをそのまま受け入れるのではなく、「本当にそう言えるのか」と考えられる力が重要となるのです。

2. 科学的思考:仮説を検証する力

次に重要なのが、科学的思考です。

科学的思考とは、自分が正しいと思っていることが、なぜ正しいと言えるのかを考える力です。

データ分析では、まず問いがあります。

なぜ売上が下がっているのか。

なぜこの顧客セグメントの継続率が高いのか。

なぜキャンペーン後にコンバージョン率が上がったのか。

こうした問いに対して、私たちは仮説を立てます。

たとえば、「視聴時間が長いユーザーほど、有料会員に転換しやすいのではないか」と考える。

あるいは、「営業報酬が高いほど、売上も伸びるのではないか」と考える。

仮説を立てること自体は、それほど難しくありません。

しかし、重要なのはその次です。

もしその仮説が正しいなら、理論的にどうなると予測できるのか。そして、その予測は現実のデータをもとに合っていたと言えるのか。

頭の中で「こうなるだろう」と思うだけでは不十分です。

AIが「こういう傾向があります」と言っただけでも不十分です。

それが本当に現実のデータで確認できるのかを検証する必要があります。

image.png

さらに、科学的思考で特に重要なのは、仮説の立て方です。というのも、仮説は反証可能でなければ先に進めないからです。

つまり、「どのような結果が出たら、その仮説は間違っていたと言えるのか」を明確にする必要があるということです。

統計学の仮説検定は、まさにこの考え方に基づいています。

私たちはつい、「関係があること」を証明したくなります。

しかし、仮説検証では、多くの場合、まず「関係がない」という前提を置きます。(帰無仮説)

そのうえで、実際に観察されたデータが、その前提ではどのくらい起こりにくいのかを考えます。

この考え方を持っているかどうかで、AIの出してくる分析結果への向き合い方は大きく変わります。

AIが出した結論を信じるのではなく、その結論を検証する。

自分の仮説を守るのではなく、間違っている可能性も含めてデータと向き合う。

これが、AI時代に必要な科学的思考です。

3. 分析手法の理解と結果の解釈:意思決定につなげる力

image.png

3つ目は、分析手法の理解と結果の解釈です。

AIは、最適な分析手法を勝手に選んでくれるかもしれません。

さらに、分析結果を要約してくれるかもしれません。

しかし、その結果をどう解釈するかは、人間の側に残ります。

たとえば、AIが次のような結果を返したとします。

「他の条件が一定のとき、視聴時間が1時間増えると、コンバージョンの可能性が20%上がります。この関係は統計的に有意です。」

一見すると、非常にわかりやすい結論です。

しかし、ここには理解すべきポイントがいくつもあります。

まず、「他の条件が一定のとき」とは何を意味するのでしょうか。

これは、年齢、地域、利用デバイス、過去の利用履歴など、他の要因の影響を考慮したうえで、視聴時間とコンバージョンの関係を見ているという意味です。

この考え方がわからなければ、単なる相関と、多変量分析によって他の変数を調整した結果の違いが見えなくなります。

また、「20%上がる」とは何が20%上がるという意味なのか。

確率が20ポイント上がるのか。

オッズが20%上がるのか。

平均的な傾向としてそうなのか、それともすべてのユーザーに当てはまるのか。

こうした点を理解しないまま結果だけを見ると、意思決定を誤る可能性があります。

分析結果は、読めばよいものではありません。

解釈する必要があります。

そして、その解釈をもとに、どのようなアクションを取るのかを考える必要があります。

AIがどれだけわかりやすく説明してくれても、分析手法の前提や結果の意味を理解していなければ、最終的な意思決定にはつながりません。

もちろん、すべての分析手法を数式レベルで理解することではありません。

しかし、少なくとも次のような問いを持てることは重要です。

なぜこの分析手法が使われたのか。

この手法は何を前提としているのか。

この分析結果から何が分かって、何が分からないのか。

何を意味していて、何を意味していないのか。

この結果をもとに、どのような意思決定ができるのか。

これが、分析手法の理解と結果の解釈の力です。

4. データ加工のスキル:信頼できる分析の土台を作る力

最後に、そして非常に重要なのが、データ加工です。

データ分析の多くの時間は、実は分析そのものではなく、データの加工と整形に使われます。

image.png

データを取り込み、列名を整理し、不要な列を取り除き、欠損値を扱い、集計単位を変え、ワイド型とロング型を変換し、複数のデータを結合する。

こうした作業があって、初めて分析ができます。

どれだけ優れた統計学の知識があっても、どれだけ科学的思考があっても、元のデータが間違っていれば、正しい結論にはたどり着けません。

まさに、「Garbage In, Garbage Out(ゴミを入れたらゴミが出てくる」です。

たとえば、データの1行が何を表しているのかを理解していなければ、分析結果は簡単に変わります。1行が注文単位なのか、顧客単位なのか、商品単位なのか。

この違いを理解しないまま集計すると、まったく違う結論になることがあります。

欠損値の扱いも同じです。欠損値を削除するのか。平均値で補完するのか。欠損そのものに意味があると考えるのか。

この判断によって、分析結果は大きく変わります。

また、同じデータでも、ワイド型で持つか、ロング型で持つかによって、作れるチャートや使える分析手法が変わります。データの形を自由に変えられるようになると、分析の幅は一気に広がります。

もちろん、今ではAIに頼めば、データ加工のスクリプトを生成してくれます。

自然言語で「この列を日付型に変換して」「この列名をわかりやすくして」「カテゴリごとに集計して」と指示すれば、AIがコードを書いてくれる時代です。

しかし、それでも人間の理解は必要です。

どういう形にデータを整えるべきなのか。

その加工によって、何が失われるのか。

その変換は、後続の分析にどのような影響を与えるのか。

AIが作った加工手順が、本当に意図した通りになっているのか。

これを確認できなければ、AIによるデータ加工がブラックボックスになってしまいます。

データ加工のスキルは、単なるデータの前処理の技術ではありません。

信頼できるデータ分析を支える土台となるのです。

AIの答えを信じる人から、AIの答えを検証できる人へ

AI時代において、重要なのはAIを使えることだけではありません。

AIの答えを検証できることです。

AIの答えをそのまま信じる人から、AIの答えを疑い、質問し、検証し、より良い答えへと導ける人になること。

これが、これからのデータサイエンス教育で重要になる方向性だと思います。

データを見る人から、データを探索できる人へ。

AIユーザーから、AIとデータを使って価値を生み出せる人へ。

そのためには、ツールの使い方だけを学んでも十分ではありません。

AIにうまくプロンプトを書く方法だけを学んでも十分ではありません。

もちろん、ツールもプロンプトも重要です。

しかし、それらは手段です。

本当に重要なのは、データを見て問いを立てる力。

仮説を検証する力。

分析結果を解釈する力。

そして、その土台となるデータを整える力です。

データサイエンスは、データに触れながら身につけるもの

では、こうした力はどうすれば身につくのでしょうか。

本を読むことも重要です。

AIに質問しながら学ぶことも有効です。

セミナーやトレーニングに参加することも役立ちます。

しかし、最終的には、実際にデータに触れながら学ぶことが欠かせません。

自分で問いを立てる。

データを加工する。

チャートを作る。

分析してみる。

結果を見て、違和感を持つ。

もう一度データに戻る。

別の切り口で見てみる。

仮説を修正する。

この繰り返しの中で、データサイエンスの力は身についていきます。

データ分析は、一度で正解にたどり着く作業ではありません。

問いを立て、答えを得て、その答えからさらに問いを立てる。

探索的に、対話的に、少しずつ理解を深めていくプロセスです。

AIは、このプロセスを大きく助けてくれます。

しかし、そのプロセスを進める主体は、あくまであなたです。

まとめ:AI時代だからこそ、データサイエンスを学ぶ意味がある

AIによって、データ分析は大きく変わりました。

これまで専門的な知識やプログラミングが必要だった作業の多くが、自然言語の指示でできるようになりつつあります。

レポートも、チャートも、データ加工も、分析の要約も、AIが支援してくれるようになりました。

これは大きな進化です。

しかし、AIが答えを出してくれるからといって、人間が学ばなくてよくなるわけではありません。

むしろ、AIが簡単に答えを出してくれるからこそ、その答えを見極める力が必要になります。

AI時代に重要なデータサイエンスの力は、次の4つです。

統計学リテラシー 数字の意味を理解し、ばらつき、サンプル数、相関と因果の違いを見極める力。

科学的思考 仮説を立て、予測し、現実のデータで検証する力。

分析手法の理解と結果の解釈 AIやツールが出した分析結果を理解し、意思決定につなげる力。

データ加工のスキル 信頼できる分析の土台となるデータを整える力。

image.png

これらの力があって初めて、AIは単なる自動化ツールではなく、私たちの思考を広げ、意思決定を支援するパートナーになります。

AIの答えを信じる人ではなく、AIの答えを検証し、問い直し、より良い答えへと導ける人になる。

これこそが、AI時代にデータサイエンスを学ぶ意味だと思います。

さらに学びたい方へ

先日、このテーマでセミナーを開催しました。

実際にデータを使ったデモも交えながら、「AI時代に、なぜデータサイエンスを学ぶ必要があるのか」について話しました。興味のある方は、ぜひ録画をご覧ください。

また、統計学リテラシーや科学的思考について、さらにじっくり学びたい方には、拙著『データに触れながら学ぶ統計学』もおすすめです。

理論や数式をただ読むだけではなく、実際にデータに触れながら、統計学の考え方を身につけられるように構成しています。

そして、もしこの記事で紹介したような力を、実際に手を動かしながら体系的に身につけたい方は、Exploratoryの「データサイエンス・ブートキャンプ」をご覧ください。

このブートキャンプでは、以下のようなAI時代に必要なデータサイエンスの力を、3日間で集中的に学びます。

  • 統計学リテラシー
  • 科学的思考
  • 分析結果を解釈し、意思決定につなげる力
  • データ加工・データラングリングのスキル

実際にデータに触れながら、問いを立て、データを加工し、可視化し、分析し、その結果を解釈するところまでを一通り、実際に手を動かしながら学んでいただきます。

AI時代に必要なのは、AIに答えを出してもらう力だけではありません。

AIとデータを使って、自分で問いを立て、検証し、価値を生み出す力です。

AIに「使われる」人ではなく、AIを「使いこなす」人になるために。

ぜひ、以下のページから詳細をご覧ください。

👉 データサイエンス・ブートキャンプの詳細を見る

42
29
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
42
29

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?