はじめに
「生成AIが進化したら、従来の機械学習(ML)エンジニアやデータサイエンティストは不要になるんじゃないか?」
この記事では、「生成AIが強い領域」と「MLがまだまだ必要な領域」を整理しつつ、最新の研究事例も交えながら、これからのML実務がどう変わっていくのかを考察します。
LLMは予測もできる?最新事例から見る可能性
まず、気になるのが「LLMって予測系のタスクもできるの?」という点ですよね。
実は、2024年に入ってから、LLMをテーブルデータ予測や時系列予測に適用する研究が急増しています。以下、代表的な事例をいくつか紹介します。
テーブルデータ予測の最新研究
TabLLM:Few-Shot分類で従来モデルを超える
TabLLMは、テーブルデータをLLMに自然言語形式で入力し、Few-Shot学習で分類タスクを解く手法です。従来のディープラーニングベースの手法を上回る性能を複数のベンチマークで示しました。
驚くべきは、LLMの事前知識を活用することで、Zero-Shot(学習データなし)でも一定の予測精度を出せる点です。
TableLLM:オフィスの実業務データに対応
2024年に発表されたTableLLM(ACL 2025採択)は、80億パラメータのLLMで、ドキュメントやスプレッドシートに埋め込まれた実世界のテーブルデータを操作するために設計されています。
合成データを活用したファインチューニングと、distant supervision(遠隔教師あり学習)によるデータ品質向上戦略を採用している点が特徴です。
UniPredict:汎用的なテーブル分類器を目指す
「Universal Tabular Classifiers(汎用テーブル分類器)」を目指す研究も進んでおり、特定ドメインに特化せず、多様なテーブルタスクをLLMで解く試みが注目を集めています。
時系列予測の最新動向
Time-LLM:ICLR 2024で発表された汎用時系列予測
Time-LLMは、時系列データを「テキストプロトタイプ表現」に変換し、LLMに入力する手法です。Few-ShotやZero-Shot学習で、従来の専門的な時系列モデルを上回る性能を示しました。
「Prompt-as-Prefix(PaP)」という手法で、LLMの推論をガイドし、時系列の文脈を豊かにする工夫がされています。
しかし、NeurIPS 2024では批判的な研究も
一方で、NeurIPS 2024で発表された研究では、LLMコンポーネントを削除したり、基本的なAttentionレイヤーに置き換えても予測性能が落ちない、むしろ改善するケースがあるという指摘もあります。
つまり、LLMは時系列予測において「必ずしも必要ではない」可能性もあり、研究段階ではまだ議論が続いています。
どこまで実用的か?
これらの研究を見ると、「LLMでもMLタスクができる」のは事実です。ただし、現時点では以下の課題があります:
- 計算コストが高い:LLMは推論に大量のリソースを消費
- 精度の安定性:従来モデル(XGBoost、LightGBMなど)の方が安定して高精度を出せるケースも多い
- 説明可能性の欠如:「なぜその予測をしたか」が見えにくい
- 構造化データとの相性:数値の微妙な違いを捉えるのが苦手
つまり、「できる」けど「実務で常に最適」とは限らない のが現状です。
代替されやすい(生成AIが強い)領域
では、生成AIが本当に強みを発揮する領域はどこでしょう?
生成AIは、いまのところ「変換・要約・分類・抽出」みたいな"言語/画像の汎用タスク"で強いので、ここはMLの一部を置き換えます。
1. 特徴量設計や前処理の自動化
SQLやETL、データ整形のコード生成は、生成AIが最も得意とする領域です。
「このカラムから曜日を抽出して、月末フラグを作りたい」といったリクエストに対して、即座にコードを提案してくれます。
2. テキスト系の教師あり学習の多く
分類、タグ付け、要約、問い合わせ対応などのテキストタスクは、LLMのFew-Shotやプロンプトエンジニアリングで十分対応できるケースが増えています。
わざわざBERTをファインチューニングするより、GPT-4にプロンプトで指示した方が早くて精度も高い、という場面は確実に増えています。
3. ベースラインモデル構築
「どのアルゴリズムで試すか」「ハイパーパラメータ探索はどうするか」「評価指標はどれが適切か」といった、ベースライン構築のプロセスを生成AIがサポートしてくれます。
モデル選定の理由まで説明してくれるので、初心者にも優しい時代になりました。
要するに
「人が手で回していたMLの定型作業」が相当減ります。
生成AIは、MLエンジニアの「作業時間」を大幅に削減してくれる強力なアシスタントです。
代替されにくい(むしろMLが重要になる)領域
一方で、生成AIが"すごい万能モデル"になっても、現場で価値を出すために必要なML/統計/因果の領域は残ります。
1. 因果推論・施策効果測定
A/Bテスト、DID(差分の差分法)、Upliftモデリング、実験設計など、「当たる」より「効いたと言える」が必要な領域です。
ここはLLMだけで済みません。ビジネスインパクトを証明するには、統計的な厳密さと因果推論の知識が不可欠です。
2. 需要予測、在庫最適化、価格最適化、配車/配送などの最適化
生成AIは"提案"はできても、制約・目的関数・保証がある最適化は別物です。
数理最適化やOR(オペレーションズリサーチ)の領域は、依然として専門的なモデリングスキルが求められます。
3. 異常検知・不正検知・リスク管理
説明可能性、閾値設計、運用監視、偽陽性コストの調整が要る領域です。
ブラックボックスなLLMで「なんとなく異常」と言われても、現場では使えません。精度だけでなく、運用上の信頼性が重要です。
4. プロダクション運用
品質保証、ドリフト監視、SLA、監査、再現性など、"モデルの中身"より"運用の設計"が勝負になりやすい領域です。
モデルが出力した予測値をどう業務に組み込むか、エラーが起きたときにどうリカバリーするか、こうした設計は人間の仕事です。
5. 構造化データの強い予測
テーブルデータのKPI予測において、LLMで雑にやるより、勾配ブースティング(XGBoost、LightGBM)や時系列モデル(ARIMA、Prophet)が堅い場面は多いです。
前述の通り、研究レベルではLLMも使えますが、実務では計算コスト・精度・安定性の観点から従来手法が選ばれることが多いでしょう。
私の見立て:MLは"部品化"していく
生成AIは「MLを殺す」というより、MLを"部品化"していく感じです。
以前の役割
データサイエンティストが「前処理→特徴量→モデル→API→運用」まで広く担当していました。
一人で全工程を理解し、手を動かす必要がありました。
これからの役割
生成AIが「実装・探索・たたき台」を高速化し、人は以下に注力するようになります:
-
何を最適化するか(KPI設計)
- ビジネス課題を定式化し、適切な評価指標を設計する能力
-
どのデータで因果を言うか(実験/推定の筋の良さ)
- 施策の効果を正しく測定できる実験設計スキル
-
運用・ガバナンス(監査、品質、責任)
- モデルの品質を継続的に保証し、説明責任を果たす仕組み作り
つまり、"モデルを作れる人"の価値は下がって、"価値を証明して運用できる人"の価値が上がると思っています。
生成AIが「手の作業」を代行してくれるからこそ、「頭の作業(設計・判断・責任)」の重要性が増すのです。
一番現実的な未来
おそらく、こんな形に落ち着くんじゃないかと考えています:
-
生成AI = インターフェース/汎用推論レイヤ(文章・画像・対話)
- ユーザーとのやり取り、提案、探索的分析をサポート
-
従来ML = 数値の最適化レイヤ(予測・因果・最適化・監視)
- 精度が求められる予測、因果関係の測定、制約付き最適化
- これが組み合わさって、プロダクトが作られる
どちらか一方が勝つのではなく、役割分担が進むというのが、私の見立てです。
まとめ
代替されやすい領域
- 特徴量設計・前処理の自動化
- テキスト系の教師あり学習
- ベースラインモデル構築
代替されにくい領域
- 因果推論・施策効果測定
- 需要予測・最適化タスク
- 異常検知・不正検知
- プロダクション運用
- 構造化データの予測(精度・コスト面で従来手法が有利な場面も多い)
これからのデータサイエンティストに求められること
- KPI設計力:何を最適化すべきかを定義できる
- 因果推論スキル:施策の効果を正しく測定・証明できる
- 運用設計力:品質を保証し、責任を持って運用できる
生成AIが「作業の自動化」を進めるからこそ、「価値の定義と証明」ができる人の重要性が増す時代が来ています。
「生成AIに仕事を奪われる」のではなく、「生成AIを使いこなして、より本質的な価値創出にフォーカスする」。そんなシフトが、すでに始まっています。
参考リンク
- TabLLM: Few-shot Classification of Tabular Data with Large Language Models
- TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios
- Time-LLM: Time Series Forecasting by Reprogramming Large Language Models
- Are Language Models Actually Useful for Time Series Forecasting? (NeurIPS 2024)
- Large Language Models on Tabular Data: Prediction, Generation, and Understanding - A Survey

