16
15

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

データベース分野のPhDが考える:なぜデータエンジニアは本気でAIを学ぶべきなのか!

Posted at

データベースシステムの博士号を持ち、クラウドプロバイダーでの経験を積み、さらにデータストリーミングのスタートアップ RisingWave を4年間運営してきたエンジニアとして、私はすべてのデータエンジニアがAIを受け入れるべきだと強く信じています。つまり、AIを使い、AIを学び、AIを理解し、そして次のステップとしてAIアプリケーションを構築することです!

私は2024年後半からAIを積極的に推進しています。なぜか? それは、AIが今後の未来にとって絶対に不可欠であり、データインフラ業界全体を破壊的に変革する可能性を秘めていると確信しているからです。私は最新技術を盲目的に追いかけるタイプではありません。むしろ、私は比較的保守的な方だと思っています。しかし、実際のユースケースを見れば見るほど、AIは単なる質問への回答や、テキスト・画像・音声・動画の生成にとどまらず、データインフラ分野を非常に短期間で大きく変える存在であることを確信するようになりました。

社内で送った全社メール

この記事では、私自身の経験に基づいてAIがこの分野をどのように変革するのか、そしてどのような新たな機会が生まれるのかについての見解を共有します。

データインフラは終焉を迎えるのか?

新しい分野に「全力投球する」話をすると、必ず「では、今まで信じてきた分野は終わったのか?」という質問が出てきます。私の答えは、断じてNO です!すべての人に当てはまるわけではないかもしれませんが、私が見てきた限り、データインフラ分野は決して死んでおらず、むしろ成長を続けています。

私の会社の話をするつもりはありません (とはいえ、売上と有料顧客数が10倍成長した素晴らしい年でした!) 。しかし、この分野のリーダー企業を見てみましょう。Databricks は、なんと 620億ドル という驚異的な評価額でシリーズJの資金調達を成功させました(ニュース記事)。また、SnowflakeConfluentMongoDBElastic などの企業は、大きな驚きはないものの、安定した成長を続けています。

LLM(大規模言語モデル)が生成するデータの量が増え続ける中、データの保存と計算の需要も増加しています。これにより、今後12~24ヶ月で市場全体の成長が続くことは間違いありません。

現在、AIが注目の的になっていますが、それによってデータベース業界が停滞することはありません。むしろ、AIの台頭とともにデータインフラの需要はますます高まっています。データベース市場は依然として巨大で、今なお成長を続けています。したがって、データインフラが終焉を迎えるという考えは完全に誤りです。

自分自身を納得させるまでの道のり

もしデータベース分野がまだ繁栄しているのなら、なぜAIに焦点を移すべきなのか?
率直に言えば、過去2年間でAIは驚異的な注目を集めており、この勢いは今後2年間で衰えることはないでしょう
AIに「全力投球」するかどうかは別として、AIを理解することは絶対に必要です。

私のバックグラウンド

これが私にとってAIとの最初の出会いではありません。
約8年前、私はデータベース分野におけるAIの応用を初めて探求しました。その際、Andy Pavlo 氏と共同で、Self-Driving Database Management Systems という論文を執筆しました。その後、IBMリサーチでの仕事を通じて、AIとデータベースの可能性をさらに深く掘り下げ、VLDBカンファレンス において AIDB Workshop を立ち上げました。このワークショップは、現在まで6年間継続して開催されています。

しかし振り返ってみると、私はAIがデータベース分野に本質的な変革をもたらすとは完全には確信していませんでした。
当時のAIは、実用的なツールというよりも、「興味深い研究のアイデアの集合体」という印象が強かったのです。

AWS Redshift で働いていた際にも、データベースにAIを活用する試みがありましたが、それはしばしば「マーケティングのための戦略」としての側面が強いと感じていました。特に、単なるロジスティック回帰(Logistic Regression)を使ってクエリの実行時間を予測することを「AI for Database」として売り込んでいた ケースなどには、強い違和感を覚えました。

ChatGPT登場後の変化

2年前、ChatGPT が登場したとき、私は懐疑的な立場を取っていました。
私自身、ChatGPTを日常的に利用していましたが、当初は主にマーケティングコンテンツの生成ツールとしか考えていませんでした。
データ分野において破壊的な影響を与えるとは、まったく思っていなかったのです。

私は2年間ChatGPTの有料ユーザーです!

データベースとAI

2023年を振り返ると、データベースとAIの交差点において最も注目を集めた2つのトレンドがありました。
それは、ベクトルデータベース(Vector Database)テキストto SQL です。

これらは、「AIのためのデータベース」「データベースのためのAI」 という2つの主要な方向性を示しています。

私は、ベクトルデータベースが注目される理由を理解していますし、その重要性も認識しています。
実際、ほぼすべての RAG(Retrieval-Augmented Generation)ベースのアプリケーションはベクトルデータベースに依存しています。
しかし、ベクトルデータベースが独立した商業的ビジネスとして成功する可能性は低い と思っています。
この点については、以前のブログ記事で詳しく説明しました(Why You Shouldn’t Invest in Vector Databases)。

一方、テキストto SQL については、私は以前からあまり熱心ではありませんでした。
IBMで働いていたとき、私のオフィスの隣には「自然言語クエリ(NLQ)」チームがあり、人間の言葉をSQLクエリに変換する技術を開発していました。
現在では、AWS、GCP、Microsoft、Apple などの主要企業がそれぞれ独自のテキストto SQL チームを持ち、SnowflakeDatabricks も独自のテキストto SQL 機能を展開しています。
BIツール企業に話を聞いても、テキストto SQL がなければ、もはや「時代遅れ」と見なされる という状況です。

LLMの登場により、テキストto SQL の精度は従来の手法と比べて大幅に向上しました。
しかし、私は 「テキストto SQLが独立した収益を生み出せるビジネスモデルにはならない」 と今でも考えています。

転換点

約半年前、Cursor AIReplit などのツールが急速に普及し始めたころ、私はある重要な事実に気付きました。

AIはすぐにエンジニアを完全に置き換えるわけではないが、すでにソフトウェアエンジニアリングに深い影響を与えている!

さらに、データベースとAIの交差点について深く掘り下げ、多くの顧客と議論を重ねるうちに、私は1つの明確な結論に到達しました。

「AIは間違いなくデータ業界を破壊的に変革する」
しかも「それは今後2年以内に起こる」
のです!

データベースとAIの関係性の変化

これまで、AIはデータベース分野において 「アシスタント」 の役割を果たしてきました。
例えば、AIは以下のような形でデータベースを支援してきました。

  • インデックスの自動作成
  • マテリアライズドビューの生成
  • クエリ実行時間の予測
  • 自然言語を使ったデータベース操作

どのユースケースでも、共通しているのは 「データベースが主役であり、AIはそれを支援する役割」 であることです。

AIの能力が比較的低かった時代には、AIは主にマーケティング要素として使われることが多かったですが、
技術が進化するにつれ、特定の領域で実際の価値を生み出すようになりました。
しかし、データベース業界の本質は変わらず、ユーザーがデータベースを選ぶ理由は、効率・信頼性・パフォーマンス・サポートなどのコア要素に依存 していました。

しかし、AIが一定の閾値を超えたとき、私たちはこの関係性を見直す必要があるのです。

データベースにおけるAIの役割の進化

前述のとおり、長い間、AIはデータベース分野において補助的な役割を果たしてきました。
AIはインデックス作成を自動化し、マテリアライズドビューを生成し、クエリの実行時間を予測し、さらには自然言語でデータベースを操作する手助けもしてきました。
どのユースケースにおいても共通していたのは、**「データベースが主役であり、AIはそのサポート役」**という構図です。

AIがまだ発展途上だった頃は、単なるマーケティング要素として活用されることも多く、
技術が進歩するにつれ、特定のユースケースで実際に価値を生み出せるようになりました。
とはいえ、データベースベンダーとしての私たちは、ほとんどのユーザーがデータベースを選ぶ決定要因がAI機能ではなく、「効率性」「信頼性」「パフォーマンス」「サポート」などの基本要素であることを理解しています。

しかし、AIが一定の閾値を超えたとき、私たちはこの関係性を根本から見直す必要が出てきます。
「データベースとAIの関係において、どちらが主役で、どちらが補助なのか?」
この問いが、今後のデータインフラ業界を左右する重要な論点となるのです。

AIが変えるデータベースとのインタラクション

AIはデータベースとのインタラクション方法を革命的に変えつつあります。
そして、ここで改めてテキストto SQLの話題に戻ります。

先ほど、テキストto SQLが独立したビジネスモデルになりにくいと述べましたが、
それでもテキストto SQLが今後、標準機能として一般化するのは間違いありません。

現在の大規模言語モデル(LLM)は、SQLクエリの生成精度に課題があるものの、特化したモデルでは75%の精度を達成しており、
Snowflakeは90%の精度を実現したと発表しています。
このような技術の進歩を見ると、近い将来、LLMによるSQL生成能力が大幅に向上することが予想されます。

このような流れの中で、私たちはデータベースとAIの関係を再評価する必要があります。
単なる技術の進歩にとどまらず、データインフラの業界全体に影響を与えるパラダイムシフトが起こる可能性があるのです。

参考: Cohere Blog

Bird Benchmark: 公式サイト

SQLはAI時代の「仲介言語」になる

Anthropicが発表したModel-Context Protocol (MCP)は、
LLMが外部データソースをコンテキストとして活用するための新しいプロトコルです。
そして、このMCPにおいて、SQLデータベースは主要なデータソースとして位置づけられています。

MCPが機能するためには、高精度なテキストto SQL技術が不可欠です。
このプロトコルの基本的な流れは以下のようになります。

  1. ユーザーが自然言語で質問をする
  2. LLMがSQLクエリを生成
  3. データベースから取得した結果をユーザーに返す

この仕組みにより、データベースと人間のインタラクションが大幅に効率化され、
AIの実用性もさらに向上するでしょう。


自然言語によるデータベース操作が主流になるのは時間の問題です。
自然言語の方が人間の直感に合っており、非技術者でもデータベースを活用しやすくなります。
しかし、これはSQLが完全に不要になるという意味ではありません。

SQLは、AI時代の「仲介言語」として存続し続けるでしょう。
たとえば、アセンブリ言語が今日でも最適化やデバッグのために必要とされるように、SQLも依然としてチューニング・パフォーマンス最適化・デバッグのために必要とされるのです。

SQLはAI時代の仲介言語としての役割を担う

ここまでで、私たちは「データベースは不可欠であり、AIは補助的な役割を果たす」と仮定して議論を進めてきました。
しかし、もう一歩踏み込んで考えると、「そもそもデータベースは本当に必要なのか?」という疑問が浮かびます。

私の答えは以下の通りです。

「データベースは依然として必要だが、AIが一部の機能を代替することは可能である」


データストレージとデータ処理の進化

AIの急速な進化によって、データストレージとデータ処理の両面で大きな変化が起きています。
そして、場合によってはAIが従来の機能の一部を置き換えつつあります。

1. データストレージ:モデルが「非可逆圧縮」として機能する

人間が保存する詳細データの多くは、実際には不要なものです。
一方、AIモデルは**「非可逆圧縮(Lossy Compression)」**の手法を用いることで、
このデータを圧縮し、一部の保存機能を代替できる可能性があります。

たとえば、すべてのウェブサイトアクセスログを長期間保存する必要が本当にあるでしょうか?
多くのウェブサイト管理者が求めているのは、トラフィックやページ閲覧統計といった高レベルの情報です。
実際、Google Analytics のようなツールがすでにこの役割を担っています。

AIを活用すれば、これまでの統計手法よりも豊富な情報を取得しつつ、
膨大なデータを保存する必要がなくなる可能性があります。

2. データ処理:ファジー計算 vs. 正確な計算

従来のデータベースは正確な計算を得意とし、AIモデルはファジー計算に強みを持っています。

  • 従来のアプローチ:
    Twitter(X)のデータを分析するには、まずデータをデータベースにロードし、ワード頻度分析や分布解析を行う必要がある。

  • AIアプローチ:
    OpenAIのAPIを利用すれば、リアルタイムでソーシャルメディアデータを分析し、高精度な感情分析を実施できる。

このように、AIがデータベースの計算機能を一部代替する未来が見え始めています。

AIによるデータベース計算機能の侵食

大規模言語モデル(LLM)の台頭により、データベースの計算機能は徐々にAIに置き換えられつつあります。
特に、AI/MLアプリケーションにおけるデータ処理の領域では、すでに顕著な変化が見られます。

伝統的な機械学習ワークフローでは、特徴量エンジニアリング(Feature Engineering)が非常に重要なステップであり、
多くの場合、Sparkのような分散計算フレームワークが利用されていました。
(ちなみに、RisingWaveオンライン特徴量エンジニアリングのためによく使用されています!)

しかし、事前学習済みの大規模モデルが普及することで、多くの特徴量エンジニアリングが不要になりつつあります。
これらのモデルは、事前学習によって生データから直接特徴を抽出できるようになっており、
データベースにおける一部の計算機能を置き換える可能性があるのです。

AIは特徴量エンジニアリングのパイプラインを置き換えることができる

データベースは本当に必要なのか?

ここで改めて、最初の問いに立ち返りましょう。

「データベースは本当に必要なのか?」
「AIがデータベースを完全に置き換える日は来るのか?」

私の答えは明確です。

「データベースは依然として必要であるが、AIはその一部の機能を代替する」

現在のLLMは、非構造化データ(テキスト、画像、音声など)の処理には優れていますが、
構造化データ(表形式データなど)の処理にはまだ課題が多いというのが現実です。

また、構造化データは一般的にプライバシーやセキュリティの要件が厳しく、利用シナリオごとに特有のルールが存在するため、
従来のデータベースはこの領域において引き続き強い競争力を持っています。

しかし、今後10年、20年というスパンで考えると、AIとデータベースの関係は大きく変化していくでしょう。
私たちは、AIがデータ処理の一部を担う未来に向けて、積極的に適応する必要があります。

AIを活用したデータベースの成長戦略

技術的な観点から見ると、データベース分野にはもはや大きな「未開拓領域」はほとんど存在しません。
現在、世界には数百種類のデータベースがあり、技術的な差異は徐々に縮小しつつあります。

過去数十年にわたり、データベースの成長を支えてきたのは次の2つの要因でした。

  1. ハードウェアの進化
  2. ユースケースの多様化

しかし、ハードウェアの進化が頭打ちになりつつある今、
新たなユースケースの創出がデータベース業界の成長を支える重要な要素となります。

例えば、ストリーム処理(私の会社である RisingWave が取り組んでいる分野)を例にとると、
この領域では過去4年間で数多くのストリーム処理エンジンやストリームデータベースが登場しました。

多くの製品がPostgreSQL互換プロトコルの採用・ストレージとコンピュートの分離・高度な結合演算の最適化・バッチとストリームの統合など、
ほぼ同じ設計原則に基づいて構築されています。

この結果、業界の競争は次第に**「成熟度」や「細部の作り込み」に依存するようになっています。**
まさに「細部にこそ悪魔が宿る(The devil is in the details)」という状態です。

データベース分野の未来とAIの役割

今後10年、データベース市場はさらに**収束(コモディティ化)**していく可能性が高いでしょう。
これは、競争の激化によって利益率が低下し、業界全体の成長が鈍化することを意味します。

では、データベース市場における次の成長エンジンは何か?
その答えの一つが、AIによる新しいデータ処理のニーズの創出です。

AIの進化に伴い、データの生成量が増え、新たなユースケースが次々と生まれています。
この変化が、データベース業界に新たな機会をもたらすのです。

特に、リアルタイムレコメンデーションリアルタイム検索といった領域では、
大規模言語モデルを活用した新しいアプローチが次々と登場しています。

これにより、新興企業が市場に参入し、既存のプレイヤーも最新技術を取り入れることで競争力を強化しています。

データエンジニアはどうやってAIを学ぶべきか?

ここまでAIの影響について論じてきましたが、
では、データエンジニアは具体的にどのようにAIを学ぶべきなのでしょうか?
私自身、AIの専門家ではなく、博士課程時代に学んだ機械学習の知識がある程度です。
日々の業務で忙しく、AIをじっくり学ぶ時間を確保するのは容易ではありません。

そこで、私が実践している「効率的なAI学習法」を3つ紹介します。

1. AIツールを試してみる

私は新しいツールを試すのが好きで、気になったサービスには積極的に課金しています。
例えば、ChatGPT Proの有料プランを利用しており、Anthropicの製品にも課金しています。
また、CursorReplitbolt.new などのサービスも試しました。

実際にAIツールを使うことで、現在のAIの限界と可能性が見えてくるのです。

2. AI関連の議論に参加する

私はサンフランシスコ・ベイエリアに住んでおり、ここは「世界のAIの中心地」とも言われています。
この地域では頻繁にAI関連のミートアップが開催されており、私は積極的に参加しています。

AIの研究者、起業家、投資家と直接話をすることで、最新の動向を知ることができます。
こうした交流が、新たな視点を得る上で非常に有益です。

3. AIに関する記事を読む

私は技術ブログや論文を読むのが好きで、特に難解な内容についてはChatGPTを活用して要約させています。
この方法によって、短時間で効率的にAI関連の知識を吸収することができます。

結論:AIを学ぶなら今がベストタイミング!

2025年が始まりました。
もし、あなたがデータ業界のプロフェッショナルであり、まだAIを学び始めていないのなら、少し危機感を持つべきかもしれません。
AIは驚異的なスピードで進化しており、データインフラ業界に大きな影響を与えることは間違いありません。

しかし、焦る必要はありません。
今からでも遅くはないのです。
最適な学習のタイミングは? 答えはシンプルです。今、この瞬間です!

今すぐAIを学び始め、未来の無限の可能性を手に入れましょう。

16
15
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
16
15

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?