2025年も年末ですね。昭和100年、戦後80年、愛知万博から20年、そして大阪万博。IT業界では「2025年の崖」。区切りがいくつも重なった年でした。
AIで言えば、今年はAIエージェント元年とも呼ばれる一年。2010年代にも機械学習やディープラーニングの波はありましたが、2022年末のChatGPT公開以降のブームは質が違っているように感じます。技術進化と業務適用のスピードが桁違いに上がり、誰でも使えるようになったことで影響は全方位に広がりました。AI活用は喫緊のテーマです。今回は、その中でも気になるワード「レイクハウス」について徒然に書きたいと思います。
レイクハウスは、データレイクとデータウェアハウス(DWH)の機能を兼ね備えた基盤として、2020年前後から出てきており、生成AIの普及でテキスト・画像・音声といった非構造データの価値が高まったことで再注目されています。文書や画像をベクトルに変換して蓄え、ガバナンスとともに管理・活用できるようなプラットフォームのイメージです。既にデータレイクやDWHを整備している企業ほど、どう拡張・移行するかが悩みどころでしょう。
データ活用基盤の考える上での収集→蓄積・加工→活用の流れの考え方や構成単位により考え方は色々あるかもしれません。少し、単純化して、データレイクの基本機能からコンパクトに考えていくと、以下のようなイメージになるかと思ってます。
①データレイクの基本機能(最小イメージ)
構造・非構造データの保管
取り込みと整形の基盤(ETL)
データ管理(権限・監査・品質)
②生成AI時代に追加で必要になる最小要素
取り込み機能の拡張としてのETV(ベクトル化までのパイプライン)
ベクトルDBとベクトル検索
AIゲートウェイ等での外部連携(または外部ベクトルDBとの連携)
出典や利用履歴等のメタデータの追加管理
要するに、文書取り込み→分割→埋め込み生成→(レイクハウス内または外部ベクトルDBへ格納)→検索→LLMとの連携の流れ、RAG(Retrieval-Augmented Generation:検索拡張生成)の流れを支える機能群を追加の要素と考えられます。現時点では、①+②が最小の要素かなと考えてます。主要クラウドの機能で実現可能ですし、少し悩みもクリアになりませんでしょうか。
2025年はAIエージェントの年でもありました。定義は人それぞれですが、MCP(Model Context Protocol)やAIゲートウェイ(モデル・ツール・社内システム接続の中継)といった外部との規格等も登場し、チャット中心の活用から業務システム連携へと一段進んだ実感があります。だからこそ、前提となるその内側のデータ整備とガバナンスにスポットを当てて見ました。技術の進化や新たなワードもどんどん出てきてめまぐるしい状況が続きますが、AI活用、データ活用に向けた基盤のあり方、どう整えるか、来年も現場目線で悩みながらも考えていきたいところです。
良いお年をお迎えください。