僕は兵庫県出身、金沢知広と言います。
早稲田で工学(物理)の学士号をとったあと、京大の院の物理系の研究室に進学し、一年でやめて渡米しました。
今回は僕がなんで渡米して、どういう人生で的なことは一切書きません(笑)
今日はその辺を全部すっ飛ばして、僕のチームが開発したAI用データベースを紹介させてください。今後改めて自分についての記事を需要があれば書こうかとも思ってますので、フォロー等しておいてもらえればいいかなと思います。
CapybaraDB (カピバラDB)
僕の作ったデータベース、カピバラDBは、厳密には「仮想データベース」という括りになります。これは、複数のデータベースとパイプラインを合わせ、一つのデータベースとして機能するシステムのことを言います。よって、厳密にはデータベース以外の要素も含んでいるため、「仮想」というわけです。
でも、AIに特化したデータベースって何?と思うかもしれません。これはもう少し具体的にいうと、「意味検索に特化した」データベースです。意味検索とは、厳密なキーワードの一致ではなく、「大体の意味」の一致によってデータを取り出す手法のことを言います。
この「意味検索」、厄介なのがデータの保存過程です。意味検索のアルゴリズムが、ベクトルデータに依存しているため、テキストデータとベクトルデータ、場合によっては写真等のメディアデータをうまく参照して、関係性を崩さないようにインデックスする必要があるのです。
LangChainやLlamaIndex等のフレームワークの開発が直近の1・2年、活発だった理由の1つは、このデータ管理の煩雑さを抽象化して、開発者が一切その辺を触らなくていいようにしたい、という背景があったからなんですね。
カピバラDBのチームでは、この意味検索に関わる煩雑なデータ処理のプロセスを、データベース側に移行させる、というアプローチをとっています。つまり、今までクライアント側で行なっていた、データの処理をデータベース側が引き受けてくれる、ということなんですね。
かなり書き殴りで申し訳ないですが、今日は時間がないため、また後日じっくり解説させてください。
また、本日プロダクトハントにローンチしたので、よければ Upvote お願いします。
では、Happy building!