NTTコムの新サービス「rokadoc」を試してみた!使い方と可能性を解説
📝 はじめに
NTTコミュニケーションズが非構造化データの変換技術 **「rokadoc
」**を公開しました。現在ベータ版が公開されており、誰でも試すことができます。
当技術により、パワーポイントやエクセルといった図を含む複雑なドキュメントを、AIが扱えるデータ構造に変換することで、RAGの精度向上に期待。
本記事では、実際に rokadoc を使ってみた感想や機能紹介、今後のRAG精度向上への可能性を探ってみます。
🚀 rokadocとは?
-
日本語特化の生成AIを用いたドキュメント検索サービス
- ファイル形式は、PDFに加え、Word, Excel, PowerPointに対応(2025/2/22現在)
- 表や画像、画像の中のテキスト、縦書き・横書きが混在していても検索可能
- インターネットに接続させず、ローカルな環境で利用可能
- 現在ベータ版が提供中(無料で試せる)
公式サイト: rokadoc
🛠 rokadocのセットアップ
1. ベータ版の申し込み
現在、ベータ版を利用するには公式サイトから申し込みが必要です。
簡単に登録できました。
- 必要な情報
- 氏名
- メールアドレス
🔍 実際に試してみた
📂 基本機能
機能 | 説明 |
---|---|
ドキュメントアップロード | フォルダから選択、またはドラッグ&ドロップで可能 |
構造化データへの変換 | ドキュメントのアップロードと共にデータの変換も完了 |
変換後データの編集 | Markdownベースのエディタで直感的に編集可能 |
コピー$ペースト機能 | 変換後のデータとボタンひとつでコピー可能 |
データのエクスポート | JSON形式でダウンロード可能 |
チャット検索機能 | データ変換後のドキュメントを元に、RAG動作確認可能 |
RAG構成の変更 | 参照するインデックス数やタグ等のカスタマイズが可能 |
フォルダ管理 | ドキュメントをフォルダ単位で整理 |
タグ付け | 検索性を向上するためのタグ機能 |
🎨 使用感
✅ ドキュメントのアップロードは非常に直感的でわかりやすい
✅ ドキュメント内のグラフ等も構造化データに変換できた
- NTTの中期経営計画のpdfをサンプルデータとし、
rokadoc
へアップロードさせた。以下の赤枠に注目すると、矢印や吹き出し等を含んだグラフ部分についても、しっかりと構造化されていることが確認できる。
✅ RAG検索の精度も問題ない
💡 こんな使い方ができそう
- 社内規定やナレッジ等のドキュメント検索
- (主にレガシー)システムの設計書等のドキュメントのナレッジ化・検索
- 個人のナレッジ検索利用
🛑 気になった点
-
ファイルの一括アップロード可否や容量制限について
- 社内利用を想定すると、過去の大量のドキュメントをまとめてアップロードできると嬉しい
- 外部ツールとの連携がどこまで可能か?
🔚 まとめ
- rokadocにより、ドキュメント内のグラフ等も簡単に構造化データに変換できた
- 社内規約やナレッジ検索、各種案件のドキュメント検索等、活用場面は非常にたくさんありそう
現在、各社でRAG利用を検討する企業は多いですが、従来のデータ形式ではAIがうまく読み込めず、RAGの精度が思うように出ない、結果的に途中で断念してしまうという例も多いようです。
そこで、前処理として、AIフレンドリーなデータ形式(マークダウン形式)にさせようというアプローチがあります。新規に作成するドキュメントや新規案件であればそれで問題ないかもしれません。
しかし、過去のレガシーシステムの設計ドキュメントやナレッジ資料等は各所に膨大な数あるため、それらをすべて手作業でAIフレンドリーな形に変換するのは、途方もない作業になってしまいます。
今回のrokadocは、今後のアップデート次第でこのようなケースへの対応を容易に実施できる革新的なツールになり得るかもしれません。今後の動向は要チェックです。
現在無料で試せるので、気になる方はぜひチェックしてみてください!