本記事は、Flutter Advent Calendar 2023の18日目の記事です。
概要
- 現在開発中のアプリにFirestoreの全件検索サービスを導入しました。(Meilisearch)
- 様々なサードパーティの中で、なぜMeilisearchを選んだのかを比較した結論を纏めます。
前提
- チャット機能を開発中。
- データはFirestoreに保存を行っており、投稿したチャットの全件検索を行う必要が出てきた。
- Firestore単体での投稿内容の検索には現状限界があり(※)、今後の拡張性を考えて外部サービスを採用。
- ひとまず導入を試みたかったので、FirebaseExtenstionsを利用。
※Firebaseの公式でもFirestoreの全件検索はサードパーティー使用が推奨されています。
Cloud Firestore では、ネイティブ インデックスの作成やドキュメント内のテキスト フィールドの検索をサポートしていません。Cloud Firestore データの全文検索を有効にするには、専用のサードパーティの検索サービスを使用します。
各種サードパーティのサービスを自前で構築する方法もありますが、Firebase Extensionsを使うと効率化できそうだったので、今回初めてExtensionsを活用して構築しました。
また、私自身全文検索の検索アルゴリズムに深い理解がある訳でもないので、予めご了承頂きますようお願いします。
全文検索の仕組みについては以下の記事が参考になりました。
FirebaseExtensionの検索サービス一覧
Firebase Extensions Hubには現状たくさんの全件検索サービスが用意されています。
現状使えそうな全件検索のFirebaseExtensions
現状(2023/12)6個のサービスが用意されていますが、参考文献が豊富な点や現実的に導入できそうなものを参考に以下4つのサービスを比較対象としました。
各サービスのDart Packageもありドキュメントもほとんど豊富な印象でした。
Algolia
Typesense
ElasticAppSearch
Meilisearch
私の検索サービス選定基準
- 値段が安価
- 日本語に対応しているか
- 高可用性
- 導入しやすさ
Typesenseの公式サイトにかなり詳しい上記4点の比較一覧を作成されているので、詳細はこちらを見ると恐らく分かりやすいです。
判断した結果まとめ
項目 | Algolia | Typesense | ElasticAppSearch | Meilisearch |
---|---|---|---|---|
安価 | × | ○ | ○ | △(最低30$~) |
日本語対応 | ○(こちら参考) | △(こちら参考) | △(後述) | ○ |
高可用性 | ○ | ○ | ○ | △ |
導入しやすさ | ◎ | - (未導入) | × | ○ |
Meilisearchに決定。
全サービス一長一短の部分があるかと思いますがMeilisearch
を採用しました。
導入理由
- 導入が簡単そうだった。
- 試したところ日本語の精度が高かった。
- 値段が現実的に運用できそうな価格だった。
- 最低プラン: 30
$
+ 10万リクエストまで無料(超過以降は0.2$/1k req)
- 最低プラン: 30
- ドキュメントが豊富なのと、サポート体制が比較的整っていそうだった
- 公式Discordにて質問対応されているなど
こちらの方の記事がMeilisearchの特徴を纏めておられて、とても分かりやすかったです。
使ってみた感想
導入が簡単で日本語の精度も割と高く、これから運用していく段階ではありますが現実的に使えそうだなという印象です。
FirestoreExtensionsでMeilisearchを導入した後、Meilisearchにデータを送信し、Meilisearch標準機能のプレビューで検索結果を確認できました。
挙動チェック一例
プレビュー画面に仮のテキスト文言があると仮定します。(テストなう)
その他テキストでも大体は意図した形でヒットしてくれたので今の所大きな問題は出ておりません。
内部的な日本語形態素解析としてはlinderaが用いられているようで、こちらのおかげかもしれません。
Meilisearchのデメリット
高可用運用に少し不安
↓を見るにpro以上のプランであれば高可用性に対応されていますが、まだ包括的なサポートはできていない模様。
Challenges
While it can handle a considerable amount of data, the open-source version of Meilisearch (self-hosted) may not be the best fit for applications requiring a distributed architecture to handle massive amounts of data across multiple nodes or clusters.Meilisearch Cloud, on the other hand, already provides scalability and high availability with its Pro and Enterprise plans.
ただ、k8sでのデプロイも開発チームの開発タスクとして積まれているようで今後は改善されるかもしれません。
Tokenizer等のカスタマイズができない
日本語性能がいいので現状に不満はありませんがカスタマイズができる場所が見当たらず、恐らくElasticsearchのようにTokenizerのカスタマイズは現状厳しそうです。
他3サービス不採用理由
前提としてあくまでも私が求める要件にマッチしなかっただけで、各PJの要件次第ではどれも選択肢になりうると思います。
Algolia
値段がネックで諦めました。
今年の4月から無料枠が増えたという記事も見かけましたが、それでも他サービスとの値段を改めて比較した結果、選択肢から外しました。
ただ、評判を見る限りFirebaseExtensionによるAlgoriaの導入自体は比較的容易なようなので、とにかくスピードを求めているPJ等で使ってみると良いのかなと感じました。
Typesense
日本語対応に不安があったため、選択肢から外しました。
今候補として挙げている検索サービスで用いられるアルゴリズムは、事前に索引(インデックス)を準備(抽出)して、その値とマッチする値を探す仕組みで検索を実現してくれています。
抽出する代表的なアルゴリズムとして 形態素解析 と N-gram があり、TypesenseではN-gramのみ対応しているようです。
形態素解析=単語単位
、N-gram=文字単位
で抽出する認識で、日本語検索精度に少し不安を感じたため一旦導入はスルーとしました。
Elastic App Search
日本語検索精度をカスタマイズできなかった為、候補から外しました。
※ Elasticsearch の話ではないのでご注意。
Elastic App Search詳細は以下引用させて頂きます。
Elastic社のElastic Enterprise Searchというサービスの一部で、
全文検索エンジンのElasticsearchを抽象化して、アプリケーション検索用に使いやすくしたサービスです。
検索サービスといえば私自身「Elasticsearch」のイメージがあったので同類だと思っていましたが、「Elastic App Search
」は検索用に使いやすくしたサービスのようです。
一度実際に導入を試みたのですが、私の手元の動作確認では日本語検索がイマイチ精度が高くなく、結局採用を見送りました。
例: テストというデータを「テスト」で検索しても一致しない、など。
Elastic Search Cloudの導入やFirebaseExtensionの導入自体は比較的簡単だったため少し残念でした。
日本語精度の考察 (Elastic App Search)
(恐らく)Elastic App Search
ではanalyzerやtokenizerが固定されており、カスタマイズできないようです。そのデフォルト設定が日本語向けにはなっていないかもしれない?
日本語は文字の切れ目が英語と異なっており検索アルゴリズムとは相性の悪い仕組みの言語なので、形態素解析ではkuromoji_tokenizerなど、kuromojiプラグインを利用することで日本語の精度がより向上します。(n-gramも組み合わせることでより向上)
調べてみた感じkuromojiプラグインも導入できる気配が無かったため、これに時間掛けるのも勿体無いと思い諦めてMeilisearchの導入を決定しました。
まとめ
Meilisearch自体はまだ比較的新しいサービスなようで、2019年から徐々に普及されており、
最近はコンソール画面にBeta機能として新機能(Analytics)が追加されていたり、
サポート対応として公式Discordで質問ができたり、(0~2日で返事は返ってくる)
開発RoadMapが提示されていたりと、かなり活発に開発されている印象を受けました。
検索サービスの導入にあまり知見が無いけども、とりあえず日本語を考慮した形でFirestoreの全件検索サービスを導入してみたい。みたいな方にはMeilisearchを候補の1つとして挙げてみると良いかもしれません。
いちユーザのまとめ記事ではありますが、導入検討時の参考になれば幸いです。