Solr Advent Calendar 2016 の11日目です。
はじめに
9月に 改訂新版 Apache Solr 入門 を読み、Solrを触り始めました。
この記事では、Solrを2ヶ月ほど触った素直な感想について記載します。
私の前提知識
形式言語のさわりと、自然言語処理のさわりの知識はありました。
そのため、検索エンジンでの重要な要素のひとつ「形態素解析」については既知でした。
検索エンジンを扱うにあたって重要な知識ではありますが、その知識は後述の入門書を読んでからのほうが良いです。
自然言語処理の基礎については、この本が良いです。
大学の教科書とのことですが、例示が豊富で、かつこの本で内容が簡潔しているため、おすすめです。
単語解析の章まで読めば十分です。
改訂新版 Apache Solr 入門
「日本語で丁寧に説明されたSolr本はこれくらいだ」と言われて渡されました。
「検索エンジンとは」から始まり、ドキュメントの扱い、検索の仕方、...、クラスタリング、チューニングと、基本的な点は全て網羅されています。
まずは4章まで読めば検索できるようになります。
入門書に書いてあるとおりに操作すればSolrの起動から検索までできるようになります。
その後
ここまでに示した内容のみで、かんたんな検索はできるようになります。
日本語の検索のみであれば上述の本を読めば解決します。
私が実感している「全文検索」以外のSolrの特徴として、空間検索が優秀という点が挙げられます。
MySQLの範囲検索とは異なり、地球が楕円球であること考慮したロジックが組み込まれているため、データの完全一致検索より柔軟な検索をしようとした場合は、絶対にSolr ないし何かしらの検索エンジンを用いた方が良いです。
最後に
まだ検索エンジンを学び始めて間もない身のため大したことを書けませんでした。
今年のSolr Advent Calendarでの他の方の投稿を見る限りでも、R&D寄り、職人気質のある内容が多いため、これからも修行していきます。
Solr 6の多次元データ構造を扱ってみたい...