More than 3 years have passed since last update.

[Elasticsearch] analyzerを使う前に把握しておきたい内容まとめ

Last updated at 2021-01-11Posted at 2020-09-24

テキスト分析（=検索に最適なフォーマットに変換するプロセス）を行ってくれるanalyzer。
Elasticsearchにおいて、最も重要な機能のうちのひとつです。
今回はそんなanalyerを使う前に、最低限把握しておきたい内容をまとめました。

環境

OS: Windows10
Elasticsearch: 7.9.1
Kibana: 7.9.1

本題

最低限把握しておきたい内容を以下にまとめます。

1. analyzerを構成する3つの要素

analyzerはcharacter filter, tokenizer, token filterの3つから構成されており、それぞれの役割は以下の通りです。

名称	内容
Character filters	文字列に対し、Tokenizerで分割する前に必要な処理（追加、削除、変更）を行う。前処理的ポジションで、使用は任意。
Tokenizer	文字列を単語レベルに分割する役割を持つ。必須項目。
Token filters	Tokenizerで分割された内容に対し、必要な処理（追加、削除、変更）を行う。後処理的ポジションで、使用は任意。

例として、
『こゝろも踊る軽やかｻｰﾊﾞｰ』
という文章を

Character filters：icu_normalizer, kuromoji_iteration_mark
Tokenizer：kuromoji_tokenizer
Token filters：kuromoji_stemmer, ngram

でテキスト分析すると以下のようになります。

※各々の役割については、

に詳しく記載されていますので、そちらをご覧ください。

2. テキスト分析の対象

続いて、テキスト分析の対象になるのは何なのか把握しておきましょう。

Elasticsearchに保存されているデータ
クライアントに入力されて検索されるデータ

の2つになります。

上記2つは原則同じテキスト分析を用いるのが好ましいとされており、デフォルトでは同じ方法で分析されます。
が、どうしても異なる分析方法を使いたい場合は以下のように、インデックスを作成する際、mappingsでsearch analyzerを記述して、後者（=クライアントに入力されて検索されるデータ）の分析方法を別途指定します。

PUT my-index-000001
{
  "settings": {
    "analysis": {
      "filter": {
        "autocomplete_filter": {
          "type": "edge_ngram",
          "min_gram": 1,
          "max_gram": 20
        }
      },
      "analyzer": {
        "autocomplete": { 
          "type": "custom",
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "autocomplete_filter"
          ]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "text": {
        "type": "text",
        "analyzer": "autocomplete", 
        "search_analyzer": "standard" 
      }
    }
  }
}

※上記はsearch_analyzer | Elasticsearch Reference [7.9] | Elasticの一部をそのまま拝借しました。

3. どうテキスト分析されるか確認する

対象が実際にどのようにテキスト分析されるか確認する方法も抑えておきましょう。
KibanaのDev Toolsをを開き、左側の入力欄に以下のように入力＆実行します。

POST インデックス名（①）/_analyze
{
  "analyzer": "使用したいanalyzer名（②）",
  "text": "テキスト分析したい文字列（③）"
}

ここで、

①インデックス名：対象のインデックス名
②analyzer：独自で定義したanalyzer or Elasticsearchでデフォルトで使えるanalyzer（「4. デフォルトで使えるanalyzer」参照）
③text：テキスト分析したい文字列

と置き換えて実行するようにしてください。

例えば、「2. テキスト分析の対象」で出てきたインデックスに対し行う場合は、

インデックス名：my-index-000001
analyzer：autocomplete
text：スラスラ書ける快適エディタ

となり、Kibanaでの実行内容は以下の通りとなります。

POST my-index-000001/_analyze
{
  "analyzer": "autocomplete",
  "text": "スラスラ書ける快適エディタ"
}

4. 設定なしで使えるanalyzer

Elasticsearchでは以下のanalyzerが独自に設定しなくても使えます。
（独自設定のサンプルについては、「2. テキスト分析の対象」に記載のインデックス定義（my-index-000001）が該当しますので、そちらをご参照ください。）
何も指定しない場合は、Standard Analyzerが使われます。

名称	指定方法(※）	説明
Standard Analyzer	standard	文法ベースのトークン化を行う（デフォルト）
Simple Analyzer	simple	数字、スペース、ハイフン、アポストロフィなどの文字でないもの（非文字）でテキストをトークンに分割した後、非文字を破棄し、大文字を小文字に変換する
Whitespace Analyzer	whitespace	空白文字で分割を行う
Stop Analyzer	stop	基本はSimple Analyzerと同じだが、ストップワード（the, a, forなど）を削除する
Keyword Analyzer	keyword	入力文字列全体を1つのトークンとみなす
Language Analyzers	english、他	指定言語（リンク先のページに記載のもの）のテキスト分析を行う(日本語は対象外）
Fingerprint Analyzer	fingerprint	フィンガープリントアルゴリズムを用いる

※「3. analyzerでの分析結果確認方法」のanalyzer（②）の位置に指定します。

5. 日本語分析に使えるプラグイン

日本語のテキスト分析を行うには、Elasticsearchがもともと搭載している機能だけでは不十分なため、別途プラグインを使用します。

代表的なのは、以下でしょうか。
必要なものをインストールして使用してください。

名称	説明
Japanese (kuromoji) Analysis Plugin	atilikaによって作られた日本語形態解析エンジン Javaベース
Japanese (sudachi) Analysis Plugin	ワークス徳島人工知能NLP研究所によって作られた日本語形態解析エンジンこちらもJavaベース
ICU Analysis Plugin	tokenizerというよりは、ICU Normalization CharFilter を前処理に用いる

kuromojiとICUについては、「1. analyzerを構成する3つの要素」でも一度記載していますが、

Elasticsearchを日本語で使う設定のまとめ | Qiita

に、またsudachiについては、

ElasticsearchでSudachiとベクトル検索を組み合わせて使う方法 ①Sudachi導入編 | AI SHIFT

に詳細に記載されていますので、そちらをご参照ください。

終わりに

analyzerの設定によって検索結果が大きく異なってきます。
まずはポイントを押さえて、正しく設定できるようにしていきたいところ。

参考

本文中に記載していませんが、参考にさせていただいたページ一覧です。

1. analyzerを構成する3つの要素

Anatomy of an analyzer | Elasticsearch Reference [7.9] | Elastic

4. 設定なしで使えるanalyzer

5. 日本語分析に使えるプラグイン

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up