1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Elasticsearchを活用した高度な検索機能の実装方法

Posted at

はじめに

Elasticsearchは、大量のデータを迅速かつほぼリアルタイムで保存、検索、分析できる強力な検索および分析エンジンです。
今回は、検索結果のランキングを改善するためのアプローチを中心に、Pythonを使ってElasticsearchと連携する実装方法について解説します。サンプルコードを使い、具体的な実装手順を紹介します。

準備

ElasticsearchをPythonで操作するために、elasticsearch-pyライブラリを使います。
まず、以下のコマンドで必要なパッケージをインストールします。

pip install elasticsearch

次に、ElasticsearchクライアントをPythonで初期化します。

from elasticsearch import Elasticsearch

# Elasticsearchクライアントの初期化
es = Elasticsearch("http://localhost:9200")

これで、ElasticsearchとPythonの連携ができるようになりました。

1. 基本的なマッチクエリの実装

マッチクエリとは、指定されたキーワードに基づいて一致するドキュメントを検索するための基本的なクエリです。
ユーザーが入力したキーワードに基づいて、descriptionフィールドに一致するドキュメントを検索します。

{
  "query": {
    "match": {
      "description": "dog"
    }
  }
}

これをPythonで実行するコードは以下の通りです。

query = {
    "query": {
        "match": {
            "description": "dog"
        }
    }
}

response = es.search(index="your-index-name", body=query)
print(response)

解説:
このクエリは、descriptionフィールドに「dog」という単語が含まれるドキュメントを検索します。Elasticsearchのmatchクエリは、フリーテキスト検索の基本となります。

2. 関数スコアクエリによるランキングの改善

次に、検索結果のランキングを改善するために、function_scoreクエリを使用します。特定のフィールド(たとえばpopularityフィールド)を使用して、スコアリングに影響を与えます。

{
  "query": {
    "function_score": {
      "query": {
        "match": {
          "description": "dog"
        }
      },
      "field_value_factor": {
        "field": "popularity",
        "factor": 2.5,
        "missing": 0
      },
      "boost_mode": "sum"
    }
  }
}

Pythonでの実装は以下のようになります。

query = {
    "query": {
        "function_score": {
            "query": {
                "match": {
                    "description": "dog"
                }
            },
            "field_value_factor": {
                "field": "popularity",
                "factor": 2.5,
                "missing": 0
            },
            "boost_mode": "sum"
        }
    }
}

response = es.search(index="your-index-name", body=query)
print(response)

解説:
このクエリでは、popularityフィールドの値を考慮してスコアリングしています。popularityが高いドキュメントは、検索結果で上位に表示されやすくなります。boost_modesumに設定することで、popularityフィールドの影響をスコアに加算しています。

3. 複合クエリによる条件付き検索

複数の条件を組み合わせた検索が必要な場合は、boolクエリを使用します。たとえば、必須の条件と追加の条件を組み合わせたクエリを作成できます。

{
  "query": {
    "bool": {
      "must": {
        "match": {
          "description": "dog"
        }
      },
      "should": [
        {
          "match": {
            "tags": {
              "query": "pet",
              "boost": 3
            }
          }
        }
      ]
    }
  }
}

これをPythonで実装すると以下のようになります。

query = {
    "query": {
        "bool": {
            "must": {
                "match": {
                    "description": "dog"
                }
            },
            "should": [
                {
                    "match": {
                        "tags": {
                            "query": "pet",
                            "boost": 3
                        }
                    }
                }
            ]
        }
    }
}

response = es.search(index="your-index-name", body=query)
print(response)

解説:
このクエリでは、descriptionに「dog」が含まれるドキュメントを必須条件(must)として指定しつつ、tagsフィールドに「pet」が含まれる場合にはスコアをブースト(boost)するという条件を追加しています。これにより、関連するドキュメントが優先的に表示されます。

4. 複雑なランキングロジックの構築

さらに複雑なランキングロジックを作成するには、複数の特徴量を組み合わせて検索結果のスコアリングに利用できます。以下の例では、function_scoreクエリとboolクエリを組み合わせています。

{
  "query": {
    "function_score": {
      "query": {
        "bool": {
          "must": {
            "match": {
              "description": "dog"
            }
          },
          "should": {
            "term": {
              "category": {
                "value": "animal",
                "boost": 2
              }
            }
          }
        }
      },
      "field_value_factor": {
        "field": "likes",
        "factor": 1.8,
        "missing": 1
      },
      "boost_mode": "multiply"
    }
  }
}

Pythonでの実装は次の通りです。

query = {
    "query": {
        "function_score": {
            "query": {
                "bool": {
                    "must": {
                        "match": {
                            "description": "dog"
                        }
                    },
                    "should": {
                        "term": {
                            "category": {
                                "value": "animal",
                                "boost": 2
                            }
                        }
                    }
                }
            },
            "field_value_factor": {
                "field": "likes",
                "factor": 1.8,
                "missing": 1
            },
            "boost_mode": "multiply"
        }
    }
}

response = es.search(index="your-index-name", body=query)
print(response)

解説:
このクエリは、descriptionフィールドに「dog」が含まれるドキュメントを検索し、categoryが「animal」であればブーストします。また、likesフィールドの値をスコアに乗算することで、人気の高いドキュメントが上位に表示されやすくなります。

実装のポイント

  • パフォーマンス: 検索クエリが複雑になるほど、パフォーマンスに影響が出る可能性があるため、適切なインデックス設計やクエリの最適化が重要です。
  • スコアリングの調整: 特定のフィールドに対するブースト値やスコアリングの方式を調整することで、検索結果の精度を向上させることができます。
  • ログの活用:

際のユーザー行動データをログに取り、検索結果のランキングロジックを改善していくことも効果的です。

まとめ

このブログでは、Elasticsearchを使った高度な検索機能の実装方法をPythonコードと共に紹介しました。matchクエリによる基本的な検索から、function_scoreクエリやboolクエリを使った複雑なランキングロジックまで、さまざまな検索機能を実装することが可能です。これらの技術を活用して、よりユーザーに関連性の高い検索結果を提供できるシステムを構築しましょう。

備考

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?