エキスパートから学ぶ：BigData BoutiqueとAivenがOpenSearch®について語る

Posted at 2023-08-30

Learn from the experts: BigData Boutique and Aiven talk about OpenSearch®の翻訳です。

2023年2月22日

#専門家に学ぶ：BigData BoutiqueとAivenがOpenSearch®について語る

パネルのタイトルにやられました："10K以上のOpenSearch®クラスタを実運用で維持することから学んだ教訓"

パネルと参加者

2023年1月17日、AivenとBigData BoutiqueはLessons learned from maintaining 10K+ OpenSearch® clusters in productionと題したOpenSearch® Fireside Chatを開催しました。この対談は、OpenSearch®が2021年1月のプロジェクト開始以来、わずか2年でここまで進歩したことを物語っています。

このセッションの種は、昨年のUptimeカンファレンスでBigData BoutiqueのCTOがbuilding a future-proof data serving layerについて話したときに蒔かれました。

BigData Boutiqueは、ビッグデータ技術にフォーカスしたプレミアムコンサルティング会社で、ElasticsearchとOpenSearchの専門知識で知られています。パネリストは以下の通り：

Itamar Syn-Hershko、CTO兼創設者、彼はOpenSearchとElasticsearchの初期（2010年かどうか）から働いている。Itamarは、世界中のOpenSearchを使用している企業にサポートを提供する専門家のチームを率いています。
Arkadii Chumachenkoもその一人だ。BigData BoutiqueのOpenSearchサポートエンジニアで、Arkadiiは幼稚園の頃からコンピュータをいじっていました。
Lior Friedler は OpenSearch のエキスパートで、BigData Boutique の BigData Ops チームのリーダーです。彼の日常は、データモデリング、データインフラストラクチャのスケーリング、大規模データプラットフォームのコストとパフォーマンスの最適化を中心に展開されている。

Aivenの代表は、オープンソースプログラムオフィスのメンバーであり、OpenSearchのコントリビューターでもあるAndriy Redko が務めました。

パネルはLorna Mitchellがリードしました。彼女はセッション当時、AivenのPrincipal Developer Advocateでした。ローナさんは、講演者、著者、オープンソースのスペシャリストとして有名です。

概要

OpenSearchについてこれだけの経験を一度に得られる機会はめったにない。パネリストは、検索技術がどのように機能するか、システムは調整される必要があること、「ベクトル」のような用語は数学的な意味だけでなく、テキストベース/言語的な世界でも意味を持ち得ることなど、少なくとも基本的な認識を前提としています。

一方で、もしあなたがOpenSearchがElasticsearchの単なるバージョン違いではない理由や、チューニングに関する気の利いたヒント、マネージドサービスが（少なくとも現時点では）最良の答えかもしれない理由、そして関連するテクノロジーが今後数年の間にどこへ向かうのかについてもう少し知りたいのであれば、この講演はうってつけのものだ。

私のこだわり？私はテキストが大好きで、テキストのマークアップと操作に長年関心を持ってきました。ですから、OpenSearchはドキュメントのハンドリングとインデクシングの面で強い魅力があります。バックアップのファンでもあります（小さな会社でバックアップシステムを運用したことがありますし、オブジェクト指向データベースのバックアップシステムを書いたこともあります）。そして、時の試練に耐えるテクノロジーを高く評価している。後述するように、これらのことはすべて、私がこのパネル🙂を楽しめるかもしれないという手がかりになる。

私の見解

パネルの価値を考える一つの方法は、議論されたトピックを見直すことである。このセッションでのローナの主な質問は次のようなものだった：

他のものを使うべきときに、人々はいつOpenSearchを使うのか（そしてそれは重要なのか？）
パネリストたちはOpenSearchの技術スタックのどこが気に入っているのか？
OpenSearchの認知度はどの程度広がっているのか、またそれはマネージドサービスの利用可能性と関連しているのか？
OpenSearch のパフォーマンスを向上させるためのベストプラクティスは何か？
最後に、参加者は今後5年間にどのような発展を望むか尋ねられた。

しかし、これだけではパネルの要点がわからないので、印象に残ったことをいくつか紹介しよう。

楽しい名言

"他のデータベースシステムのように "インデックスを作成する "のではなく、"インデックスを作成しない "のです。

Lior, 15:00

これは重要だと思う。OpenSearchは基本的に検索エンジンなので、インデックス付けはその動作の核となるものです。例えばリレーショナル・データベースでは、カラムのインデックスを選択することができますが、それは意識的な選択であり、オーバーヘッドは異なります。

開発者にとっては、非常にシンプルな製品です。

Andriy, 16:30

Apache Lucene®は、20年以上にわたって活発に開発されている優れたコアテクノロジーであり（Elasticには、その歴史に関する興味深いページがある）、OpenSearchは、Luceneの複雑さを「隠し」、アクセスしやすくするための適切な抽象化レベルを提供する。

"スキーマレスデータベースだと思わないでください"

Lior, 23:50

これは時々忘れられることです。ドキュメントには常にスキーマがあり、それを指定しなければOpenSearchがスキーマを推測するだけです。そして、予想されるかもしれませんが、あなたの言いたいことを「推測」させることは、時に驚きを生むことがあります。

"本当に必要でない限り、超高価なアナライザーは使わないこと"

Lior, 24:18

ベストプラクティス」というトピックに対する具体的な回答の価値が特に印象的だった（実際には、この議論は前回のマネージドサービスの考察と重複していたが）。(適切な)モニタリングの重要性が明確に感じられ、データのバックアップだけでなく、(忘れがちな!)復元可能かどうかのチェックの必要性についても良い議論が交わされた。

私の欠点は、すでに壊れてしまったシステムしか見られないことです。

リオール, 29.

その他の考え

プロジェクトが成熟するにつれて、より多くの賢明なコンフィギュレーション選択がデフォルトで "on "になっていると聞いて安心した。

繰り返し出てくるトピックがいくつかあることに気づきましたが、これらはすべて「今後に期待すること」のセクションでも出てきたと思います：

Apache Luceneのコア機能をさらに提供し、Luceneの開発を追跡する。
クラスタ機能を向上させ、規模に応じた運用を改善する。
サーバーレス・オファリングへの展望
さらに多くの（記述された）言語をサポートし、より多くの統合を行う。
ベクトル検索のサポート - 単語とそれに関連する単語の検索をサポート。
ML/AIのサポート

どれが一番ワクワクするだろうか？間違いなくベクトル検索です。これはエキサイティングな可能性を開くと同時に、より多くの統合を提供することを期待しています。

(ベクトル検索が何なのか知らない人のために、Federico CesconiのText mining using vectors explained to business peopleから始めるのが良いと思う。テキストデータ、言語学研究、数学の素晴らしい交差点にある)。

パネルが言うように、OpenSearchの未来はとても明るいようで、さらに多くのアプリケーションスペースで使われるようになるでしょう。

Apache Luceneは、Apache Software Foundationの米国およびその他の国における商標です。

Elasticsearchは、米国およびその他の国で登録されたElasticsearch BVの商標です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up