0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Introducing Collations to Databricks | Databricks Blogの翻訳です。

本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

データ処理における言語の違いを容易に考慮

サマリー

  • コレーション(collation)によって、100以上の言語における言語、コンテキストを考慮したデータベースを実現し、ユーザーが期待した通りにテキストを取り扱えるようにします。
  • 英語名を検索するための大文字小文字を区別しない比較、非英語言語のアルファベットの並び替え、アクセントが重視される検索のようなタスクでコレーションを使用します。
  • 大文字小文字を区別しない結果を得るための従来の方法と比較して、最大22倍高速になりました。
SELECT 'Hello world!' COLLATE UNICODE,
       'Zdravo svete!' COLLATE SR,
       'Γειά σου, Κόσμε!' COLLATE EL,
       'Здравствуй, мир!' COLLATE RU,
       '你好, 世界!' COLLATE ZH,
       'Bonjour le monde!' COLLATE FR,
       'Hallo, Wereld!' COLLATE NL,
       'Hallo Welt!' COLLATE DE;

グローバル企業のアプリケーション構築は、多様な言語と一貫性のないデータエントリーの取り扱いを意味します。ドイツ語の"Apfel"の後の"Äpfel"のソートや、フランス語の"c"としての"ç"の取り扱いをどのようにしたらいいのでしょうか?また、ユーザーが入力した"John Smith"や"john smith"をどのように取り扱い、これらが同一であるとどのように結論づけるのでしょうか?

コレーションは、言語や大文字小文字を考慮する方法でテキストの並び替えや比較に関するルールを定義することでデータ処理を円滑にします。コレーションによって、データベースが言語、コンテキストを考慮するようになり、ユーザーが期待するようにテキストを取り扱うようになります。

Databricksランタイム16.1(まもなく、Databricks SQLのバージョン2024.50のプレビューチャネルとDatabricks Delta Live Tablesでも)において、コレーションがパブリックプレビューで利用できることを共有できて嬉しく思っています。コレーションは、大文字小文字の区別やアクセントの区別のような、特定の言語の要件に合わせた文字列比較ルールを定義するための仕組みを提供します。この記事では、コレーションの動作原理、なぜ重要なのか、あなたの要件に合わせて適切なものをどのように選択すべきなのかについて探索します。

コレーションによって、ユーザーは自身のワークフローで実装するための、100以上の言語固有のコレーションルールから選択することができ、複数言語テキストデータベースにおけるソート、検索、結合のようなオペレーションを促進することができます。コレーションのサポートによって、レガシーデータベースシステムから移行を行う際に同じルールを容易に適用できるようになります。この機能は、大文字小文字やアクセントを区別しない比較を必要とする一般的なクエリーでは特に、パフォーマンスを劇的に改善しコードをシンプルにします。

コレーションサポートの主要な機能

Databricksのコレーションのサポートには以下が含まれています:

  • 大文字小文字やアクセントのバリエーションを持つ100以上の言語
  • 100以上のSparkとSQLのエクスプレッション
  • すべてのデータ操作との互換性(ジョイン、ソート、集計、クラスタリングなど)
  • Photon最適化実装
  • データスキッピング、z-order、リキッドクラスタリング、動的パーティション、ファイルプルーニングのようなパフォーマンス最適化を含むDeltaテーブルのネイティブサポート
  • レガシーデータベースシステムからの移行の簡素化

コレーションのサポートは完全にオープンソース化されており、Apache Spark™とDelta Lakeにインテグレーションされています。

あなたのクエリーでコレーションを使う

コレーションは、確立されているSparkの機能と堅牢なインテグレーションを提供しており、コレーションが適用されたデータでシームレスに機能するように、join、集計、ウィンドウ関数、フィルタリングのようなオペレーションが可能となっています。ほとんどの文字列表現はコレーションと互換性があり、CONTAINSSTARTSWITHREPLACETRIMなどの様々なエクスプレッションを活用することができます。コレーションの詳細はドキュメントをご覧ください。

コレーションによる一般的なタスクの解決

コレーションを使い始めるには、適切なコレーションを持つテーブルのカラムを作成(変更)します。ギリシャ語の名前ではEL_AIコレーションを使うことになるでしょう。ここで、ELはギリシャ語の言語IDであり、AIはアクセントを区別しない(accent-insensitive)であることを意味します。(アクセントを持たない)英語名では、UTF8_LCASEを使うことになるで粗油。

コレーションによって解放されるシナリオを説明するために、以下のタスクを実行してみましょう:

  • 英語名を特定するために大文字小文字を区別しない比較を用いる
  • ギリシャ名をソートするために、ギリシャアルファベットの並び替えを使う
  • アクセントを考慮しない方法でギリシャ名を検索する

デモンストレーションのために、ギリシャ語と英語両方のホメロスによるイーリアスの英雄の名前を格納するテーブルを使用します:

CREATE TABLE HeroNames (
    GreekName STRING COLLATE EL_AI,
    EnglishName STRING COLLATE UTF8_LCASE
);
INSERT INTO HeroNames (GreekName, EnglishName)
VALUES 
    ('Ἀχιλλεύς', 'Achilles'),
    ('Ἀγαμέμνων', 'Agamemnon'),
    ('Ὀδυσσεύς', 'Odysseus'),
    ('Διομήδης', 'Diomedes'),
    ('Αἴας ὁ Μέγας', 'Ajax the Greater'),
    ('Αἴας ὁ Λοκρός', 'Ajax the Lesser'),
    ('Μενέλαος', 'Menelaus'),
    ('Νέστωρ', 'Nestor'),
    ('Πάτροκλος', 'Patroclus'),
    ('Ἰδομενεύς', 'Idomeneus'),
    ('Ἕκτωρ', 'Hector'),
    ('Αἰνείας', 'Aeneas'),
    ('Πάρις', 'Paris'),
    ('Σαρπηδών', 'Sarpedon'),
    ('Γλαῦκος', 'Glaucus'),
    ('Πολυδάμας', 'Polydamas'),
    ('Πάνδαρος', 'Pandarus'),
    ('Δηίφοβος', 'Deiphobus'),
    ('Ἀντήνωρ', 'Antenor'),
    ('Αἰσύητης', 'Aesyetes');

利用可能なコレーションを一覧するために、テーブル値関数をクエリーすることができます - SELECT * FROM collations()

以降のクエリーでデータスキッピングを活用できるように、ALTERコマンドの後にANALYZEコマンドを実行すべきです。

ANALYZE TABLE HeroNames COMPUTE STATISTICS FOR COLUMNS GreekName, EnglishName;

これで、英語名を比較する際に明示的にLOWERを使う必要がなくなりました。また、内部ではファイルプルーニングも実行されます。

SELECT * FROM HeroNames WHERE EnglishName = 'achilles';

+---------+-----------+
|GreekName|EnglishName|
+---------+-----------+
| Ἀχιλλεύς|   Achilles|
+---------+-----------+

ギリシャ語のルールに沿ってソートを行うには、シンプルにORDER BYを使います。EL_AIコレーションなしにソートした結果と異なることに注意してください。

SELECT * FROM HeroNames ORDER BY GreekName;

+-------------+----------------+
|    GreekName|     EnglishName|
+-------------+----------------+
|    Ἀγαμέμνων|       Agamemnon|
|Αἴας  Λοκρός| Ajax the Lesser|
| Αἴας  Μέγας|Ajax the Greater|
|      Αἰνείας|          Aeneas|
|     Αἰσύητης|        Aesyetes|
|      Ἀντήνωρ|         Antenor|
|     Ἀχιλλεύς|        Achilles|
|      Γλαῦκος|         Glaucus|
|     Δηίφοβος|       Deiphobus|
|     Διομήδης|        Diomedes|
|        Ἕκτωρ|          Hector|
|    Ἰδομενεύς|       Idomeneus|
|     Μενέλαος|        Menelaus|
|       Νέστωρ|          Nestor|
|     Ὀδυσσεύς|        Odysseus|
|     Πάνδαρος|        Pandarus|
|        Πάρις|           Paris|
|    Πάτροκλος|       Patroclus|
|    Πολυδάμας|       Polydamas|
|     Σαρπηδών|        Sarpedon|
+-------------+----------------+

そして、検索においてアクセントを区別しない方法で行う場合には、例えばAgamemnon(ギリシャ語でἈγαμέμνων)を含む全ての行を取得するには、ギリシャ語のアクセントありバージョンにマッチするフィルターを適用するだけで大丈夫です。

SELECT * FROM HeroNames WHERE GreekName = 'Αγαμεμνων';

+---------+-----------+
|GreekName|EnglishName|
+---------+-----------+
|Ἀγαμέμνων|  Agamemnon|
+---------+-----------+

コレーションによるパフォーマンス

コレーションのサポートによって、大文字小文字を区別しない結果を得るために、高コストのオペレーションを実行する必要がなくなり、処理を円滑にし、効率性を高めます。以下のグラフでは、大文字小文字を区別しない結果を得るためにSQL関数LOWERを用いた際の実行時間と、コレーションサポートを用いた際の実行時間を比較しています。この比較は、ランダムに生成された10億の文字列に対して行われています。ここでのクエリーは、カラムcolに対して大文字小文字を区別せずにabcに等しいすべての文字列をフィルタリングすることを目的としています。レガシーのUTF8_BINARYコレーションが使われるシナリオにおいては、フィルター条件はLOWER(col) == ‘abc’となります。colUTF8_LCASEコレーションが適用されると、フィルター条件はシンプルにcol == ‘abc’となり、同じ結果を得ることができます。コレーションを用いることで、Deltaのファイルスキッピングを活用することによって、最大で22倍高速なクエリー処理を実現しています(この場合、どちらのケースでもPhotonは使われていません)。

Photonを用いることで、パフォーマンス改善はさらに大きなものになります(実際のスピードは使用されるコレーション、関数、データによって変動します)。以下のグラフでは、UTF8_LCASEコレーションを用いて、同値比較、STARTSWITHENDSWITHCONTAINSのSQL関数におけるPhotonありなしのスピードを示しています。これらの関数はランダムに生成されたASCIIのみの1000文字のデータセットに対して実行されました。この例では、STARTSWITHENDSWITHでは、コレーションを用いた際に10倍のスピードアップという結果になっています。

Photon最適化実装を除き、すべてのコレーション機能はオープンソースSparkでも利用できます。データフォーマットの変更は無く、これは背後のフィールドのはUTF-8エンコードされたデータのままであることを意味し、すべての機能はオープンソースSparkとDelta Lakeの両方でサポートされることを意味します。これは、お客様はロックインされず、Sparkエコシステムで自分たちのコードの可搬性のあるものとしてみなせることを意味します。

次に来るのは

近い将来、お客様はカタログ、スキーマ、テーブルレベルでコレーションを設定できるようになります。まもなく、RTRIMもサポートされ、不必要な末尾の空白を無視した文字列比較が可能になります。アップデートに関しては、Databricksのホームページやドキュメントページの今後の予定を注視していてください。

使い始める

コレーションを使い始めるには、Databricksのドキュメントをご覧ください。

Databricks SQLの詳細に関しては、Webサイトドキュメントをご覧ください。Databricks SQLの製品ツアーをチェックすることもできます。あなたの既存のウェアハウスを、優れたユーザー体験と安価なコストを提供する高性能でサーバレスなデータウェアハウスに移行したいと考えているのであれば、Databricks SQLがソリューションとなります。無料で試してみましょう

はじめてのDatabricks

はじめてのDatabricks

Databricks無料トライアル

Databricks無料トライアル

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?