PythonとLOUDSによるTRIE木の実装

Last updated at 2019-11-24Posted at 2019-11-24

概要

PythonでTRIE木を実装した
TRIE木を作成する上でデータ構造にLOUDSを使用している

TRIE木はその特徴から、かな漢字変換や自動補完などに使用されている

完備辞書とは、簡潔データ構造において最も基本的なデータ構造
完備辞書を補助データとして用いることによって、定数時間での検索が可能になる
具体的にはrankとselectという操作を用いて、TRIE木の検索を行う
- rank():ビット列の先頭から位置 k までに、1 のビットがいくつあるか
- select():ビット列の先頭から見て、n 個目の 1 のビットの次の位置はどこか
  簡潔データ構造については、こちらのページで詳しく解説されている

Pythonで以下を実装した（GitHub）

以下のように実行すると、TRIE木のノード番号と単語がカンマ区切りで書かれている辞書データが作成される
データはnltkのwordnetコーパスを使用した
後にテストデータをこの辞書データから作成する

from words import CreateWords
CreateWords("./data/origin/wordnet_words.csv")

python search_word.py 辞書データPATH

上記のファイルを実行すると、単一の単語検索をすることができる
任意の単語を入力すると、以下のように、検索から得られたノード番号、単語の定義、プレフィックスが出力される

以下を実行すると、任意の単語数のテストデータを辞書データから作成できる

python words.py 辞書データPATH サンプル数1,サンプル数2,サンプル数3,…

複数のテストデータを作成したい場合は、データのサンプルサイズをカンマ区切りで指定
"Test data is created."と出力されればok。テストデータが./data/testに作成される

以下のように、実行するとテストデータで任意の回数、テストを実行することができる

python test.py 辞書データPATH テストデータPATH テスト回数

"Test is done."と出力されればok。出力結果が./resultsに作成される

測定では、完全一致検索時間とプレフィックス検索時間を計測している

内部的には入力された単語に対して、trieクラスのsearch関数が実行され、TRIE木のノード番号を出力する
出力されたノード番号は辞書データのノード番号と照合され、一致していれば検索件数を+1し、正確に検索ができているかどうか確認している。プレフィックス検索も同様

完全一致検索：単語の検索にかかった合計時間
検索結果：辞書データのノード番号と一致した件数
プレフィックス検索：検索単語に紐づくプレフィックスをすべて検索するまでにかかった合計時間
プレフィックス検索（１件当たり）：検索単語に紐づくプレフィックス１件当たりの検索時間
メモリ使用量
- bit_array：bit配列のメモリ使用量
- labels：ラベル配列のメモリ使用量
- rank：rankのメモリ使用量
- select：selectのメモリ使用量