MySQLのIndexにはB-Tree Indexが用いられていることは有名ですが、先日社内の輪読会にてHash IndexというIndexも存在していることを知りました。
<=,>=などの範囲検索には使えませんが、=, <=>といった単純な値の比較であればかなり早いとのことなので、これら2つを比べてみることにしました。

ref: https://dev.mysql.com/doc/refman/5.7/en/index-btree-hash.html


MySQLのデフォルトストレージエンジンであるInnoDBではHash Indexをサポートしていないので、本当に試してみたに過ぎませんが 笑。



mysql v5.7.31
Docker v19.03.12

Storage Engine

以下を参考にすると、InnoDBはHash Indexをインデックスとしてサポートしていない様子。

ストレージエンジン 許可されるインデックスタイプ

ということでHash Indexが利用可能なストレージエンジンであるMEMORYNDBが使えないか見ていきます。

mysql> show engines;
| Engine             | Support | Comment                                                        | Transactions | XA   | Savepoints |
| InnoDB             | DEFAULT | Supports transactions, row-level locking, and foreign keys     | YES          | YES  | YES        |
| MRG_MYISAM         | YES     | Collection of identical MyISAM tables                          | NO           | NO   | NO         |
| MEMORY             | YES     | Hash based, stored in memory, useful for temporary tables      | NO           | NO   | NO         |
| BLACKHOLE          | YES     | /dev/null storage engine (anything you write to it disappears) | NO           | NO   | NO         |
| MyISAM             | YES     | MyISAM storage engine                                          | NO           | NO   | NO         |
| CSV                | YES     | CSV storage engine                                             | NO           | NO   | NO         |
| ARCHIVE            | YES     | Archive storage engine                                         | NO           | NO   | NO         |
| PERFORMANCE_SCHEMA | YES     | Performance Schema                                             | NO           | NO   | NO         |
| FEDERATED          | NO      | Federated MySQL storage engine                                 | NULL         | NULL | NULL       |
9 rows in set (0.00 sec)

show enginesにてMEMORYの存在を確認できたので、こちらを用いて検証していきます。

Create Table


drop table if exists todo;
create table todo(
	id int not null auto_increment,
	num_column int not null,
	str_column char(10) not null,
	primary key (id) 
) engine memory;

# Hash Index
create index num_h_index using hash on todo (num_column);
create index str_h_index using hash on todo (str_column);
# B-Tree Index
create index num_b_index using btree on todo (num_column);
create index str_b_index using btree on todo (str_column);

Indexもそれぞれのcolumnに対してB-Tree IndexHash Indexのものを作成しています。

Dummy Data

検索にある程度の負荷を掛けるためにダミーのデータを作成していきます。ちなみに個人的にはCROSS JOINを使ってのデータ増幅オシャレだと思ってるんですがどうでしょうか。え? そんなことない...?

INSERT INTO todo (num_column, str_column) VALUES 
	(CEIL(RAND() * 10), CONCAT(SUBSTRING(MD5(RAND()), 1, 10))),
	(CEIL(RAND() * 10), CONCAT(SUBSTRING(MD5(RAND()), 1, 10))),
	(CEIL(RAND() * 10), CONCAT(SUBSTRING(MD5(RAND()), 1, 10))),
	(CEIL(RAND() * 10), CONCAT(SUBSTRING(MD5(RAND()), 1, 10))),
	(CEIL(RAND() * 10), CONCAT(SUBSTRING(MD5(RAND()), 1, 10))),
	(CEIL(RAND() * 10), CONCAT(SUBSTRING(MD5(RAND()), 1, 10))),
	(CEIL(RAND() * 10), CONCAT(SUBSTRING(MD5(RAND()), 1, 10))),
	(CEIL(RAND() * 10), CONCAT(SUBSTRING(MD5(RAND()), 1, 10))),
	(CEIL(RAND() * 10), CONCAT(SUBSTRING(MD5(RAND()), 1, 10))),
	(CEIL(RAND() * 10), CONCAT(SUBSTRING(MD5(RAND()), 1, 10)));

INSERT INTO todo (num_column, str_column) SELECT CEIL(RAND() * 10), CONCAT(SUBSTRING(MD5(RAND()), 1, 10)) from todo cross join todo as todo2 where todo2.id between 1 and 9;
INSERT INTO todo (num_column, str_column) SELECT CEIL(RAND() * 10), CONCAT(SUBSTRING(MD5(RAND()), 1, 10)) from todo cross join todo as todo2 where todo2.id between 1 and 9;
INSERT INTO todo (num_column, str_column) SELECT CEIL(RAND() * 10), CONCAT(SUBSTRING(MD5(RAND()), 1, 10)) from todo cross join todo as todo2 where todo2.id between 1 and 9;
INSERT INTO todo (num_column, str_column) SELECT CEIL(RAND() * 10), CONCAT(SUBSTRING(MD5(RAND()), 1, 10)) from todo cross join todo as todo2 where todo2.id between 1 and 9;

INSERT ... CROSS JOIN ...を実行するたびにデータが10倍になるので結構気持ちよかったりします。MEMORYですと34万件ほどでテーブルがいっぱいになるので、今回は10万件ほどのダミーレコードを生成しています。num_columnには1~10のランダムな数字、str_columnにはランダムな10文字の文字文を入れています。(データを見る限り、完全にランダムな文字列では無いみたいですが)




SELECT * FROM todo WHERE num_column = 1;
SELECT * FROM todo WHERE num_column BETWEEN 1 and 5;
SELECT * FROM todo WHERE str_column like 'a%';
SELECT * FROM todo WHERE str_column like '%a';


SELECT * FROM todo WHERE num_column = 1;

まずはHash Indexのほうが早いと予想される単一の値のSQLですね。

mysql> explain SELECT * FROM todo use index(num_h_index) WHERE num_column = 1;
| id | select_type | table | partitions | type | possible_keys | key         | key_len | ref   | rows  | filtered | Extra |
|  1 | SIMPLE      | todo  | NULL       | ref  | num_h_index   | num_h_index | 4       | const | 10000 |   100.00 | NULL  |
1 row in set, 1 warning (0.00 sec)
mysql> explain SELECT * FROM todo use index(num_b_index) WHERE num_column = 1;
| id | select_type | table | partitions | type | possible_keys | key         | key_len | ref   | rows  | filtered | Extra |
|  1 | SIMPLE      | todo  | NULL       | ref  | num_b_index   | num_b_index | 4       | const | 10722 |   100.00 | NULL  |
1 row in set, 1 warning (0.00 sec)


SELECT * FROM todo WHERE num_column BETWEEN 1 and 5;


mysql> explain SELECT * FROM todo WHERE num_column BETWEEN 1 and 5;
| id | select_type | table | partitions | type  | possible_keys           | key         | key_len | ref  | rows  | filtered | Extra       |
|  1 | SIMPLE      | todo  | NULL       | range | num_h_index,num_b_index | num_b_index | 4       | NULL | 50288 |   100.00 | Using where |
1 row in set, 1 warning (0.00 sec)

やはり範囲検索であるとB-Tree Indexが使用されるようですね。use index句にてHash Indexを指定も試してみましたが、そもそも使用されずフルテーブルスキャンとなってしまいました。

SELECT * FROM todo WHERE str_column like 'a%';


mysql> explain SELECT * FROM todo WHERE str_column like 'a%';
| id | select_type | table | partitions | type  | possible_keys           | key         | key_len | ref  | rows | filtered | Extra       |
|  1 | SIMPLE      | todo  | NULL       | range | str_h_index,str_b_index | str_b_index | 10      | NULL | 5900 |   100.00 | Using where |
1 row in set, 1 warning (0.00 sec)

B-Tree Indexが使用され、rowsの数が5900と良い感じに検索範囲が絞れています。B-Treetrieと似たデータ構造を持つはずなのでPrefixでの前方一致には効果があるのだと思われます。



SELECT * FROM todo WHERE str_column like '%a';


mysql> explain SELECT * FROM todo WHERE str_column like '%a';
| id | select_type | table | partitions | type | possible_keys | key  | key_len | ref  | rows   | filtered | Extra       |
|  1 | SIMPLE      | todo  | NULL       | ALL  | NULL          | NULL | NULL    | NULL | 100000 |    11.11 | Using where |
1 row in set, 1 warning (0.00 sec)

おっと、いきなりB-Tree Indexが効かなくなりましたね。B-Treetrieと似たデータ構造を持つとするとSuffixでの検索には全く用いることが出来ないということでしょうか。




SET profiling = 1;
SELECT * FROM todo use index(num_h_index) WHERE num_column = 1;
SELECT * FROM todo use index(num_b_index) WHERE num_column = 1;
SELECT * FROM todo WHERE num_column BETWEEN 1 and 5;
SELECT * FROM todo WHERE str_column like 'a%';
SELECT * FROM todo WHERE str_column like '%a';


for _ in `seq 1 10`; do
mysql -uroot -proot -D mysqldb -e "\
SET profiling = 1; \
SELECT * FROM todo use index(num_h_index) WHERE num_column = 1; \
SELECT * FROM todo use index(num_b_index) WHERE num_column = 1; \
SELECT * FROM todo WHERE num_column BETWEEN 1 and 5; \
SELECT * FROM todo WHERE str_column like 'a%'; \
SELECT * FROM todo WHERE str_column like '%a';SHOW PROFILES; \
" | tail -n 5 >> result


for i in `seq 1 5`; do
cat result | grep ^$i | awk '{ sum+=$2; cnt++ } END { print sum / cnt }'


0.0036558   # SELECT * FROM todo use index(num_h_index) WHERE num_column = 1;
0.00511643  # SELECT * FROM todo use index(num_b_index) WHERE num_column = 1;
0.021532    # SELECT * FROM todo WHERE num_column BETWEEN 1 and 5;
0.00296707  # SELECT * FROM todo WHERE str_column like 'a%';
0.00719143  # SELECT * FROM todo WHERE str_column like '%a';SHOW PROFILES;

=の検索条件によるHash IndexB-Tree Indexの速度差ですが、やはりというべきかHash Indexのほうが多少優れています。

B-Tree Indexを使用した前方一致検索と、そうでない後方一致検索には速度に明確な違いが見て取れます。2.3倍ほどでしょうか。しかし検索量に20倍程度の違いがあることを考えると、差分が少ない気もしますね。まぁ、他にオーバーヘッドが存在しているものと思われます。


=<=>といった単純な比較を行うSQLにおいてはHash Indexのほうが多少早い。また文字列検索は、B-Tree Indexの構造上前方一致のほうが速度が出やすい。
繰り返しになりますが、InnoDBではHash Indexをサポートしていないので蛇足です 笑。

