Qiita Teams that are logged in
You are not logged in to any team

Log in to Qiita Team
Community
OrganizationAdvent CalendarQiitadon (β)
Service
Qiita JobsQiita ZineQiita Blog
6
Help us understand the problem. What is going on with this article?
@michi_wkwk

MySQLでSELECT句とGROUP BYの非集約カラムが揃ってなくても通るケース

More than 1 year has passed since last update.

人に教えるとき「ここGROUP BY漏れてますよ」と言う機会が増えてきたので忘備録も兼ねてメモ。

TL;DR

MySQLの場合以下のようなケースにおいてSELECT句とGROUP BYの非集約カラムが揃っていなくてもクエリが通る

  • ONLY_FULL_GROUP_BYがoffになっている場合
  • 関数従属性が存在する場合

1. 前提:SELECT句とGROUP BYの非集約カラムは揃えたい

例えばECサイトで以下のような購入テーブルpurchaseがあったとします。
(テーブル定義は最後に載せています)

+----+-------------+---------+--------+---------------------+
| id | customer_id | item_id | amount | create_at           |
+----+-------------+---------+--------+---------------------+
|  1 |           1 |   10001 |   1200 | 2019-03-26 18:00:00 |
|  2 |           2 |   10015 |    260 | 2019-03-26 19:00:00 |
|  3 |           3 |   10051 |   5400 | 2019-03-26 20:00:00 |
|  4 |           1 |   10051 |   5400 | 2019-03-26 21:00:00 |
|  5 |           4 |   10109 |    980 | 2019-03-26 22:00:00 |
|  6 |           2 |   10023 |  12000 | 2019-03-26 23:00:00 |
+----+-------------+---------+--------+---------------------+

ここでcustomer_idごとの購入金額合計を求める場合、通常は以下のようなクエリになるかと思います。

SELECT
  customer_id
  , SUM(amount)
FROM
  purchase
GROUP BY
  customer_id
;

基本的にSELECT句内の非集約カラムはこのようにGROUP BYにて指定されている非集約カラムに限定されます(そうしないとクエリが通らないと思われます)。
しかしながらそれが当てはまらないケースがいくつか存在しています。
今回はその当てはまらないケースのうち僕が遭遇した2つのケースを紹介します。

2. ONLY_FULL_GROUP_BYの設定

MySQLの場合sql_modeでONLY_FULL_GROUP_BYをoffにすることでSELECT句とGROUP BYの非集約カラムが一致していなくても結果が返ってきます。
ここではsql_modeの確認は以下の通り行います。

show variables like 'sql_mode';

> ONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_ENGINE_SUBSTITUTION

ここで一番最初に入っている1ONLY_FULL_GROUP_BYを除いたものに変更します。

set sql_mode = 'STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_ENGINE_SUBSTITUTION';

sql_modeからONLY_FULL_GROUP_BYを除外した状態で以下のクエリを実行
本来GROUP BYにcustomer_idが入っていないためエラーになるべきだが、クエリが返ってきてしまいます。


SELECT
  customer_id
  , SUM(amount) as customer_amount
FROM
  purchase
;

出力結果

+-------------+-----------------+
| customer_id | customer_amount |
+-------------+-----------------+
|           1 |           25240 |
+-------------+-----------------+

しかしながらこの出力結果は先程みたものと全く異なっています(出力されているのは単なるGROUP BYなしの全体SUMの結果)。
customer_idには適当な値が入っており2、結果を誤認させるものになってしまっています。

ONLY_FULL_GROUP_BYがデフォルトで入るようになったのはMySQL5.7からなのでそれ以前のバージョンを用いている場合は上記のような現象がデフォルトで発生します。
が、出力結果をみてもわかるようにこれ私たちが欲している値とはおそらく異なるので使用には注意が必要です。

3. 関数従属性が存在するケース

今度は以下のようなcustomerテーブルも用います。

+-------------+-------------------+---------------------+
| customer_id | customer_group_id | create_at           |
+-------------+-------------------+---------------------+
|           1 |                 1 | 2019-01-01 12:00:00 |
|           2 |                 1 | 2019-01-01 12:00:00 |
|           3 |                 2 | 2019-01-01 12:00:00 |
|           4 |                 3 | 2019-01-01 12:00:00 |
+-------------+-------------------+---------------------+

このcustomerテーブルはpurchaseテーブルから見て親テーブルになっています。
新しいテーブルが用意できたところでcustomerテーブルとpurchaseを用いた以下のようなクエリを叩きます。


SELECT
  t1.customer_id
  , t1.customer_group_id
  , SUM(t2.amount) as customer_amount

FROM
  customer as t1
LEFT JOIN
  purchase as t2
ON
  t1.customer_id = t2.customer_id

GROUP BY
  t1.customer_id
;

先程までの例に則ればSELECT句内にあるcustomer_group_idはGROUP BYに列挙されていないカラムであるため、このクエリはエラーになると思われます(ONLY_FULL_GROUP_BYがonのとき)。
しかしながらこのクエリエラーになりません
実際以下のように出力されます。

+-------------+-------------------+-----------------+
| customer_id | customer_group_id | customer_amount |
+-------------+-------------------+-----------------+
|           1 |                 1 |            6600 |
|           2 |                 1 |           12260 |
|           3 |                 2 |            5400 |
|           4 |                 3 |             980 |
+-------------+-------------------+-----------------+

このことは関数従属性(functional dependency)という用語を用いて説明されます。

あるカラムxの値を決めた場合自動的に値が決まってしまうようなカラムyが存在するときに、それらのカラムには関数従属性が存在するといいます。
カラムyの値がxの値に依存している場合、カラムyをGROUP BYに含めないことが可能になることがあります。
MySQLの場合この性質はONLY_FULL_GROUP_BYの設定に関わらず適用されます。

今回の場合customerテーブルにおいてcustomer_idの値が決まってしまえばcustomer_group_idの値も一意に決まってしまいます。
つまりcustomer_group_idはcustomer_idも依存して決まっている3ため、GROUP BYに列挙されていなくともSELECT句に含めることができます。

4. 個人的な意見

ONLY_FULL_GROUP_BYについていうと僕個人は基本的にonにしてます。
基本的に出力があれば見てわかることが多いのですが、注意力が散漫になってしまうとき誤ったクエリが通ってしまいそのミスに気づけないのが怖いからというのが理由です。

関数従属性については通れば正直どっちでも良いのかなと感じています。
ただ個人的にSELECT句とGROUP BYの非集約カラムが揃ってないのは気持ち悪く感じるので、関数従属性があったとしてもなるべく全部書くようにしています4

以上のことはあくまで僕が「きちんとした出力がでればある程度のクエリは許容する」というスタンスに基づいて書いています。
異なるスタンスの方から見たら違う見解がでるかもしれませんのでその点はご容赦下さい。

現場からは以上です。

参考リンク

12.20.3 MySQL Handling of GROUP BY - MySQL 5.7 Reference Manual
12.20.4 Detection of Functional Dependence - MySQL 5.7 Reference Manual

使用クエリ

-- customer

CREATE TABLE customer (
  customer_id int NOT NULL AUTO_INCREMENT,
  customer_group_id int,
  create_at timestamp DEFAULT '2019-01-01 12:00:00',

  PRIMARY KEY(customer_id)
)
;

INSERT INTO customer VALUES
(1,1,DEFAULT),
(2,1,DEFAULT),
(3,2,DEFAULT),
(4,3,DEFAULT)
;
-- purchase

CREATE TABLE purchase (
  id int NOT NULL AUTO_INCREMENT,
  customer_id int,
  item_id int,
  amount int,
  create_at timestamp,

  PRIMARY KEY(id),
  CONSTRAINT FOREIGN KEY(customer_id) REFERENCES customer(customer_id) ON UPDATE CASCADE
)
;

INSERT INTO purchase VALUES
(DEFAULT, 1,10001, 1200, '2019-03-01 18:00:00'),
(DEFAULT, 2, 10015, 260, '2019-03-01 19:00:00'),
(DEFAULT, 3, 10051, 5400, '2019-03-01 20:00:00'),
(DEFAULT, 1, 10051, 5400, '2019-03-01 21:00:00'),
(DEFAULT, 4, 10109, 980, '2019-03-01 22:00:00'),
(DEFAULT, 2, 10023, 12000, '2019-03-01 23:00:00')
;

  1. ここでの出力結果は環境によって異なり得ます。 

  2. 公式でも"In this case, the server is free to choose any value from each group, so unless they are the same, the values chosen are nondeterministic, which is probably not what you want."と書かれています。 

  3. 今回customerテーブルにおいてcustomer_idがPKなのでcustomer_idさえ決まってしまえばcustomer_group_idも一意に特定できます。 

  4. きちんと確認できてないですが古いRDBMSとかだと関数従属性に対応してないものもあるようです。そういうものに今後触るかはわかりませんが。 

6
Help us understand the problem. What is going on with this article?
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
michi_wkwk
データアナリストみたいな仕事してます。レコメンドなんもわからん

Comments

No comments
Sign up for free and join this conversation.
Sign Up
If you already have a Qiita account Login
6
Help us understand the problem. What is going on with this article?