はじめに
みなさん西高東低や冬型の気圧配置などという言葉を聞いたことはありませんか?日本付近の気圧配置にはいくつかのパターンがあり、西高東低とよばれる冬型の気圧配置はその中でも有名なほうでしょう(下図)。このほかにも太平洋高気圧に覆われる夏型の気圧配置などいくつかの種類があります。この記事では、このパターンを教師なし学習で分類してみようと思います。
(weather newsより)
今回実行したことは以下の3つです。
- 衛星画像をスクレイピング
- エルボー法
- クラスター分析(教師無し学習)
衛星画像の取得
衛星画像の取得は江波山気象館のHPから行いました。というのも、rowデータをダウンロードするのは重く、いい感じに加工されたデータでスクレイピングしてよさそうだったのがこのサイトだったからです。
本来は 気象業務支援センターのHP から購入するのが妥当だと思われるので、ここら辺は自己判断でお願いします。ソースコードはここでは記載しませんが、 github に挙げておきます。
筆者が利用した画像は日本付近の12:00(JST)の画像で、以下のような画像(854×480px)です。
前処理
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from PIL import Image
import glob
from tqdm import tqdm
from os import makedirs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, silhouette_samples
x=np.empty((0,240*427))
paths=glob.glob("pictures/*.jpg")
for path in tqdm(paths):
img=Image.open(path)
img = img.convert('L')
img=img.resize((int(img.width/2), int(img.height/2)))
x=np.append(x,np.array(img).reshape(1,-1),axis=0)
画像を読み込んで1行になるようにreshapeしてから、numpy配列にぶち込みます。画質がいいとだいぶ時間がかかったのでグレスケにして半分の大きさにしました。
エルボー法
distortions = [] #エルボー法(最適なクラスター数を求める)
for k in tqdm(range(1, 20)):
kmeans = KMeans(n_clusters=k, n_init=10, max_iter=100)
kmeans.fit(x)
distortions.append(kmeans.inertia_)
fig = plt.figure(figsize=(12, 8))
plt.xticks(range(1, 20))
plt.plot(range(1, 20), distortions)
plt.savefig("elbow.jpg")
plt.close()
エルボー法により最適なクラスター数を求めました。20でやると10分ほどかかったので10ぐらいで十分かと思います。結果は以下の図のようになりました。
明確に何個がいいかは出ませんでしたが、今回は4でやることにしました。
クラスター分析
k_means = KMeans(n_clusters=4).fit(x)
y_pred = k_means.predict(x)
print(k_means.labels_)
print(pd.Series(k_means.labels_, name='cluster_number').value_counts(sort=False))
out=pd.DataFrame()
out["picture"]=paths
out["classnumber"]=y_pred
out["date"]=pd.to_datetime(out["picture"].str.split("\\",expand=True).iloc[:,1].str.split(".",expand=True).iloc[:,0])
out.to_csv("out.csv")
クラスターごとの要素数は139,61,68,98でした。いい感じに分かれたので期待できそうです。
#クラスごとに保存
for i in range(4):
makedirs(str(i)+"_pictures", exist_ok=True)
for i in out.itertuples():
img=Image.open(i.picture)
img.save(str(i.classnumber)+"_"+i.picture)
for i in range(4):
out["month"]=out["date"].dt.month
sns.countplot("month",data=out[out["classnumber"]==i])
plt.title(i)
plt.savefig("月分布"+str(i))
plt.close()
それぞれのクラスごとに分けて保存するとともに、それぞれのクラスの月の分布および具体的な画像を見てみましょう。
クラスターNo.0
冬に多くて夏に少ない感じですね。冬型の気圧配置といったとこでしょうか。数は少ないといっても夏にもこれがみられるのは不思議な感じがします。
このクラスターに属する画像は例えば以下のようなものです。
2020/1/13 | 2020/1/19 |
---|---|
これは典型的な西高東低な気圧配置で北西から冷たい風が吹くことで日本列島上空に雲がかかっているような天気図でした。
また、このクラスターに属する図で冬でない季節のものは以下の図のようなものでした。
2020/6/26 | 2019/10/26 |
---|---|
雰囲気としては大陸上及び日本上空に雲があり太平洋上には雲がない感じであるということでしょうか。雲種は違えど雲の場所の雰囲気は確かに似ている気はします。 |
クラスターNo.1
4,11月に多くなっています。このグラフだけではどのような共通点があるのかわかりませんでした。
このクラスターに属する画像は例えば以下のようなものです。
2019/11/2 | 2020/4/29 |
---|---|
明確な気圧配置の特徴があるわけではないように見受けられました。画像の特徴としては日本付近は晴れており、日本の南東方向に斜めの雲が入っている画像が多かったです。このような雲は季節によっては太平洋高気圧の縁を回るようにしてできているものもありましたが、偶然似通った雲ができているだけの気がします。どちらかというとこのクラスターは他のクラスターの余りのような印象が強かったです。
クラスターNo.2
これは梅雨の時期に多い感じです。梅雨前線があるような場合の気圧配置でしょうか。なお、2,8,9月には1個も見られなかったようです。
2020/6/28 | 2020/7/4 |
---|---|
このクラスターには予想通り梅雨前線を示したものが多くありました。春夏秋冬の4区分には現れない梅雨ですが、その気象学的な特徴は明確にあることが示されたのではないかと思います。
なお、このクラスターに属する他の季節の画像は以下の様なものでした。
2019/10/20 | 2020/3/19 |
---|---|
日本列島上に前線によるものに近い形状の雲が広がっており、このクラスターに分類されたのが納得できます。
クラスターNo.3
圧倒的夏を示しています。太平洋高気圧が張りだした夏型の気圧配置を表していそうです。
実際にこのクラスターに分類された画像を見てみると以下のように夏型感満載の画像でした。
2019/7/29 | 2019/8/21 |
---|---|
また、他の季節の画像は晴れ間が広がった画像が多くなっていました。
2019/10/14 | 2019/11/1 |
---|---|
まとめ
以上の解析結果から、クラスター分析により、大まかな気圧配置の傾向を分類し、それから外れたものも解釈することができた。ただ、衛星画像は気圧を直接表したものではないため、気圧配置を直接的に分類できるわけではなく、雲の分布状況でクラスターが分けられてしまうので、どうしても雲の形状が似ていれば誤分類されてしまう。気圧配置の分類をするためには雲だけでなく気圧を取り込む方法を検討する余地があるそうだ。
今回実行したコード(github)