LoginSignup
2

More than 1 year has passed since last update.

XenonPyをゼロから理解していく③

Last updated at Posted at 2021-05-25

はじめに

XenonPyのチュートリアルのVisualizationについて解説します。

  • XenonPyの概要とチュートリアルの一部(Sample dataとData access)の解説についてはこちら
  • XenonPyのチュートリアルのDescriptor calculationの解説についてこちら

※マテリアルズインフォマティクス関係の内容を他にも投稿していますので、よろしければこちらの一覧から他の投稿も見て頂けますと幸いです。

可視化

公式ドキュメントの"Visualization"に沿って解説します。

環境

  • conda 4.9.2
  • python 3.7.1
  • xenonpy 0.4.4

Descriptor heatmap(ヒートマップによる可視化)

記述子と目的とする特性の相関を理解するために、記述子はヒートマップを用いて可視化することができます。composition(組成に関する情報)を記述子とし、density(密度)を目的特性として以下で可視化の方法を説明していきます。コードの詳細は後述しているので参考にして下さい。

まずは記述子を計算(生成)していきます。サンプルデータの取得に関してはこちらの投稿を参考にして下さい。

from xenonpy.datatools import preset
from xenonpy.descriptor import Compositions

samples = preset.mp_samples
cal = Compositions()

descriptor = cal.transform(samples['composition'])

目的特性(density)の値順に記述子をソートしていきます。

# 目的特性を指定
property_ = 'density'

# 欠損値のあるデータを除き(今回のデータに欠損値はない)、目的特性である"density"の小さい順に並べ替える
prop = samples[property_].dropna()
sorted_prop = prop.sort_values()

# densityの小さい順に生成した記述子を並べる
sorted_desc = descriptor.loc[sorted_prop.index]
  • .dropna()で欠損値のある行を削除しています

最後にヒートマップを描きます。

from xenonpy.visualization import DescriptorHeatmap

heatmap = DescriptorHeatmap(
        bc=True,  # use box-cox transform
        save=dict(fname='heatmap_density', dpi=200, bbox_inches='tight'),  # save figure to file
        figsize=(70, 10))
heatmap.fit(sorted_desc)
heatmap.draw(sorted_prop)
  • Box-Cox変換とは、変数のスケールを変えて分布を正規分布(ガウス分布)の形に変えてくれる変換

heatmap_density.png

ヒートマップの見方

生成されるヒートマップ自体が非常に小さくて見にくいので、まずは左側にフォーカスしてみます。

heatmap_density_hidarigawa.png

横軸には生成した290個の記述子が並んでいます。(並びは当初の順番と変わっている)縦軸は密度の小さい順にサンプル化合物が並べられています。 コードの解説で後述しますが、化合物mp-754417は密度が0.241653とデータセットの中で最小です。

続いてヒートマップの左上を見ていきます。

heatmap_density_hidariuie.png

記述子が樹形図のように表されていることが分かります。よって隣接する記述子はある程度性質が似ているものであり、性質ごとにまとまりをもって記述子が横軸に配置されていることが分かります。

次にヒートマップの右側を見ていきます。

density2.png

グラフは目的特性の分布を表しています。グラフの縦軸はヒートマップの縦軸の化合物と対応しています。例えば、縦軸の一番上の化合物mp-754417は密度が0.241653といった感じで読み取ります。また、データセットの中で最も密度が大きい化合物の密度は20強(実際は化合物mp-265の20.760335)であることが分かります。

最後にヒートマップ全体を見ます。以下は公式ページの画像です。

heatmap_density_official_kaisetsu.png

ヒートマップを作成することでどの記述子が目的特性と相関があるのか(予測に有用なのか)視覚的に認識することができます。相関のある記述子はヒートマップの上下方向で特徴的なパターン(例えば線形関係がある場合は単調増加や単調減少)を示しますが、相関のない記述子はそのような特徴を示しません。上記のヒートマップでは"Irrelevant"の部分の記述子は予測に対して有用でなく、"Nonlinear correlated"の部分の記述子は目的特性に対して非線形な相関を持つ記述子と読み取ります。

コードの解説

大まかにやっていることを示すと以下の通りです。

code_kaisetsu.png

記述子生成の部分です。

samples

samples2.png

サンプルデータには11個の特徴量が含まれています。今回はdensityを目的特性とし、以下のようにcompositionを用いて記述子を生成します。

descriptor = cal.transform(samples['composition'])
descriptor

descripter3.png

各化合物に対して290個の記述子が生成されていることが分かります。

目的特性の値順に記述子をソートする部分です。

property_ = 'density'
prop = samples[property_].dropna()
sorted_prop = prop.sort_values()
sorted_prop
出力結果
mp-754417     0.241653
mp-707454     0.584481
mp-569787     0.618365
mp-974920     1.030260
mp-995220     1.110575
               ...    
mp-1841      17.869855
mp-13100     17.948420
mp-312       18.376969
mp-91        18.854008
mp-265       20.760335
Name: density, Length: 807, dtype: float64

目的特性として密度を指定し、サンプルデータの中から密度を抜き出し、小さい順に並べています。

目的特性を変えてみてトライ

目的特性をdenity→efermiに変更して、ヒートマップを描いてみます。

# 1.calculate descriptors(記述子計算)
from xenonpy.datatools import preset
from xenonpy.descriptor import Compositions

samples = preset.mp_samples
cal = Compositions()
descriptor = cal.transform(samples['composition'])

# 2.sort descriptors by property values(目的特性でソート)
property_ = 'efermi'
prop = samples[property_].dropna()
sorted_prop = prop.sort_values()
sorted_desc = descriptor.loc[sorted_prop.index]

# 3.draw the heatmap(ヒートマップを描く)
from xenonpy.visualization import DescriptorHeatmap

heatmap = DescriptorHeatmap(
        bc=True,
        save=dict(fname='heatmap_efermi', dpi=200, bbox_inches='tight'),
        figsize=(70, 10))
heatmap.fit(sorted_desc)
heatmap.draw(sorted_prop)

heatmap_efermi.png

ヒートマップ自体に大きな変化は見られませんでした。

目的特性をdenity→band_gapに変更したヒートマップも作成してみました。以下に比較として、目的特性をdensity, efermi, band_gapとした際のヒートマップをそれぞれ順番に示します。

     目的特性:density
heatmap_density.png
     目的特性:efermi
heatmap_efermi.png
     目的特性:band_gap
heatmap_band_gap.png

まとめ

XenonPyのチュートリアルのVisualizationについて解説しました。
XenonPyシリーズは一度これにて終了としますが、以下のリンクなど見て学習を続けていく予定です。何かアウトプットがあればまた更新します。

参考

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2