LoginSignup
0
0

ChatGPTとPythonで学ぶ 低分子化合物SMILES生成AI:CVAE編

Last updated at Posted at 2023-12-07

皆さんこんにちは。今日も引き続きChatGPT先生をお迎えして、「ChatGPTとPythonで学ぶ CVAEで分子生成AI」というテーマで雑談したいと思います。それではChatGPT先生、よろしくお願いします。


assistant:

もちろんです、よろしくお願いします。

まず、CVAEについて簡単に説明します。CVAEはConditional Variational AutoEncoderの略で、変分オートエンコーダ(VAE)の一種であり、データ生成モデルとして広く利用されています。このモデルの特性は、複雑な入力データから隠れた表現を学習し、その隠れた表現から元のデータを再構成する能力にあります。

分子生成AIというのは、新しい化合物を設計するためのAIツールを意味します。化学の知識と機械学習技術を融合させることで、特定の機能を持つ新しい化合物を発見することが可能になります。

PythonでCVAEを利用して分子生成AIを作る流れは以下のようになります。

  1. 化合物データベースから訓練データを収集します。一般的にはSMILES(Simplified Molecular Input Line Entry System)表記法が用いられます。
  2. CVAEモデルを訓練するためのデータセットを準備します。この際、データは通常、必要な特性(化学的・物理的性質など)に基づいてラベル付けされます。
  3. CVAEモデルを訓練します。訓練中、モデルは与えられた条件下で最も適切な分子を生成するように学習します。
  4. 訓練したモデルを利用して、新しい分子を生成します。

以上が基本的な流れになります。この過程にはPythonの深層学習ライブラリ(例:TensorflowやPyTorch)と化学情報学ライブラリ(例:RDKit)が一般的に用いられます。どのような質問でもお気軽にどうぞ。


user:

CVAEで、たとえばMNISTデータセットを学習して、指定した数字を表す画像を出力するという例を、以前教えていただきました。そのときのConditionalの値は離散値(マルチラベル)ということになりますが、CVAEは離散値の方が得意とかありますか?連続値も大丈夫でしょうか?


assistant:

CVAEは離散値の条件でも連続値の条件でも扱うことができます。

離散値を扱う場合は、通常、エンコーダとデコーダへの入力にone-hotエンコーディングを使用します。 一方、連続値を扱う場合は、そのままの値か、必要に応じて正規化を行った値を使うことが一般的です。

重要なのは、条件付き変数がもつ情報が、エンコーダとデコーダに適切に伝播するような設計にすることです。そのため、条件をどのようにエンコード/デコードするか、そしてそれがモデルの全体的なアーキテクチャとどのように統合されるかを考えるべきです。

したがって、CVAEは離散値も連続値も扱うことができ、それぞれの応用例ではどちらを使うべきかは、問題の性質や必要な結果によります。


user:

いくつかの化合物の構造と水溶性のデータが https://github.com/rdkit/rdkit/raw/master/Docs/Book/data/solubility.train.sdf にあります。ここから NAME, SOL, SOL_classification, smiles のデータを抜き出して pandas dataframe 形式にしてください。


assistant:

こちらのデータはRDKitのSDMolSupplierを使って読み込むことができます。それでは具体的なコードについて見てみましょう。

まず、RDKitをインストールするためには以下のコマンドが必要です。注目点として、RDKitはPythonのパッケージであるため、Anacondaやpipを使って簡単にインストールすることが可能です。

conda install -c rdkit rdkit

次にPythonでSDファイルを読み込み、pandasのデータフレームに変換する例を挙げます。

from rdkit import Chem
from rdkit.Chem import PandasTools
import os
import pandas as pd

# Set the URL/path of the data
url = 'https://github.com/rdkit/rdkit/raw/master/Docs/Book/data/solubility.train.sdf'

# Download the data
os.system('wget %s' %url)

# Load the data
supplier = Chem.SDMolSupplier('solubility.train.sdf')

# Initialize an empty data frame
data_frame = PandasTools.LoadSDF('solubility.train.sdf')

# Keep only the relevant columns
data_frame = data_frame[['NAME', 'SOL', 'SOL_classification', 'smiles']]

上記のコードでは、最初にRDKitを使ってSDファイルを読み込み、次にその内容をpandasのDataFrameに変換しています。その後、DataFrame内の'NAME', 'SOL', 'SOL_classification', 'smiles'列を保持しています。最終的なdata_frame変数は所望の内容を保持したDataFrameオブジェクトとなります。


user:

ありがとうございます。それでは、data_frameのsmilesカラムにある文字列をone-hotエンコーディングして、data_frameのSOLカラムも学習に用いるCVAEのコードをPyTorchで書いてください。その際に、型ヒントも導入してください。コード中に日本語での説明も可能な限り詳しくお願いします。Pythonのコーディング規約PEP8に準拠してください。


assistant:

まずはじめに、SMILES文字列をone-hotエンコーディングするために、全ての可能な文字(原子種、結合の種類など記号を含む)を抽出してベクトルを作ります。SMILESの文字列は化学構造を表現する表記法であり、その中には「C」や「H」などの元素記号や「=」や「#」などの結合タイプを示す記号が含まれています。

続いて、そのベクトルを基にしてSMILESのone-hotエンコーディングを作成します。

SMILES文字列の最大の長さがエンコーディングのベクトルのサイズを決定しますので、まずその最大長を探します。

そして、PyTorchでCVAEを実装します。ここで、エンコーダは入力SMILESを潜在空間にマッピングし、デコーダはその潜在空間から元のSMILES文字列を再構築します。

さらに、条件付けには水溶性の値('SOL'カラム)を利用します。これは連続値なので、それをそのまま利用します。

それでは、具体的なコードに入りましょう。

import torch
from torch import nn
import numpy as np
from typing import List, Tuple

# 出現する全ての文字をリストアップ
charset = sorted(list(set(''.join(data_frame['smiles'].values))))
charset_length = len(charset)

# 文字列の最大長さを計算
max_length = max(map(len, data_frame['smiles']))

# 文字列からone-hotエンコードした配列への変換関数
def string_to_one_hot(smiles_string: str) -> np.array:
    one_hot = np.zeros((max_length, charset_length), dtype=np.int8)
    for i, c in enumerate(smiles_string):
        one_hot[i, charset.index(c)] = 1
    return one_hot

# one-hotエンコードした配列から文字列への変換関数
def one_hot_to_string(one_hot: np.array) -> str:
    return ''.join(charset[i] for i in one_hot.argmax(axis=1))

# 各smiles文字列をone-hotエンコーディングし、リストに追加
one_hot_list = list(map(string_to_one_hot, data_frame['smiles']))

# 学習の際に利用するためTensor型に変換
smiles_tensor = torch.tensor(one_hot_list, dtype=torch.float32)
sol_tensor = torch.tensor(data_frame['SOL'].values, dtype=torch.float32)

# 潜在変数の次元数を定義
latent_dim = 50

class CVAE(nn.Module):
    def __init__(self):
        super(CVAE, self).__init__()
        
        # エンコーダの定義
        self.encoder = nn.Sequential(
            nn.Linear(max_length * charset_length + 1, 512),
            nn.ReLU(),
            nn.Linear(512, 256),
            nn.ReLU(),
            # 出力は平均と分散を返すため、2倍のサイズが必要
            nn.Linear(256, 2 * latent_dim)
        )
    
        # デコーダの定義
        self.decoder = nn.Sequential(
            nn.Linear(latent_dim + 1, 256),
            nn.ReLU(),
            nn.Linear(256, 512),
            nn.ReLU(),
            nn.Linear(512, max_length * charset_length),
            nn.Sigmoid()
        )
        
    # 入力データと条件をエンコード
    def encode(self, x: torch.Tensor, c: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
        # 条件を追加して結合
        input = torch.cat([x.view(x.size(0), -1), c.unsqueeze(1)], dim=1)
        output = self.encoder(input)
        
        # 平均と分散を取得
        mean, logvar = output.chunk(2, dim=1)
        
        return mean, logvar
    
    # デコーダでzから再構築
    def decode(self, z: torch.Tensor, c: torch.Tensor) -> torch.Tensor:
        # 条件を追加して結合
        input = torch.cat([z, c.unsqueeze(1)], dim=1)
        output = self.decoder(input)
        
        return output.view(output.size(0), max_length, charset_length)

    def forward(self, x: torch.Tensor, c: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
        mean, logvar = self.encode(x, c)
        # 標準正規分布からサンプリング
        z = self.reparameterize(mean, logvar)
        output = self.decode(z, c)
        
        return output, mean, logvar

    # 復元用関数
    def reparameterize(self, mean: torch.Tensor, logvar: torch.Tensor) -> torch.Tensor:
        std = torch.exp(logvar / 2)
        eps = torch.randn_like(std)
        
        return mean + eps * std

以上になります。エンコーダとデコーダの層数やユニット数、潜在変数の次元数はハイパーパラメータであり、調整を要します。また潜在変数zからサンプルを生成する際に「reparameterization trick」が用いられています。これにより、確率的な出力を含むニューラルネットワークのバックプロパゲーションが可能となります。

最適化手法や損失関数の設定、訓練ルーチンの実装など、ここから先は具体的な問題やデータに合わせて細部を調整する必要があります。具体的にどのような設定や手続きを行うべきか、何か望ましい挙動や結果についてやりとりしながら決めていきましょう。


user:

上記コードをベースに、下記エラーを修正した全コードを書いてください。またその際に、型ヒントも導入してください。コード中に日本語での説明も可能な限り詳しくお願いします。Pythonのコーディング規約PEP8に準拠してください。

/tmp/ipykernel_52742/30677591.py:28: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:230.)
  smiles_tensor = torch.tensor(one_hot_list, dtype=torch.float32)
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
Cell In[4], line 29
     27 # 学習の際に利用するためTensor型に変換
     28 smiles_tensor = torch.tensor(one_hot_list, dtype=torch.float32)
---> 29 sol_tensor = torch.tensor(data_frame['SOL'].values, dtype=torch.float32)
     31 # 潜在変数の次元数を定義
     32 latent_dim = 50

TypeError: can't convert np.ndarray of type numpy.object_. The only supported types are: float64, float32, float16, complex64, complex128, int64, int32, int16, int8, uint8, and bool.

assistant:

エラーメッセージを見ると、torch.tensor()でNumPyのndarrayをPyTorchのTensorに変換する際に問題が発生しているようです。data_frame['SOL'].valuesがnumpy.object型であり、PyTorchのTensorがサポートしていない型であることが原因と考えられます。

data_frame['SOL'].valuesのデータ型を確認してみましょう。以下のコードで確認することができます。

print(data_frame['SOL'].dtypes)

おそらくdata_frame['SOL']のデータ型がobject型(つまり文字列)となっているのではないかと思われます。あるいは値にNoneNaNなどの欠損値が含まれている可能性もあります。そういったデータはまず適切に前処理を行う必要があります。例えば、以下のような前処理を行うことが考えられます。

# 'SOL'カラムがNaNでない行のみを抽出
data_frame = data_frame[~data_frame['SOL'].isna()]

# 'SOL'カラムの型を数値に変換
data_frame['SOL'] = data_frame['SOL'].astype(float)

なお、smiles_tensorについても、リストから一度NumPyのndarrayに変換した後、それをPyTorchのTensorに変換するとパフォーマンス改善が見込めます。

それでは、上記のエラー修正を行った全コードを以下に示します。

import torch
from torch import nn
import numpy as np
from typing import List, Tuple

# 出現する全ての文字をリストアップ
charset = sorted(list(set(''.join(data_frame['smiles'].values))))
charset_length = len(charset)

# 文字列の最大長さを計算
max_length = max(map(len, data_frame['smiles']))

# 文字列からone-hotエンコードした配列への変換関数
def string_to_one_hot(smiles_string: str) -> np.array:
    one_hot = np.zeros((max_length, charset_length), dtype=np.int8)
    for i, c in enumerate(smiles_string):
        one_hot[i, charset.index(c)] = 1
    return one_hot

# one-hotエンコードした配列から文字列への変換関数
def one_hot_to_string(one_hot: np.array) -> str:
    return ''.join(charset[i] for i in one_hot.argmax(axis=1))

# 各smiles文字列をone-hotエンコーディングし、リストに追加
one_hot_array = np.array([string_to_one_hot(s) for s in data_frame['smiles']])

# 学習の際に利用するためTensor型に変換
smiles_tensor = torch.tensor(one_hot_array, dtype=torch.float32)
sol_tensor = torch.tensor(data_frame['SOL'].values.astype(np.float32), dtype=torch.float32)

# 潜在変数の次元数を定義
latent_dim = 50

class CVAE(nn.Module):
    def __init__(self):
        super(CVAE, self).__init__()
        
        # エンコーダの定義
        self.encoder = nn.Sequential(
            nn.Linear(max_length * charset_length + 1, 512),
            nn.ReLU(),
            nn.Linear(512, 256),
            nn.ReLU(),
            # 出力は平均と分散を返すため、2倍のサイズが必要
            nn.Linear(256, 2 * latent_dim)
        )
    
        # デコーダの定義
        self.decoder = nn.Sequential(
            nn.Linear(latent_dim + 1, 256),
            nn.ReLU(),
            nn.Linear(256, 512),
            nn.ReLU(),
            nn.Linear(512, max_length * charset_length),
            nn.Sigmoid()
        )
        
    # 入力データと条件をエンコード
    def encode(self, x: torch.Tensor, c: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
        # 条件を追加して結合
        input = torch.cat([x.view(x.size(0), -1), c.unsqueeze(1)], dim=1)
        output = self.encoder(input)
        
        # 平均と分散を取得
        mean, logvar = output.chunk(2, dim=1)
        
        return mean, logvar
    
    # デコーダでzから再構築
    def decode(self, z: torch.Tensor, c: torch.Tensor) -> torch.Tensor:
        # 条件を追加して結合
        input = torch.cat([z, c.unsqueeze(1)], dim=1)
        output = self.decoder(input)
        
        return output.view(output.size(0), max_length, charset_length)

    def forward(self, x: torch.Tensor, c: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
        mean, logvar = self.encode(x, c)
        # 標準正規分布からサンプリング
        z = self.reparameterize(mean, logvar)
        output = self.decode(z, c)
        
        return output, mean, logvar

    # 復元用関数
    def reparameterize(self, mean: torch.Tensor, logvar: torch.Tensor) -> torch.Tensor:
        std = torch.exp(logvar / 2)
        eps = torch.randn_like(std)
        
        return mean + eps * std

上記のコードでは、まず'one_hot_array'を作成する際にNumPyのndarrayに変換しています。そしてsol_tensorを作成する際に、data_frame['SOL'].valuesをNumPyのfloat型にキャストしてからTensorに変換しています。これらの修正により、エラーメッセージが出ていた部分を解消できるはずです。ただし、'SOL'カラムのデータに欠損値が含まれている場合は、先にそれを適切に処理する必要があります。


user:

ありがとうございます。上記のCVAEクラスを用いて学習するコードを書いてください。


assistant:

CVAEクラスを用いて学習するためのコードを以下に示します。ここでは、訓練ルーチンの基本的な枠組みを示しますが、具体的なデータの準備や最適化のプロセス、学習パラメータ等は必要に応じて調整してください。

from torch import optim

# CVAEインスタンスを作成
cvae = CVAE()

# 最適化手法の設定
optimizer = optim.Adam(cvae.parameters(), lr=0.001)

# バッチサイズの設定
batch_size = 128

# エポック数の設定
num_epochs = 10

# 学習ルーチン
for epoch in range(num_epochs):
    print(f'Epoch {epoch+1}/{num_epochs}')
    for i in range(0, len(smiles_tensor), batch_size):
        # ミニバッチを取得
        smiles_batch = smiles_tensor[i:i+batch_size]
        sol_batch = sol_tensor[i:i+batch_size]
        
        # 勾配を初期化
        optimizer.zero_grad()
        
        # モデルの順伝播
        output, mean, logvar = cvae(smiles_batch, sol_batch)
        
        # 損失関数の計算
        # ここでは平均二乗誤差とKLダイバージェンスの和を損失関数とする
        # KLダイバージェンスは正規分布間の距離を表すため、潜在空間の事前分布と事後分布の距離を小さくする役割がある
        recon_loss = nn.MSELoss()(output, smiles_batch)
        kl_loss = -0.5 * torch.sum(1 + logvar - mean.pow(2) - logvar.exp())
        loss = recon_loss + kl_loss
        
        # バックプロパゲーション
        loss.backward()
        
        # 最適化ステップ (パラメータの更新)
        optimizer.step()
        
    print(f'Loss: {loss.item()}')

ここでは学習データ全体を128のバッチサイズに分割して、エポックごとにそれぞれのバッチに対応する勾配を計算し、パラメータを更新しています。損失関数は平均二乗誤差とKLダイバージェンスの和としています。この損失関数はバリエーショナルオートエンコーダーの場合に一般的に用いられます。平均二乗誤差は再構成誤差を表し、KLダイバージェンスは潜在空間の事後分布が事前分布(標準正規分布)に近づくことを強制します。


user:

ありがとうございます。次の結果が得られました。

Epoch 1/10
Loss: 0.06176424026489258
Epoch 2/10
Loss: 0.04635481908917427
Epoch 3/10
Loss: 0.0380839928984642
Epoch 4/10
Loss: 0.0359027236700058
Epoch 5/10
Loss: 0.03483186662197113
Epoch 6/10
Loss: 0.03340081125497818
Epoch 7/10
Loss: 0.033231668174266815
Epoch 8/10
Loss: 0.03296180069446564
Epoch 9/10
Loss: 0.03214891999959946
Epoch 10/10
Loss: 0.03238648548722267

assistant:

学習が無事に進行し、全10エポックの学習が終了し損失が減少していることが確認できますので、モデルの学習が十分に機能したと言えます。損失がエポックごとに減少していく様子から、モデルが設定したタスクを学習し、性能が向上していっていることがわかります。

次のステップとしては以下のようなことが考えられます:

  1. 検証データセットでの性能評価: 学習データでの学習結果は過学習の可能性がありますので、検証データセットでモデルの性能をチェックしましょう。これは学習に使用しなかったデータで評価することでモデルが未知のデータに対してどの程度良い性能を発揮するのかを確認するためです。
  2. 学習の可視化: 各エポックでの損失の変動をグラフ等で描画し、学習の進行をより直感的に理解しましょう。
  3. ハイパーパラメータのチューニング: バッチサイズ、学習率、エポック数などのハイパーパラメータを変更して、モデルの性能を最適化しましょう。

以上、このようなプロセスを繰り返しながらモデルの性能を改善していくことが一般的な機械学習のフローになります。


user:

ありがとうございます。とりあえず、学習済みのCVAEを使ってSMILESを生成したいのですが、そのコードを書いてください。その際に、型ヒントも導入してください。コード中に日本語での説明も可能な限り詳しくお願いします。Pythonのコーディング規約PEP8に準拠してください。


assistant:

CVAEを使って新しいSMILESを生成するためのコードを以下に示します。

def generate_smiles(cvae: nn.Module, sol_val: float) -> str:
    # CVAEを評価モードに設定
    cvae.eval()
    
    # 標準正規分布からランダムに潜在変数をサンプリング
    z = torch.randn(1, latent_dim)
    
    # SOL値をテンソルに変換
    c = torch.tensor([sol_val], dtype=torch.float32)
    
    # デコーダでSMILESを生成
    with torch.no_grad():
        output = cvae.decode(z, c)
    
    # 出力テンソルをone-hotエンコーディングから元のSMILESに変換
    generated_smiles = one_hot_to_string(output.detach().numpy().reshape(max_length, charset_length))
    
    return generated_smiles

この関数ではまずランダムに潜在変数をサンプリングして、それと条件として使用するsol_valを与えてデコーダでSMILESを生成しています。その出力はone-hotエンコードされたSMILESに対応するテンソルなので、それを元のSMILESに変換するためにone_hot_to_string()関数を使用しています。

上記の関数を使うと、指定したsol_valに対応するSMILESを生成できます。
最後に、試しに生成してみるコードを以下に示します。

# sol_val の値を適用してSMILES文字列を生成します。
generated_smiles = generate_smiles(cvae, sol_val=1.5)
print(generated_smiles)

この1.5はSOL値で、それに基づいてSMILES文字列が生成されます。ちなみに生成されたSMILES文字列が実際に意味のあるものであるかは、化学的に解析するなどして確認してください。常に意味のあるSMILESが生成されるわけではないので注意してください。


user:

ありがとうございます。次の結果が得られました。

O=C(CCCCC)CcC)C(O)C1OC2C=CC=CC=CC=CCC(C)OC(=O)C=CC(O3)C3CC(O)CC4(O)OC(C(C(=O)O)C(O)C4)C2

assistant:

生成されたSMILES文字列が化合物を表現可能なものかを判定するには、実際に化学構造を作成してみると良いでしょう。rdkitというPythonのライブラリを使用することで簡単に生成できます。以下に、該当のコードを示します。

from rdkit import Chem
from rdkit.Chem import Draw

# SMILES文字列を分子へ変換
molecule = Chem.MolFromSmiles(generated_smiles)

# 分子構造の描画
Draw.MolToImage(molecule)

ただし、生成されたSMILESが実際にAPLを満たす化学的意味を持つものかどうかは、専門的な知識とより詳細な解析が必要となります。

また、必ずしも生成された全てのSMILESが化学的に意味のある構造を持つわけではない点に注意が必要です。特に、初期の学習段階では無意味なSMILESや化合物として成立しないSMILESが出力されることがあります。また、CVAEが生成するSMILESの質は学習データと学習の度合いに大きく依存します。モデルの学習により十分に潜在空間が学習データの分布を獲得できていれば、新たに生成されるSMILESも学習データに近いものとなるでしょう。


user:

ありがとうございます。次の結果が得られました。

[11:10:24] SMILES Parse Error: extra close parentheses while parsing: O=C(CCCCC)CcC)C(O)C1OC2C=CC=CC=CC=CCC(C)OC(=O)C=CC(O3)C3CC(O)CC4(O)OC(C(C(=O)O)C(O)C4)C2
[11:10:24] SMILES Parse Error: Failed parsing SMILES 'O=C(CCCCC)CcC)C(O)C1OC2C=CC=CC=CC=CCC(C)OC(=O)C=CC(O3)C3CC(O)CC4(O)OC(C(C(=O)O)C(O)C4)C2' for input: 'O=C(CCCCC)CcC)C(O)C1OC2C=CC=CC=CC=CCC(C)OC(=O)C=CC(O3)C3CC(O)CC4(O)OC(C(C(=O)O)C(O)C4)C2'
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
Cell In[9], line 8
      5 molecule = Chem.MolFromSmiles(generated_smiles)
      7 # 分子構造の描画
----> 8 Draw.MolToImage(molecule)

File ~/.local/lib/python3.10/site-packages/rdkit/Chem/Draw/__init__.py:233, in MolToImage(mol, size, kekulize, wedgeBonds, fitImage, options, canvas, **kwargs)
    203 """Returns a PIL image containing a drawing of the molecule
    204 
    205     ARGUMENTS:
   (...)
    230       a PIL Image object
    231 """
    232 if not mol:
--> 233   raise ValueError('Null molecule provided')
    234 if canvas is not None or not hasattr(rdMolDraw2D, 'MolDraw2DCairo'):
    235   return _legacyMolToImage(mol, size, kekulize, wedgeBonds, fitImage, options, canvas, **kwargs)

ValueError: Null molecule provided

assistant:

生成されたSMILES文字列が、一部符号の不整合(括弧の不整合など)があって化合物として成立しない形となっているようです。これはCVAEが生成するSMILESが常に化学的に正しい構造になるわけではないためです。

モデルの生成品質を改善するための方法としては以下のようなものがあります:

  1. モデルの学習をより長く行う。
  2. データセットの質を改善し、ノイズを減少させる。
  3. 学習の過程で生成されたSMILESが化学的に有効なものであることを確認するような罰則項を損失関数に追加する。
  4. 構成する層の数やユニットの数など、モデルの構造を変更する。

なお、SMILESの生成には確率的な要素が含まれていますので、一回の生成で有効なSMILESが得られない場合でも、何度か試すと有効なSMILESが生成されることもあります。


user:

data_frame['SOL']の分布を可視化するコードを書いてください。その際に、型ヒントも導入してください。コード中に日本語での説明も可能な限り詳しくお願いします。Pythonのコーディング規約PEP8に準拠してください。


assistant:

data_frame['SOL']の分布を可視化するためには、matplotlibseaborn のライブラリを用いることが一般的です。以下に該当のコードを示します。

import matplotlib.pyplot as plt
import seaborn as sns
from pandas import DataFrame

def plot_sol_distribution(data_frame: DataFrame) -> None:
    # SOLの列の値を取り出す。
    sol = data_frame['SOL']
    
    # ヒストグラムをプロットする。
    sns.histplot(sol, kde=True)
    
    # グラフのタイトルとラベル名を設定する。
    plt.title('Distribution of SOL')
    plt.xlabel('SOL value')
    plt.ylabel('Frequency')
    
    # グラフを表示する。
    plt.show()

plot_sol_distribution(data_frame)

output_11_0.png

この関数は、まずdata_frame['SOL']からSOLの値を取り出し、それらをseaborn.histplot()関数に渡してヒストグラムをプロットします。また、このヒストグラムにはカーネル密度推定(Kernel Density Estimate, KDE)も表示しています。

plt.title(),plt.xlabel(),plt.ylabel()でグラフのタイトルと各軸のラベル名を設定します。

最後に、plt.show()でグラフを表示します。この関数を実行すると、SOLの値の分布を示すヒストグラムが表示されます。


user:

生成したSMILES文字列を後ろから1文字ずつトリミングしていって、RDKitが化合物構造として認識してくれるSMILES文字列になったらそれを出力するコードを書いてください。その際に、型ヒントも導入してください。コード中に日本語での説明も可能な限り詳しくお願いします。Pythonのコーディング規約PEP8に準拠してください。


assistant:

生成したSMILES文字列から後ろを1文字ずつトリミングするまでを繰り返し、RDKitが認識できるSMILESになったら出力するコードを以下に示します。

from rdkit import Chem

def trim_to_valid_smiles(smiles: str) -> str:
    for i in range(len(smiles), 0, -1):
        # 後ろから1文字ずつトリミング
        trimmed_smiles = smiles[0:i]
        
        # RDKitが化合物構造として認識できるかチェック
        molecule = Chem.MolFromSmiles(trimmed_smiles)
        if molecule is not None:
            # 認識できたらSMILESを返す
            return trimmed_smiles
    
    # 全部トリミングしても認識できない場合はNoneを返す
    return None

この関数では、まずrange(len(smiles), 0, -1)を使って後ろから1文字ずつトリミングしながらループを回しています。各ループでChem.MolFromSmiles(trimmed_smiles)を使ってRDKitがトリミングしたSMILESを化合物構造として認識できるかを判断しています。認識できた場合(molecule is not None)、そのSMILESを返すようになっています。全てのトリミングが終わっても認識できなかった場合はNoneを返すようになっています。

この関数を以下のように使うことで、生成したSMILESが化学的に有効かどうかを確認できます。

trimmed_smiles = trim_to_valid_smiles(generated_smiles)
if trimmed_smiles is not None:
    print(trimmed_smiles)
else:
    print("Generated SMILES is not valid.")
O=C(CCCCC)C

user:

それでは、sol_valの値を [-10, -8, -6, -4, -2, 0, 1] としたときに、それぞれ CVAEでSMILES文字列を生成して、トリミングして、得られた化学構造を描画するコードを書いてください。その際に、型ヒントも導入してください。コード中に日本語での説明も可能な限り詳しくお願いします。Pythonのコーディング規約PEP8に準拠してください。


assistant:

以下のコードはまず配列 sol_vals = [-10, -8, -6, -4, -2, 0, 1] の各要素に対してSMILES文字列を生成し、それらをトリミングしてから、RDKitを用いて化学構造を描画します。

from rdkit.Chem import Draw
from typing import List

def draw_molecules(cvae: nn.Module, sol_vals: List[float]) -> None:
    for sol_val in sol_vals:
        # CVAEを使ってSMILESを生成
        generated_smiles = generate_smiles(cvae, sol_val)
        
        # SMILESをトリミング
        trimmed_smiles = trim_to_valid_smiles(generated_smiles)
        
        # SMILESが化学的に有効でなければスキップ
        if trimmed_smiles is None:
            print(f"SOL value: {sol_val}, Generated SMILES is not valid.")
            continue
        
        # 分子構造を描画
        molecule = Chem.MolFromSmiles(trimmed_smiles)
        print(f"SOL value: {sol_val}")
        display(Draw.MolToImage(molecule))

# 実行
draw_molecules(cvae, sol_vals=[-10, -8, -6, -4, -2, 0, 1])

このコードでは、まず関数draw_moleculesの引数としてCVAEモデルとSOL値のリストを受け取ります。次に、各SOL値に対してgenerate_smiles関数を用いてSMILES文字列を生成します。生成されたSMILESに対してtrim_to_valid_smiles関数を使用してトリミングを行い、有効なSMILESが得られた場合のみ化学構造を描画します。描画できなかった場合(無効なSMILESの場合)、その旨をprint文で出力しています。

なお、このコードでは各SOL値に対して一つずつ図を描画します。全ての図を一つの図面でまとめて表示したい場合などは、それに応じてコードを調整してください。

output_14_2.png
output_14_5.png
output_14_8.png
output_14_11.png
output_14_14.png
output_14_17.png
output_14_20.png


user:

H2Oばかり出力されました。


assistant:

出力結果が"テトラヒドロキシメチルメタン"(H2O)ばかりとなる場合、その理由は以下のようなものが考えられます。

  1. モデルの学習が十分でない:モデルが未だ十分に学習できていない場合、予測結果が一部の化合物(ここではH2O)に偏ることがあります。モデルの学習を続けるか、ハイパーパラメータを調整して学習の進行具合を確認してみてください。

  2. 訓練データが偏っている:訓練データが特定の化合物(この場合H2O)に対して偏っていると、モデルはその化合物を頻繁に予測します。訓練データを確認し、必要に応じて多様な化合物を含むようにしてみてください。

  3. 条件付き生成のパラメータが不適切:ここでは、sol_val の値がSMILES生成に利用されていますが、この値が不適切であると、生成される化合物のバリエーションが限られることがあります。たとえば、特定の sol_val の範囲のみが訓練データに存在し、その範囲外の sol_val を指定すると、モデルは訓練データ内の似たような化合物(この場合H2O)を生成する傾向があります。sol_val の値を調整してみてください。

  4. 予測の乱数シードが固定されている:SMILES生成はランダム性を含む処理ですが、乱数シードが固定されていると、毎回同じ化合物が生成されます。乱数シードが固定されている場合は、その設定を解除するか変更してみてください。

これらの理由の中で該当するものを特定し、その問題を解決することが求められます。また、その他の理由としてはモデルやその設定が適切でない可能性もあります。モデルのチューニングだけでなく、異なるモデルを試すことも検討してみてください。


user:

エポック数を100にすると、いくぶんマシな結果になりました。

output_16_2.png
output_16_5.png
output_16_8.png
output_16_11.png


assistant:

エポック数を増やしたことで結果が改善したとのこと、それは良かったです。

ニューラルネットワークの訓練では、エポック数(すなわち訓練データを何回繰り返して学習するか)は非常に重要なパラメータの一つです。エポック数が少なすぎると、モデルは十分に学習できずに未学習(underfitting)の状態になります。一方、エポック数が多すぎると、訓練データに過剰に適合し過学習(overfitting)の状態になり、未見のデータに対する性能が低下します。

今回の場合、エポック数を100に増やすことで結果が改善したということは、もともとのエポック数ではモデルが未学習の状態だった可能性が高いです。さらなる改善を目指す場合は、さらにエポック数を増やすことを試してみると良いでしょう。ただし、過学習を避けるために、訓練データとは別に検証データを用意して、検証データに対する性能も定期的にチェックすることをお勧めします。


user:

ありがとうございます。それでは、CVAEを用いた化合物SMILES生成について、詳しいまとめを書いてください。


assistant:

実験ではCVAE(Conditional Variational AutoEncoder)を用いて、特定の水溶性値(SOL)を持つ化学構造のSMILES表現を生成しました。

初めに、CVAEモデルはSMILES表現の化合物とそれらのSOL値から学習しました。訓練データには既知の化合物とそのSOL値が含まれています。CVAEモデルは、特定のSOL値を持つ化合物のSMILES表現を生成する方法を学習しました。

次に、モデルは特定のSOL値で新しい化学構造のSMILESを生成しました。しかし、これらの生成されたSMILESは必ずしも化学的に有効(例えば、原子の価数がバランスしている)とは限りません。したがって、RDKitの化学的チェックを使用して、生成されたSMILESが化学的に有効なものかどうかを確認しました。

また、生成したSMILESから削除することで、より小さな化学構造(可能な限り)を収集しました。これは、化学的に有効な構造を生成するために必要な最小限のSMILESを見つけるためです。

最後に、生成されたSMILESから抽出した有効な化合物の構造をRDKitを用いて描画しました。

全体として、CVAEを用いることで、特定のSOL値をもつ化合物の新しい候補を自動的に生成することができました。初期の結果は完全ではありませんでしたが、モデルの学習を進めることで結果は徐々に改善されました。

これらの手法は、新しい化合物の発見を助けるだけでなく、既存の化合物の新たな特性を理解するのにも役立つことが期待されます。これらは、新薬の開発や、材料科学、環境科学など、幅広い領域での研究に貢献する可能性があります。


user:

最後に、ここまでの議論を踏まえたダジャレを創作してください。


assistant:

CVAEの訓練でエポック数を増やし、SMILESを生成してくれるようになったとき、
「エポック、おっぽっくてシミレーしました!」


0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0