PSMILESのMI的利用

2024.9.14

pirika.comで化学 > 化学全般 > 高分子化学 >

PSMILESのMI的利用

[X]を使って、テキスト操作でPSMILESをつくる。

HSPiPソフトのCLI(コマンド・ライン・インターフェイス)ライセンス・ユーザーはMI用にHSPiPを使う。
例えば、様々な種類の無水テトラカルボン酸、様々なジアミンのポリマーを組み上げてY-PBで計算をしたいとする。

例えばある特許に次のような化合物群が記載されていた。

10*20の分子の絵を順繰りにJSMEで描いてPSmilesを得ることもできる。
しかし、無水テトラカルボン酸、ジアミンを次のように[X]繰り返し表現で作成しておけば、10+20のPSmilesを作っておけば、後はテキスト操作で全ての組み合わせのPolymer Smilesを作ることができる。

データベースを作る際にも、2つのモノマーの完全交互共重合扱いできるので便利になる。

[X]をターミネーターとして使う。

SMILES中に[X}が2つあると、[X}と[X]の間がユニット・セルになって繰り返されるとプログラムは判断する。(3つ以上[X}があると、誤認識する可能性がある。)
[X]を1つだけ含む事もできる。
プログラム上は、X-CCとあったときには、CH2とCH3があると判断する。その構造は本来であればラジカルになってしまうが、単に原子団の数だけでの計算になる。

これをうまくつかうと、分子の特定の位置に、側鎖を片っ端に入れることができる。

薬の設計などでも、生物等価性の官能基をテキスト操作で入れるのも簡単だろう。

その際に、SMILES構造式の環の定義には気をつける必要がある。SMILESでは、環は適当なところ切断し、同じ数字を原子につけて、元の結合を表す。そこで、分子中の環の数は1-9になる。
ところが、実際にプログラムを書く人には当たりまえなのだが、環は9個以上もつかえる。テキスト中で、最初に出てきた数字が、もう一度出てきた段階で、再利用が可能になる。
例えば下図で、元の分子は環を6個まで使っている。そこで側鎖の環の番号は7からにしておく。元の分子の[X}に[X}CC7OC7をつけ、[X}{X}を消すと分子のSMILESを得ることができる。3つとも[X}CC7OC7であっても、C7C7で閉じてしまえば、再びC7C7が来ても問題ない。

[X]の位置に注意

[X]で官能基が分断されないように注意しよう。

また、[X]は末端にあった方が圧倒的に利用価値が高い。
JSMEなどを用いた場合には[X]の位置は自由にならない。
自動修正するWebアプリは簡単なので作っておくとよいだろう。

PirikaではRDKitを併用する場合には、繰り返し単位に[At]を使うこともある。そうした時にも、このアプリで変換できる。

MIを使った生産性の向上が化学系であまり進まないのが、こうしたプログラミングのせいかもしれない。基本プログラマーは化学を知らない。頼んでも作ってくれない。ChatGPTに聞きながら化学者が作るしかない。

Copyright pirika.com since 1999-
Mail: yamahiroXpirika.com (Xを@に置き換えてください)
メールの件名は[pirika]で始めてください。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です