2018.12.8
情報化学+教育 > 情報化学 > フリー・ツールの利用
Chemo-Informatics用のフリーウエアーの代表といえばrdkitでしょう。
ドキュメントはこちらにあるので参考にすると良いでしょう。
インストールの仕方、使い方などは、ネット上にいくらでも情報が溢れています。
例えば、「化学の新しいカタチ」のHPは秀逸です。
Pirikaの方針は、「表計算ソフト、ブラウザー、ネットワーク接続があれば、Materials Informaticsだろうが何だろうができてしまう」なので、インストールは必須では無い。
大事なのは、化学の知識の方だと思っています。
授業の時に、「アセトンの構造がわかる人?」って聞いて愕然としたのだけど、誰もわかりませんでした。
確かに、化学工学の学生にとっては、分子の構造などはどうでもいいのかもしれません。
コンピュータにアセトンの分子構造を見せても画像としてしか認識しないように(構造がわからなければGoogleの画像検索でアセトンと検索してみよう)人間にとっても意味不明の記号のようです。
コンピュータに分子の構造を教えるのには、自分はこの10年SMILESの構造式を使っています。
Smilesで扱うことのメリットの一番は、表計算ソフトの中のセルに埋め込むことができることです。
またマテリアルズ・インフォマティクス用のツールのほとんどもSMILES構造式に対応しているので、それも有難いです。
rdkitを使ったSmiles Viewer 2018.12.8
注意:RDKitはサイズが6Mbyte以上あります。スマホなどでアクセスするのは避けたほうが良いです。
慣れてくれば、Smilesをみれば分子の大体の構造は見当がつくようになります。
しかし、複雑な分子になると、一応構造を確認したいこともある。
その時にはこのページでrdkitに構造を描かせれば良いでしょう。
何故、このようなビュアーが必要かと言うと、マテリアルズ ・インフォマティクス などを使って、予測式を作った時に、どうしても予測式から外れる化合物が出てきます。
その時に、実際にどんな構造なのかを確認する時に有用なソフトです。
でも、有用なのは、構造式を見て内容を理解できる人間かAIだけです。
単なる記号にしか見えないなら、見てもしょうがありません。
SVGの綺麗な構造を書いてくれます。おまけでSVGデータも取り出せるようにしてみました。
テキストエリアの構造を全部選択コピーして、テキストエディターにペーストします。
それをXXX.svgと拡張子をsvgでセーブすれば(最新の)パワポなどに貼り付けることができます。
rdkitを使ったSmiles ViewerはあくまでもSmilesを受け取って処理する部分のデモです。
この先rdkit自体は表に出ることは多くなく、バックグランドで縁の下の力持ちになります。
SVGの画像データは美しいのは良いが、SVGデータからPNGに変換して、右クリックで画像をコピーできるように改造してみました。
そこらへんの改造についてはプログラミング講座の方で解説しましょう。
それでは、分子をお絵描きしてその分子のSmiles構造式を得るにはどうしたら良いでしょうか?
予算があって有償の分子描画ソフトを買える場合には、大抵のソフトにはSMILES吐き出し機能が付いているので問題ないでしょう。
JChemPaintなどJAVAのアプリケーションもあるし、私もJavaScriptで分子のお絵描きソフトは作りました。
今使いたいなら、圧倒的に優れているのは、JSMEでしょう。様々なHPに搭載されているので見た事、使った事があるでしょう。(簡単な使い方)
JSMEプログラム 2018.12.9
本当は、本家本元から最新版をダウンロードして使って欲しいと思います。
ここでは、JSMEをフロントエンドにして様々な機能を統合していくので、pirikaに置かせてもらっています。
分子の描き方は十分に慣れておいて欲しいと思います。
このJSME自体にもSMILESの構造式などを受け付けて2D分子を表示する機能が含まれています。
RDkit 識別子作成説明のページ 2018.12.9
マテリアルズ・インフォマティクスなどでは、自分の知りたい物性値を予測するために説明変数を必要とします。
RDKit Smiles to 2D & 3D-Structure (2021.1.29)
説明変数として分子に含まれる原子団を使う場合には原子団寄与法と呼びます。
分子の体積や表面積、形状の因子などを説明変数に用いることも多いようです。
RDKitを本格的に使う場合にはPythonなどの知識が必要ですが、ブラウザーだけでできることも色々あります。
実際に識別子を作ってMaterials Informaticsをやってみましょう。
2019.1.9:分子結合インデックスの計算に誤りがありました。
本来、Chiパラメータは水素原子は計算に含めないはずです。
Smilesの構造から3次元分子を作る際に水素を付加させていました。
この付加の影響でRDKitの計算結果のうち特にChiパラメータなどが大きくずれてしまっていました。
EPA T.E.S.T. 2019.1.23
EPA(United States Environmental Protection Agency:米国環境保護庁)からTESTと言うフリーウエアーが配布されています。
TESTというのは、Toxicity Estimation Software Toolの略です。
毒性をやるのであれば非常に優れたソフトであるのでインストールしておきましょう。
また毒性に関連して非常に有用なデータセットも提供されています。
筆者は、現役の時にはフロン代替の設計など、EPAの環境関連とかぶる仕事をしていたので、EPAのやり方は常に目標でした。まー、pirika.comは、どこからも何の助けもない趣味のサイトではあるけど、logKowなどでは、EPAからのリンクもあったりするのが、頑張れるモチベーションになっている。
アフター・トランプのEPAの活躍を願っています。
その解析例を作ったので自分でやってみよう。
識別子作成ソフトとしても非常に優れています。
内部的にはCDK(Chemistry Development Kit)を使っています。
このCDKも古くから定評のあるソフトウエアーです。
それ以外、EPAからはEPI Suiteと言うソフトも公開されています。
EPI (Estimation Program Interface)はWindows版しか無いので使ったことがありませんが中に入っているデータセットは有用です。
論文ではpirika.comも引用されているので、いつか、そうした研究者と話してみたいものです。
Avogadro
Webベースではないが、Mac,Windowsで使える分子の3次元表示のプログラムとして著名なソフトウエアーです。
様々な分子軌道計算などを実行するコントローラーとしても有用だ。
内部的にはOpenBabelを用いてファイル構造変換を行なっています。
時々クラッシュするし、更新されていなかったので余り使っていませんでした。
全く別件で調べていたところ、Open ChemistryからAvogadro2の形で配布されているのを見つけました。時間を見つけて使い方を紹介しましょう。
MolCalc
様々な分子軌道計算を実行する環境です。
Job・ランチャーとして非常に有用なので、そのうち使い方をレポートしようと思います。
高価な割に、これと同じ程度の事しかできないソフトは淘汰されていくのでしょう。
OpenBabel
Babelというソフトも息の長いソフトです。
分子構造のフォーマットを変換するソフトとして長く使われています。
私は主にSMILESの構造式から、3次元分子構造への変換に用いています。
SDFフォーマット中の3次元構造は基本的にはmolフォーマットと同じでです。
ただし、molフォーマットは、2次元のもの、水素を付加しないものなど中途半端なものが多いので、pirikaではmolフォーマットは採用せず、mol2フォーマットを採用しています。
rdkitではSDFのファイルフォーマットには変換できるのですが、mol2などのフォーマット、分子軌道計算を行う用のフォーマットに変換できるOpenBabelを併用するのは重要です。
自分はMacを使っていると、iBabelというGUI付きのソフトが公開されています。
非常に使い勝手が良いです。
JavaScript用のopenbabel.jsも公開されていますが、まだ完全では無いようです。水素の付加がうまくいきません。
徐々に、他のソフトと連携をとった形のものをアップしていこうと思います。
JSmolなどの分子の3次元表示ソフト
JSmolというのは、JmolのJavascript版で、分子を3次元表示するソフトウエアーです。
元々はJava版であったが、Javaがそのセキュリティーの問題からアプレットしては使われなくなりました。
そこで、Javascript版として復活してきたのかもしれません。
RDKitやOpenBabelと連携を取ろうかと思ったのですが、最近のOSではセキュリティーの関係で404エラーが出てしまうので、とりあえずは自作の3次元表示ソフトの方を使っています。
見栄えはJMolと比べ良くないですが、RDKitの吐き出す3D構造の妥当性を検証するには手軽です。
RDKitの古いバージョンでは、二重結合に付加する原子が同じ平面に乗らなかったのですが、新しいバージョンでは直っていました。
SDFファイルの取り扱い
分子のSDFフォーマットというのは、原子の3次元位置や結合を示すmolフォーマットに様々な物性値や名称、CAS番号などを書き込んで、さらに複数の分子をひとまとめにしたファイル・フォーマットです。
大きいものでは数千分子をひとまとめにしたものもあります。
これを1分子1行の表計算フォーマットに変換するソフトを作ってみました。
データをSDFフォーマットでダウンロードした場合にはこのように処理します。
フリーのWebサービス
PubChem:
化合物の情報を得たいのであれば、このサイトはピカイチです。
PubChem Identifier Exchange Service
というのがあって、CAS番号、PubChem CID, InChis, Smilesなどの分子を特定するIdentifierを他のものに一括変換できます。変換スピードが早いのが特徴です。
CTS, The Chemical Translation Service:
このページも化合物の名称などから、様々な分子のIdentifierへ変換してくれます。対応するフォーマットが広いのはいいですが、変換は遅いです。
情報化学+教育 > 情報化学 > フリー・ツールの利用
Copyright pirika.com since 1999-
Mail: yamahiroXpirika.com (Xを@に置き換えてください) メールの件名は[pirika]で始めてください。