pirika logo

Home 化学 HSP 情報化学+教育 PirikaClub Misc.
情報化学+教育トップ 情報化学 MOOC YMB MAGICIAN MAGICIAN Club

情報化学

ピリカで情報化学

2018.12.8

非常勤講師:山本博志 講義補助資料

ケモ・インフォマティクス(情報化学)

私が、ケモ・インフォマティクス(Chemo-Informatics)に一番取り組んでいたのは、2005年ごろであろうか。

博士号を取るためであった。

それから、10年以上たったが、急速に状況が変わってきた。
原因は、Materials Gemome Initiative (材料ゲノム構想)であろう。

これは2011年にアメリカでスタートした構想である。
似た様な構想が中国でもスタートしている。

2015年ごろには結果も出始めて日本にもそれなりにショックを与えた。

そして、Materials Genomeに対抗してか、Materials Informatics(材料情報学)と言う言い方に変えて、様々なプロジェクトが始まっている。

特に去年には、囲碁や将棋でもAIが人間を倒してしまったことから、急速にAIを利用する事が注目を集めている。

また、コンピュータの高速化、ネットワークの高速化、ネット上の大量なテキスト、画像データの集積などビッグデータが利用しやすい環境が整ったのも、状況が変わった要因の一つであろう。

しかし、それをなんと呼ぼうがやっていることは、30年間変わっていない。

昔、数理統計と言ってものが、ケモ・インフォマティクスになり、マテリアルズ・ゲノム、マテリアルズ・インフォマティクスに変わってきただけだ。

流行り言葉だけでなく、昔、数理統計用のパッケージ・ソフトといえばSPSSで、その後、数理統計に強いRになり、今は SciPy(NumPy)を使うのが王道らしい。

やっていることは重回帰分析、主成分分析、PLS分析でどのパッケージにも入っている。

なぜ急に流行りだしたのだろう?

SciPy(NumPy)などを扱うPythonはかなり敷居の高いコンピュータ言語だ。
コンピュータ上に環境を整えるのも素人には難しい。

そしてどこでも同じ様に30年前の「水への溶解度をPLSモデルで作成」を繰り返している。

そのモデルが本当に予測性が高く、どんな化合物にも使えるなら、Smilesの構造式を入れたら予測値を返すページを作ってネットに乗せてしまえば、その話は終わりのはずだ。

C/C++で解こうが、C#, Pythonで解こうが、SPSS, R, SciPy(NumPy)どれを使おうが何も変わらないはずだ。

RDKit(予算があるところはDRAGON)を使って識別子を吐き出して、Python使って機械学習する。

マテリアルズ・インフォマティクスをやる。全く多様性を失ってしまった様に思えて残念だ。

フリーウエアーの利用もMAGICIANには大事な技術だ。Pythonをインストールして、機械学習させても良いが、化学者には荷が重い。取り敢えずブラウザーと表計算ソフトだけで初めてみよう。RDKitブラウザーバージョンを使って実際にマテリアル インフォマティクスをやってみよう。この練習はLD50, logS(水への溶解度), logKow(オクタノール/水分配比率)の予測式をRDKitを使って作成する。RDKitの吐き出す識別子を用いてPLS(部分最小自乗法)をブラウザー上で計算してみよう。PCA(主成分解析)もブラウザー上で計算してみよう。データサイズが大きくなってくるとMAGICIANにとって気の重くなることが起きてくる。

Web版PLS計算方法 2018.12.29

PLS(Partial Least Squares)法は計量経済学者であったHerman WoldとSvante Woldによって開発された新しいモデリングの方法である。

マテリアルズ・インフォマティクスなどで多用されるようになってきたので、ブラウザー上で計算できるようにしてみた。

Web版主成分分析(PCA)法の解説

プログラム

フリー・ツールの利用法 2018.12.8

個人的には、ツールは自分で作ったものを使うのが好きだ。
必死になってNumerical RECIPES IN Cなどを読み解いていた時代が懐かしい。
もう段々そこまでの気力はなくなってきたので、フリー・ツールも利用していこうと思う。

特にRDKitの使い方はよく覚えておこう。EPAのT.E.S.T.も非常に有用だ。

マテリアル・ゲノム 2018.8.23

昔、物性推算と逆設計と呼んでいたものが、最近はマテリアル・ジーノムとかマテリアル・インフォマティクスとか呼ばれているようだ。
AIの発達によって最近はホットな領域になってきているのでまとめておこう。

ハロメタンのNMR・ケミカルシフト 2014.08.01

物性推算式を構築する場合に、線形式にするか、非線形式にするか判断に迷う事がある。相関係数が高い式を良い式と考えたくなる事もあるが、よく考えて使おう。

有機化合物の水への溶解度 2013.9.24

化学の現象に、一般的な解析ソフトを使うとどんな結果になるかを解説しました。

イオン液体の物性:

イオン液体の物性推算と逆設計について解説する。

古い記述 

インフォマティクスとは情報学の事です。
ケモ・インフォマティクスは、もともとはバイオ・インフォマティクスに対する造語のようです。
日本語にすると情報化学になるのでしょうか。

コンピュータに知識(情報)を与えるためには知識の集積であるデータベースが非常に重要になります。

日本はIT(Information technology)をインターネット通信と訳しているぐらいでITに関しては欧米に大きく水をあけられています。

このごろはITはInternet Tuusin と理解しているのかi-modeの利用者とブロードバンドの利用者が何千万人になったからIT先進国になったとかいう論調が見受けられます。

Information(情報)はお洒落なレストランやブティックが携帯電話から見つかればそれ以上の情報はいらないのでしょうね。

欧米の化学メーカーがIT革命に乗り遅れないように必死なのに較べると「ものづくりニッポン」は20世紀の過去の遺物になりつつあるような気がします。

そうした認識の差から情報の集積であるデータベースに対する認識も日本はどんどんおいてきぼりを食らっています。

商業ベースに強いアメリカのデータベース、東ドイツ(旧ソ連も?)も吸収して優秀な低賃金の研究者を取り込んだドイツのデータベース、人海戦術で伸びてきている中国のデータベース。

日本は人件費は高いわ、優秀な研究者は化学をしないわ遅れて行く一方です。

最近の経済産業省の方針ではアニメやTVゲームのような日本の強い分野をのばすのを奨励しているぐらいで化学なんて20世紀まででいいのでしょうね。

でもアニメやTVゲームでも中国に勝てるのかな?
何人が食って行かれるのかな?

まー、難しい事はいいや。
子育ての忙しい研究者には荷が重い。

日本では顧みられないデータベースの問題点についてちょっとまとめてみたので物性研究をしている”日本語の読める”研究者(日本人である必要はありません)は覗いてみて下さい。

欧米に水をあけられているのはDBやITだけではありません。コンピュータ・ケミストリーはずいぶん前から壊滅的な状況です。

日本人の研究者が優秀でないからではありません。
福井先生から諸熊先生などなど自分は専門外なのであまり良くは知らないですけど優秀な研究者は一杯います。(いるらしいです。)

でもコンピュータ・ケミストリーを代表するようなGaussian,MOPAC,MM2からはじまりCashe,HyperChem,旧MSIプロダクツなどなどに席巻されて日本のコンピュータ・ケミストリーは単なるユーザーの地位に甘んじる状態になってしまいました。

そういえばダイキンの開発していたMol-Graphだっけ、あれってどうなったのかなー。
唯一国産の分子設計支援システムだったような?

メーカーとしては富士通が頑張っている。でも国産かといえば根元はすべて欧米に握られていてどうにも悔しい。

まー、自分がCALTECHのGoddard教授のところに留学できたのも、もとはといえば教授の開発したBioGraf,PolyGrafをうちの会社が導入したのがきっかけなので余り文句も言えないといえば言えないのですが。

情報学の立場からみるとこうした分子軌道の計算結果の情報も非常に有用な情報です。

ab-initio計算はしんどいけど半経験的分子軌道法のMOPAC程度の計算はなくては済まされないところもあります。

(個人ではとてもじゃないけど最近のMOPACは買えないので)商業化する前のMOPAC7やMOPAC6、できれば自作のCNDO/2ぐらいでなんとかなってくれればいいのになーと思いつつ分子軌道計算をやっています。

ビューワーだってとてもじゃないけど買えません。
全て自作のJAVAプログラムです。
でもこんなのも使い方次第かもしれないと思う今日この頃です。

ここではニューラルネットワーク、遺伝的アルゴリズム、データベースなどを多用するPirikaのやり方を紹介していきます。

2000年 ニューラルネットワークを用いた酸化物ガラスの物性推算と遺伝的アルゴリズムを用いた組成決定システムの開発
昔にやった仕事。今でいうマテリアル・ゲノムの走りだった。

アゾベンゼンの分子設計 99.3.24 
プログラムをJAVAからJavaScriptに書き直した(2018.11)

例えばアゾベンゼン系の染料で赤い色を出したい場合にはどうしますか?
片っ端から置換基を変えて分子軌道計算をしますか?
置換基のつく位置は10か所あります。
対称性を考慮すると減りますがそれでもすぐに数万種類のアゾベンゼンが考えられます。
こうした問題に対しても情報化学を利用すればコンピュータが候補化合物を提案してくれます。

2001-2005の間は双子の子育てでものすごく忙しかった。
しかし、子供が知識を獲得していく過程をつぶさに観察できたのは、コンピュータでニューラルネットワークを構築している自分にとっては非常に有益だった。

その頃に書いたものです。古いものですが興味があればお読みください。

ニューラルネットワークは学習により知識を獲得します。 

ニューラルネットワークの基本
ニューラルネットワークのメカニズム
ニューラルネットワークの問題点

データベースの問題点
コンピュータに知識を与えるためには知識の集積であるデータベースが非常に重要になります。

データベースがあやふやだと困る データベースがあやふやだとどうして困るのか物性研究者の立場からまとめてみました。

遺伝的アルゴリズムの応用

ケモ・インフォマティクスの分類に入れていいかどうかは分からないのですが、遺伝的アルゴリズム(GA)は自分も多用します。ニューラルで推算してGAで逆設計するといった使い方です。 最新のJAVAでは動いていません。修正しますのでお待ちください。(2011.11.25)

自己組織化ニューラルネットワーク (2003年ごろの記事)

多次元ベクトルの2次元へのマッピング法。
動物の分類
黒曜石の産地


Copyright pirika.com since 1999-
Mail: yamahiroXpirika.com (Xを@に置き換えてください) メールの件名は[pirka]で始めてください。