pirika logo

ホームページ Pirikaで化学 ブログ 業務リスト お問い合わせ
Pirikaで化学トップ 情報化学+教育 HSP 化学全般
情報化学+教育トップ 情報化学 MAGICIAN MOOC プログラミング
MAGICIANトップ MAGICIAN-Jr. MAGICIAN-講義 過去の資料

MAGICIANとは、材料ゲノム(Materials Genome)、材料情報学(Materials Informatics)、情報化学(Chemo-Informatics)とネットワーク(Networks)を結びつけて(Associate)いかれる人材です。

MAGICIANトップ > 高校生にもわかる化学、薬学系 データサイエンス MAGICIAN-Jr. > 第8回

2021.8.2

第8回 無精者の 化学系の データサイエンス

データ・サイエンスって一体何?

本屋で(Amazonで)データ・サイエンスに関する書籍を探せば、何十冊の書籍がすぐに見つかるだろう。
僕の本棚にも4-5冊は並んでいる。
でも、そんな本には化学の例題は載っていない。

化学系のものは、マテリアルズ・インフォマティクスとか言う本に記載されていることが多い。
そうした本を読んでいると、Pythonとかのプログラム言語を身につけ、Rを使って統計解析やれば、化学のことを全く知らなくても、触媒や薬、新素材をどんどん開発できてしまうように書かれている。

私は、もういらないのですか?捨てないで。。。
化学は覚えなくてはいけない事が多いし、実験なんてやるのは(とても面白いのだけど)すごく大変だ。
しかも危ないし。
そんな大変な思いをして化学を身につけたとしても、将来は実験はロボットがやって、解析はデータ・サイエンティストがやるなら一生懸命学んでも無駄骨だよね。
まー、おみくじでも引いてみよう。


化学系研究者用おみくじ: ***

で、この結果信じる?
確率を変えちゃえば?

第4-6回で乱数の使い方はしっかりやったので、どうやるかは分かるだろう。

var Result="";
        var randnum =Math.floor(Math.random()*6)+1  ;
        if(randnum==1){
            Result +="仕事運:大吉、";
        }
        if(randnum==2){
            Result +="仕事運:中吉,、";
        }
        if(randnum==3){
            Result +="仕事運:小吉、";
        }
        if(randnum==4){
            Result +="仕事運:大凶、";
        }
        if(randnum==5){
            Result +="仕事運:中凶,、";
        }
        if(randnum==6){
            Result +="仕事運:小凶、";
        }

乱数を発生させて値によってif文でResultに入れる結果を変える。
大吉をいっぱい出したかったら、乱数を6ではなく、20個ぐらい発生させて、乱数が7以上だったら、超大吉と表示すれば良い。

ストップボタンを押すまで、ぐるぐる回り続ける部分は、タイマーなどに使われているルーチンを借用する。
よく振るボタンを押すと、cntStart()関数に入って、setInterval命令でOmiFuri()関数を10ms(ミリ秒)毎に呼ぶ。OmiFuri()関数では、三種類の乱数を出して、結果に入れる。

var timer1;

function cntStop() {
    document.Omikuji.elements[0].disabled=false;
   clearInterval(timer1);
}
function cntStart() {
    document.Omikuji.elements[0].disabled=true;
    timer1=setInterval("OmiFuri()",10);
}

おそらく、普通のおみくじは、中吉あたりが一番多く入っているのだろうか。

引いた自分と、出てくるものの間には何の関係もないので、出た結果を信じる理由はない。

コンピュータがおみくじを振って素材を作る。

それでは、次のようなおみくじはどうだろうか?


化学おみくじ: ***

このおみくじの意味を説明しよう。

第5回にポリマーはモノマーはくっついてできると説明した。

ポリマーはモノマーが開始剤に順番に付いてだんだん大きくなる
開始剤が複数あるので、1本1本の高分子の鎖の長さはまちまちになる。

そうしたポリマーの中で、ポリプロピレン(PP)はタッパーのような容器から袋やフィルムまで家庭内で最もよく使われている。
このポリマーはプロピレンモノマーがくっついてできる。
そのプロピレンモノマーの構造は、CH3-CH=CH2という構造になる。
構造中の=は2重結合と呼ばれる。この2重結合が開きながら高分子になって行く。

みんな。用意はいいか?
目指せ、ギネスブック!世界一長い焼き鳥!

このプロピレンモノマー中の水素(H)を、フッ素(F)、塩素(Cl)、臭素(Br)に変えることができる。
そのような炭素が3個で2重結合がひとつの化合物の物性値を集めて、第7回でやったのと同じように連立方程式を掃き出し法で解いた。

あとはおみくじと同じで、モノマーの左の部分(CH3)が何になるか(10種類)、真ん中の部分(-CH=)が何になるか(4種類)、右の部分(=CH2)が何になるか(7種類)で、分子量、沸点、密度(=分子量/分子体積)を方程式の中に入れて計算をしている。
つまり、元のデータ51種を使って方程式を作成し、10*4*7=280種類が計算できる。
つまり、229種類の化合物はデータがないが、予測することができるようになる。

各パーツが物性値に対してどのような値になるかは次の配列にまとめてある。
(配列っていうのは、変数を入れる番号付きの箱のようなものだ。ここではMoPro[行の番号][列の番号]で作ってある。)

BPは沸点(Boiling Point)
Volは分子体積(Molar Volume)
HoFは生成熱(Heat of Formation)
IPはイオン化エネルギー(Ionization Potential)
LUMOは最低空軌道(Lowest Unoccupied Molecular orbital)
MWは分子量(Molecular Weight)
SubStringは原子団を示している。
ただし、HoF, IP, LUMOはMOPAC(半経験的分子軌道法)の計算値だ。

var MoPro=
[
["BP","Vol","HoF","IP","LUMO","MW","SubString"],
[299.318,85.626,-36.304,10.182,0.337,89.825,"CH3"],
[284.324,103.488,-183.625,11.3,-0.925,143.796,"CF3"],
[413.322,120.291,-45.533,11.1,-1.204,193.16,"CCl3"],
[311.246,88.949,-71.395,10.454,0.062,107.815,"CH2F"],
[385.046,98.182,-26.206,10.27,-0.281,168.721,"CH2Br"],
[365.978,96.249,-38.904,10.518,-0.121,124.269,"CH2Cl"],
[316.345,89.79,-124.276,10.795,-0.546,125.804,"CHF2"],
[321.076,109.51,-139.164,11.056,-1.062,160.252,"CClF2"],
[357.995,117.043,-92.671,10.902,-1.13,176.706,"CFCl2"],
[346.026,111.083,-121.884,10.518,-1.274,204.702,"CBrF2"],
[18.953,-0.146,-29.002,0.134,-0.013,-1.85,"CF="],
[12.245,-5.656,12.011,0.115,0.191,-19.841,"CH="],
[23.658,5.765,6.136,-0.161,-0.189,14.604,"CCl="],
[48.057,9.562,19.781,-0.516,-0.275,59.055,"CBr="],
[-22.393,0.745,-67.814,0.427,-0.264,8.077,"CF2"],
[-23.802,-8.023,22.498,0.082,0.365,-27.904,"CH2"],
[56.544,14.467,13.743,-0.319,-0.431,40.986,"CCl2"],
[-13.567,-4.242,-18.293,0.179,0.092,-9.915,"CHF"],
[21.95,2.653,19.183,-0.288,-0.11,6.541,"CHCl"],
[44.077,4.688,31.653,-0.636,-0.065,50.993,"CHBr"],
[14.324,8.328,-27.08,-0.262,-0.322,24.532,"CClF"]
];

例えば、CF3CF=CF2の沸点を求めたければ、
CF3の284.324
CF=の18.953
CF2=の-22.393
を足せば良い。

先程の神社でのおみくじと異なり、乱数で分子を組み立ているが、出来上がった分子の物性はきっちり予測したものだ。

掃き出し法の結果(▶︎をクリックして開く) 掃き出し法で得たパラメータを使って、各物性値を計算し、元の値と比較してみた。
比較的良い結果だと言える。






大事な点は、データサイエンスでよく言われている、ビッグデータ神話は、ここでは通用しない、ということだ。
この結果が良いのは、炭素数は3個、2重結合は1個に限っているからだ。
逆にデータが増えれば、結果はどんどん悪くなる。

ビッグデータがあればどうにかなる分野の仕事は、専門でないデータ・サイエンティストでもどうにかできるだろうが、化学の場合、化学を専門にする自分らでやろう。




このような結果が得られれば、

などと素材開発につながって行く。(実際には毒性やら環境評価やら色々必要になるが。)

こうした方法を使って、僕が代替フロンの研究を行っていたのが、1997-2000年頃だ。
ただし、現実のところは、乱数などを使う必要はない。
何故かというと、総当たりしても大した数ではないからだ。
片っ端から、コンピュータ上で200万種類分子を組み立てて計算し、ソートをかけて合成の優先順位をつければよかった。

薬などの設計も総当たり法に属するかもしれない。

この方法の欠点は、定義されていない原子団、例えば、CHFClなどを持つ分子は計算できないことだ。
誤解を与えないように、計算できないものは選択できないようにしておくのも良い。


物性推算: ***

セレクターの使い方(▶︎をクリックして開く) 呼び名はセレクター、セレクトボックス、チョイス、プルダウンメニューと色々あるようだ。

<form name="Selector">
<SELECT name="cmbL" id="FuncGL" onChange="calcA()">
<OPTION value="0">CX3</OPTION>
<OPTION value="1">CH3</OPTION>
<OPTION value="2">CF3</OPTION>

のようにformの中にSELECTを3つ配置する。そして、メニューの表示部分とそれが選ばれた時返す値を定義しておく。
最初は変数にはゼロを入れておいて、3つともゼロでなくなったら、配列を取り出して計算を行う。

クリアーボタンが押されたら、SELECTのゼロ番目を選択させる。

var select = document.getElementById("FuncGC");
select.options[0].selected = true;




中には乱数が必要な場合もある。 焼き鳥は半分だけとか、1/3だけ串に刺すことはできない。 しかし、ガラスや触媒は小数点以下の配合にする事も多いので、総当たりでは計算できない。 このような、チャーハンの配合を考えるときは話は別になる。
ニューラルネットワーク様がこのR1に水酸基を1/3個付けてって言っているわ!誰かすぐに対応して!

確率的な探索方法を取る時には乱数も使う。

結局、データ・サイエンスでやりたいこと。

楽したい。以上。

なるべく少ない実験の数で、高価に売れる素材を効率良く作りたい。
絨毯爆撃みたいな実験はやりたくない。
先に特許だけでも出しておきたい。
在宅勤務で、会社で実験するよりも多くの成果を出したい。

僕は無精者だから、自分ではやりたくないから、プログラムを書いてしまう。
それに現役の時には助けてくれるような部下は付かなかった。

日本でAI化が進まないのは、
* 上に立つ研究者が優秀で真面目で無精をしない事。
* そして、その研究者を手助けする補助する者のレベルがとても高いこと。
* 最後に、転職してやめていかない事。
からだ。

中国などで、スマホや電気自動車など最新鋭の技術が花開くのは、リープフロッグ(蛙飛び)型の発展だと言われる。日本では、真面目にインフラを整備して(他所の国ではできないほど)多くの努力をしてたどり着いた現状を、簡単に飛び越されてしまう。

欧米では、出来るやつは直ぐに転職してしまうので、人間の能力の7割のAIでも重宝する。
日本では、人間の能力の10倍のAIができなければ導入しない。

年寄りはあてにできない!私と組みましょう。
昔の栄光に浸っている中枢部が残っている限り変わらない。

だから問題意識持った者から変わっていかなくてはならない。

でも、そんなに難しいことでもない。

どこかの企業のトップが言っていたが、「企業風土を変えなくてはならない」。
風土は変わらずに綿々と続くから風土なので、変わるなら風土ではない。
それを変えるなら、DNAを変えるようなもので、最初から作り直した方が良い。

まー、こんな事ばっか言っているので、僕に相談しようという人は現れないのだろうな。

MAGICIANトップ > 高校生にもわかる化学、薬学系 データサイエンス MAGICIAN-Jr. > 第8回


Copyright pirika.com since 1999-
Mail: yamahiroXpirika.com (Xを@に置き換えてください) メールの件名は[pirika]で始めてください。