ハンセン溶解度パラメータ(HSP)推算用Y-MB全面的改定

HSPiPに搭載されているY-MBを全面的に改訂した。これまでとは計算方法が全く異なる。Pirikaのwebページ大改修に合わせてY-MBのページ改訂の準備をしている。Y-MB2014(HSPiP-4.0), 2016(HSPiP-5.0-), 2019, 2021の違いを解説しようとまとめ始めた。

分子の構造を調べて、そのハンセンの溶解度パラメータを推算するのは、とても大変なことだ。単純な原子団寄与法では精度がでない。

それは、ある意味仕方がない。
ハンセン先生が決められたオリジナルの部分は時には論理的ではない。
その先生の恣意的な部分は残しつつ、ユーザーが求める中大分子まで拡張させる。まだ見ぬ複雑な構造であっても計算が破綻しないようにしなければならない。

2017年のHSP50周年に合わせてY-MB2016を作ったが、上のような要請に合わせようとすると、非線形性解析式(ニューラルネットワーク法の亜流)を組むことになる。

しかし、非線形性を上げすぎると、見かけ上のフィティングは良くなるが、外挿の際に破綻する。

物性推算構築用の4Kデータベースがある。
HSPの予測式もこのデータベースを解析して作成する。
例えば分散項(δD)の予測式を作成する。

全く非線形性を導入しないで原子団の数だけから推算式を構築すると上図のようになる。あまり精度がでない。

2019年までは、非線形性を調整しながら、なんとか予測性能とのバランスを取ろうとしてきた。
しかし、その作成した予測式で、HSPiPにある10Kデータベースの化合物を計算してみると、特にY-MB2019は一部の化合物で過学習を起こしている事がわかった。(下の左下の図:非線形性が加味されすぎて非常に小さな値のものがある)


通常の重回帰(MR:Multiple Regression)は非線形性は無い。Y-MB2014では上にずれすぎなのかと思い調整し、Y-MB2016では下にずれるものが現れ、修正したY-MB2019ではさらに悪くなった。このように非線形性の調整は非常に難しい。

そこで、Y-MB2021は入力値を変えることで、非線形性を導入するのをやめた。
結果は精度的には少し悪くなったように見えるが、過学習は起こしていない。学習しなかったデータに対する耐性が非常に高い。

もっと非線形性の効果が顕著なのは、例えば水素結合項である。
通常の重回帰法で計算式を作ると次のようになる。


オフィシャルのδHが存在する化合物で一番大きなδHを持つものは水である。過酸化水素水なども大きな値をもつ。
普通の重回帰法を使い原子団の加算値を決めると、例えば水酸基(OH)などは大きな加算値を持つ。そこで、ポリヒドロキシ化合物(例えばグルコース)のδHは計算値上はとても大きな値になる。(実際は分子体積の関数でもあるのでもっと複雑だが。)

そこで、非線形性を導入すると、水酸基(OH)は分子中の数が増えるにつれて、増加率が小さくなるように調整される。
それは、学習されたデータ(この場合4Kデータ)では上図のように成立する。
Y-MBの計算値は、ほぼ50以下になる。
特徴的なのは、Y-MB2021以外の方法は、原点あたりの精度が非常に低くなることだ。
オフィシャル値は4ぐらいの値があっても計算値は0になったり、逆にオフィシャル値は0であっても計算値は5ぐらいになったりする。

Y-MB2021は原点付近の記述性がとても高くなる。

ところが学習しなかったデータにまで拡張すると、増加率が小さくどころかマイナスになる事がある。下に10Kデータを解析した例を示す。

横軸の重回帰法ではポリヒドロキシ化合物はとても大きなδHになってしまう。
Y-MB2014では非線形性がうまく働かず、大きな計算値も出てくる。
そこで、Y-MB2016で調整を行うと40を超えるような値は出なくなったが、今度は上に凸になり、10Kデータセットの中に無い、さらに多くの水酸基を持つ化合物では、計算値がマイナスになるような事があった。

δHではY-MB2019はバランスが取れ始めているが、δDではダメであった。
やはり非線形性を導入する方法ではとても設計が難しい。

検討に随分時間がかかってしまったが、Y-MB2021はこれまでのものと比較してとても高い性能を示している。

Y-MBはHSPだけではなく、色々な熱力学的物性値も推算する。
他のものもほぼ片付いてきた。
リリースがやっと見えてきた。