pirika logo

ホームページ Pirikaで化学 ブログ 業務リスト お問い合わせ
Pirikaで化学トップ 情報化学+教育 HSP 化学全般
情報化学+教育トップ 情報化学 MAGICIAN MOOC プログラミング
MAGICIANとは、材料ゲノム(Materials Genome)、材料情報学(Materials Informatics)、情報化学(Chemo-Informatics)とネットワーク(Networks)を結びつけて(Associate)いかれる人材です。

MOOC(Massive Open Online Course)世界中の大勢の人々が参加できるオンラインのオープン授業のことです。

情報化学+教育トップ > MOOC講座 > カテキン類の精製

講義資料 非常勤講師:山本博志

カテキン類の精製

去年(2020年)の4月ごろ、お茶の成分(カテキン)がCOVID-19スパイクの侵入と融合を阻害すると言うニュースがありました。奈良県立医科大学が新聞発表しているので、ご存知の方も多いかもしれません。

カテキン類とCOVID19ウイルスのBinding Energy

それに関して、
Identi ficaion of Dietary Molecules as Therapeutic Agents to Combat COVIDー19 Using Molecular Docking Studies:Mohannad Faheem Khan,et al
と言う論文で、植物由来の成分とCOVID-19ウイルスのスパイクとの相互作用を、Molecular Dockingで調べているものが見つかりました。

ざっくり言ってしまえば、ポリフェノールなどの抗酸化作用を持つ化合物は、COVID-19スパイクの侵入と融合を阻害しやすいようです。

6lu7: activityagainst main protease
6lvn: HR2 domain of spike glycoprotein
6lxt: post fusion core S2 subunit
6vsb: single receptor binding domain of spike glycoprotein

binding energyの単位は kcal/moleです。

最も効果の高いものは、EGCG(epigallocatechin gallate)だと言っています。

各成分の構造式はSmilesの形で付け加えておきました。

Binding Energyの予測式を構築して、予測化合物のBinding Energyを予測してみましょう。

そのSmilesの構造式からHansen Solubility Parametersを計算して、Dockingしやすいものと、そうでないものをハンセン空間にプロットして、ウイルスの各部分のHSPを算出することができます。

詳しいことは、他で解説するので、そちらをお読みください。

EGCGの精製方法

単溶媒抽出

もし、この論文の言うように、EGCG(epigallocatechin gallate)がCOVID-19スパイクの侵入と融合を阻害するのだとしたら、お茶からEGCGを精製する方法の開発が重要になります。
ここでは、エピガロカテキン・ガレートの精製の方法や、HPLCの結果などを解析してみましょう。

Solubility prediction of bioantioxidants for functional solvent by group contribution method
K.A. Park, et al., J. Ind. Eng. Chem. (2010), doi:10.1016/j.jiec.2010.01.060

この論文に、EGCGとエピカテキンなどの、様々な溶媒への溶解度のデータが記載されています。

このデータを解析してみましょう。

まずやることは、YMBを用いて各溶媒の物性値を1つづつ計算することです。

YMBの使い方は授業で詳しく取り上げていますが、忘れていたらこちらを参照してください。 (HSPiPやYMB-proをお持ちの方は一括で計算しておいてください。)

次にやることは、EGCGのlog溶解度が、YMBが吐き出した様々な識別子とどのような関係にあるかを調べることです。

1行目、1列目はタイトルをおき、B列に目的変数、C列以降にYMBで計算された数値を入れたテーブルを準備します。それをコピーして、YSBの入力部分にペーストしReadボタンをクリックします。

YMBが吐き出した物性値は44種類あって、データ数が20個あることがわかります。
まずは大体の見当をつけるために、自動的に変数を3つ使ってモデル式を作成します。

プログラムは44種類の物性値から3つを選んで相関係数を計算し、最も相関係数が高くなる3つの組みを求めます。

ここで、出力の中の=からコピーして、エクセルの2行目に貼り付けます。

=0.028954657317759813*G2+-0.05077435310649436*K2+-63.6849428075584*AI2+45.95050996854843

これはエクセルの計算式そのままで、log(EGCG)溶解度は、G列(Antoine B), K列(臨界体積Vc)、AI列(Refractive Index)の3つの変数を用いて、相関係数の二乗(決定係数)R2=0.9875660477559675で表すことができるといっていることになります。
選択する変数の数を2-4と変えながら、精度がどうなるか、どのような変数が選択されるかをチェックします。

ある現象に対して全く知見がない場合には、このようにYSBのSelect Descriptorsの機能を使って、どの物性値が寄与するのか自動探索し、現象の理解を深めるのは大事なことです。
ただし、YSBが選ぶ組み合わせは、化学的意味合いは無く、単に相関係数を最大にする組み合わせを選んでいるだけです。YSBが選んだものをベースに自分なりに化学的意味を考えて、相関係数がたとえ少し低くても、化学的意味を優先することもあって然るべきです。
化学の常識が無い、AIやデータ・サイエンティストに対して、化学者の優位な点なので大事にしましょう。

例えば、これは溶解現象なので、ハンセンの溶解度パラメータ(HSP)と分子体積が重要だと考えるのはリーズナブルです。
しかし、自動選択させた3変数の時と比べ、5変数使ってもそれほど相関が高くなるわけではありません。(返って悪くなります。)

=-0.04060*Volume+-0.8275*HSP_dD+0.4828*HSP_dP+0.3215*HSP_dHdo+0.3934*HSP_dHac+-9.5986

しかし、式の意味、例えば溶媒の分子体積とHSP_dDが大きくなると溶解度が下がることが係数を見るとわかります。
それに対して、dP, dHdo, dHacが大きい溶媒は溶解度が大きくなることがわかります。
しかし、そのような溶媒は皆、水溶性なのでお茶の形で水で煮出してから液液抽出では2層分離しないので無理だと言うことがわかります。

もともと、ポリヒドロキシ化合物なので、極性化合物にしか溶解しません。
それでは、混合溶媒ではどうでしょうか?

混合溶媒抽出

Extraction of active ingredients from green tea (Camellia sinensis): Extraction efficiency of major catechins and caffeine
Food Chemistry
Volume 96, Issue 4, June 2006, Pages 597-605

この論文にアセトン、メタノール、エタノール、アセトニトリルと水との混合溶媒でお茶の葉っぱからカテキン類を抽出した時の結果が記載されています。
水単独の場合よりも混合溶媒の方が抽出量は増えます。
ただし、抽出実験は混合溶媒の沸点で行っているのですが、任意の比率の混合溶媒の沸点を予測するのは難しいので、差し当たって温度は無視します。

ここで重要になるのが、混合則です。
最初、log(EGCG)溶解度は、G列(Antoine B), K列(臨界体積Vc)、AI列(Refractive Index)の3つの変数を用いて溶解度推算式を構築しました。それでは、混合溶媒のアントワン定数、臨界体積、屈折率が何か意味があるか、値を求められるかというと、それは現実的では無いことがすぐにわかります。

ハンセンの溶解度パラメータの場合、混合溶媒のHSPは体積分率φ1, φ2を用いて dDmix=dD1*φ1+dD2*φ2
dPmix=dP1*φ1+dP2*φ2
dHmix=dH1*φ1+dH2*φ2
と求まります。 この式を使って論文にある、体積比率のHSPを計算しておきます。そしてカテキン類の抽出総量とのテーブルを作って解析を行います。

テーブルの中には、アセトン、メタノール、エタノール、アセトニトリルを特定するようなパラメータは無くなってしまいます。これは、一種、ディープ・ラーニングの際の、粗視化に似ています。
つまり、実験データのある4つの溶媒以外の溶媒で水との混合溶媒を作った時にどのくらい溶解するか?が混合溶媒のHSPが計算できれば予測が可能と言うことです。

実際にテキストエリアにあるテーブルをコピーして、エクセルなどで回帰分析してみると、最後の列、dHac*dHacが気になるでしょう。

最後の列を含めずに回帰分析を行うと、上図のように全く相関がありません。

そこで通常であれば、「混合溶媒の混合HSPからは実際の溶解度は推算できない。」という結論になってしまいます。

その時には、
1. 大事な情報が抜け落ちていないか?(例えば分子の大きさ。)
2. 実は現象が非線形なのではないか? などを考えなくてはなりません。
そこで、YSB機能の一つで、クロターム重回帰を使って解析を行ってみます。

その結果、dHac*dHacの列を付け加えると、非線形性が導入されて大幅に改良されることが示唆されました。そこで、テーブルにはそのカラムが付け加えてあります。
エクセルに搭載されている回帰分析だけで同じような結果が得られるので実際に試してみてください。

そのようにして、HSPから予測式を作ると次のような結果になります。

このグラフの表題がGROVE-MAEになっています。
GROVEとは、MAGICAIN養成講座に参加している学生が作成した、新しい解析ソフトです。通常の重回帰解析とは異なり、データのクレンジング機能を併せ持った解析方法になります。

ここまでできると、例えば、THF-水の混合溶媒を試そうと思うのなら、5%刻みの混合溶媒のHSPを計算して、ここで得られた計算式で計算し、最も溶解度が高いと思われる混合比率で次の実験をやってみる。
結果はすぐに計算式にフィードバックする。そうして推算式をブラッシュアップしていけば、短時間でより良く溶解する混合溶媒が設計できると言うことです。

もし、ハイスループットの実験装置があって、そんなこと考えなくても全て絨毯爆撃してしまえるなら、それはそれで幸せなことでしょう。

働けど働けどで、じっと手を見ている暇があるなら、計算で予測して、可能性の高いものから潰していくのも有効なやり方です。
在宅勤務の時にこのような解析を行って、少ない出社日に集中的に可能性の高いものを実験し、データを持ち帰り式を作り直す。
実験化学者が効果的に在宅勤務する秘訣です。

カラム精製

カラム精製は基本的には、液体クロマトグラフィーと同じ考え方で良いでしょう。

Oct-DEE

液体に溶解した溶質が、充填剤との相互作用の差によって、保持時間(RT:Retention Time)が変わることによる分離法です。
通常のHPLCの場合にはシリカゲルの表面はオクタデカンで覆われたものが多く使われます。そこで、オクタデカンへの溶解性の差で分離が進むと考えると合理的です。

農研機構というところが、
カテコールを内標準としたHPLCによる緑茶機能性成分の一斉分析方法 という資料を公開しています。

このチャートをデジタイザー・ソフトを使って保持時間を取り出します。
そして各化合物のSmilesの構造式をネットから探してきます。

化合物の名称からCAS番号を探して、PubChemでSmiles構造式を探すのが良いでしょう。

するとこのようなテーブルを作ることができます。

そして、Smilesの構造式をYMBにかけて、物性推算値を得ます。

課題:
log(保持時間)を予測する式を作成してみましょう。 YMBは非常に多くの物性値を吐き出します。

そこで、まず、YSBの機能の中で、Select Descriptorsを使って、指定する変数の数を変えながら、どんな物性値が選ばれるかチェックします。選ばれたものが合理的と思えるようでしたら、それをベースにさらに解析を進めてください。

HSPや分子体積などをベースにしても、(オクタデカンへの溶解性なので)合理的な推算式を作成することができます。

GROVEで解析すると合わないものが際立ちます(普通の重回帰でもどれだかはわかるでしょう)。 この2つの化合物がどんな化合物なのかを特定して、何故合わないのかを考察しましょう。

蛇足:
定年退職1周年記念にこんな記事を書いてみました。


Copyright pirika.com since 1999-
Mail: yamahiroXpirika.com (Xを@に置き換えてください) メールの件名は[pirika]で始めてください。