昔のHSPiPなどのデータから、今回のHSP関連のWebページ改訂で提供している化合物データに変換するwebアプリを作成した。やっと改訂がスムーズに進む。
いつも、なぜもっと早くやらなかったのか悩む。
使ってみてやたらと便利なので驚いている。
推算精度が出なかったものを再計算するのにはSMILESが必要で、探す手間が大変だった。
HSP関連のページを改訂していて一番困るのは、データ・フォーマットの問題だ。最初のフォーマットはssd(Solvent Sphere Data)フォーマットだ。普通のタブ区切りのデータなのでテキストエディターで調整するには便利だった。
次はhsd(Hansen Solubility Data)でタブ区切りのデータなのは同じだが、付加情報が増えた。そしてHCode(Hansen Code)と言う化合物に割り振られた一連の番号があった。
HCodeが付いていない化合物も多数存在するので、困り、9999とか適当な番号で呼んでいる。
そしてhsdx(Hansen Solubility Data XML)と言うXMLフォーマットが出てきた。
しばらくhsdとhsdxは共存していたけど、ver. 5.4からはhsdxのみになってしまった。
そして、Abbott先生はHcodeを捨ててCASを選んだ。
(CASだって欠損データはいっぱいある。なんでPubChem番号にしなかったのか?)
すると昔のデータ・フォーマットのデータをpirikaで提供しても扱えなくなる。
今回ページを改訂する際に一番時間がかかるのが、ページを書いたときのデータを探す(これも膨大な時間がかかる)、そして、CAS番号やSMILES構造式と紐づけるのもとても時間がかかっていた。
hsdフォーマットとhsdxのコンバータはHSP勉強会で作成して使い方もみっちり教えた。
今回は、昔のデータから、今回の改訂で提供している化合物データに変換するwebアプリを作成した。
HCode, YamID, CASどれかのリストを上のテキストエリアに貼り付けて、変換すると、HCode, YamID, CAS, Name, SMILESのリストを吐き出す。
(混合物などはブランク行に)
そのうちに、こうしたプログラムの作り方も勉強会で説明しようと思う。