この記事はtuat-sysbiolab advent calendarの15日目です。
はじめに
本記事では前回に引き続き、MS-DIALのあまり知られていなさそうな機能を紹介していこうと思います。
今回はExport機能について紹介していこうと思います。
機能紹介
実際のところMS-DIALを使用してくださっている方なら、出力はしていると思いますが、あまり使ったことのない機能もあると思いますので、ちょっと細かく紹介していきます。
まず、MS-DIALの結果の出力は上部のリボンのExportからすることができます。
ここで「Peak list result」と「Alignment result」の2つのボタンがありますが、これらはそれぞれサンプルごとの結果と、アライメントされたピークの出力に対応しています。基本的にはアライメント後の結果を出力することが多いと思いますので、アライメントの結果の出力機能についてオプションなどを説明していきます。
まず、「Alignment result」のボタンをクリックするとダイアログが開くので、そこから出力要素を選択していきます。
画面上部に配置されているのは、全出力フォーマットに共通の設定になります。
まず、出力フォルダの選択用のテキストボックスがあります。右のBrowseボタンからフォルダを選択するか、直接フォルダのパスを入力してください。アライメント結果の出力の際にはファイル名は自動で決まるようになっているため、ファイル名の指定はできません。フォルダ名で指定してください。ただし、Windowsのドキュメントやダウンロードなどのフォルダを選んだ場合、フォルダのパスが正しく認識されない場合があるので、C, Dドライブからの絶対パスを入力するようにすることをお勧めします。
次にアライメント結果の選択ボックスがあります。アライメントはパラメータを調整しつつ複数回実施するので、出力する結果を選択できるようにしています。
共通の設定の最後にあるのが、フィルタリングの適用オプションです。MS-DIAL5では出力するピークスポットにフィルタリングを適用することができるようになりました。これにより、特定の脂質クラスのピークのみを出力するだとか、キュレーションを実施したピークのみを出力するなど、自身の目的に応じた出力が可能となっています。
Peaks
まず紹介するのはPeaksカテゴリの出力です。
こちらのカテゴリの結果はすべて同様の出力フォーマットになっており、1行に1ピークで、メタデータと各サンプルにおける定量値を並べたタブ区切りのテーブルフォーマットになっております。Excelなどで解析を行う方はRaw dataもしくはNormalized dataの定量値を選択して出力していただければよいかと思います。また、たまに使うのはPeak IDの出力です。ここで出力されるPeak IDは各サンプルのピークピッキングの結果に紐づいているので、アライメント後のピークと紐づけたいケースで利用可能です。
オプションとしては、Long format、Excel向けの切り詰めと、マルチクラス出力の3つがあります。
Long formatは主に、出力したデータをPythonやRなどでする方向けで、メタデータの情報を別ファイルにして、複数の定量データを出力した際の出力の重複を減らすことができます。また、ファイル上部のスキップの必要もないので、データフレームとしても読みやすくなります。
Excel向けの切り詰めは、Excelで読み込んだ際に長すぎると途中で改行が入ってしまう問題に対処するために、おもにスペクトルの結果が途中で切り取られています。Excelで読まず、スペクトルの情報を利用したい場合は、チェックボックスを外しておくとよいと思います。
マルチクラス出力は設定したサンプルのクラス名がアンダースコア(_)で区切られている場合に、分割して出力する機能です。別の機能のために実装しましたが、あまり使う必要があることもないのかなと思います。
Spectra & MassBank
次はSpectraとMassBankカテゴリについてです。
SpectraカテゴリにはMSPやMGFといった化合物レコードフォーマットでの出力ができます。インハウスライブラリの作成にご利用ください。
オプションの「Export peaks individually」は主にMATファイル向けのオプションになっております。MATファイルはMS-FINDERでの利用を想定していますが、MS-FINDERが1ファイル1レコードを要求するため、個別のファイルに出力できるようにしています。MS-FINDERに投げたいピークをフィルタリングをかけつつ、まとめて出力してあげると、個別にMS-FINDERにかけるより便利かと思います。
MassBankフォーマットも同様にMassBankレコードを出力する機能となっています。単純に出力するだけだと、一部の必須のフィールドが埋まらないですが、リボンの"Option" > "Project property setting"から分析機器などのフィールドを埋めておくと、MassBankに登録するための最低限のフィールドは埋められます。MassBankに標品スペクトルなど登録したい場合はご利用ください。
その他
最後は"Deconvoluted spectra and reference"カテゴリです。
自分たちも普段使わない出力オプションですが、各ピークのスペクトルとそのピークに紐づいた化合物ライブラリの情報をXMLフォーマットで出力できます。
XMLなので慣れていないと読むのは少し難しいかもしれませんが、リファレンスの情報も含めて出力したいときにいいんじゃないかと思います。
終わりに
必要に応じて追加してきたこともあり、様々な出力フォーマットがありますが、自分に必要なフォーマットで出力していただければと。
個人的なおすすめ機能は出力するピークのフィルタリングです。見たいものだけ出力できるので、便利なケースは多いかなと思います。