Qiita初投稿です。
今回は、Bioinfomaticsをやる上で使うと便利なBioPythonの勉強(独学)で得た知識をアウトプットしたいと思い、投稿しました。
Bioinfomaticsとは
Bioinfomatics(バイオインフォマティクス)は、簡単に言えば、生物学*情報のようなもの。生物学で得たデータ(実験結果など)を情報学(プログラミングなど)を使って、解析していくものすごく、アバウトではあるが、こんな感じの認識
BioPythonとは
pythonライブラリの一つであり、バイオインフォマティクスを行うためにとても便利!(これ以外にも、BioRubyなどもある) チュートリアル: https://biopython.org/学習の進め方
biopython系の本が少ない(あっても英文)ため、公式の[チュートリアル](http://biopython.org/DIST/docs/tutorial/Tutorial.html)を見ながら(Google翻訳機能などを使いながら)、理解できた部分から、書いていこうと思います。その前に・・・・
環境構築方法(Anaconda)
conda install -c anaconda biopython
とりあえず、Anacondaを使って、biopythonを入れておく。(これがないと話が始まらない)
Seq
from Bio.Seq import Seq
my_seq = Seq("AGTACACTGGT")
my_seq #=>Seq('AGTACACTGGT')が返り値
これは使えば、配列がどのような構造式を持っているのかを区別することができる
引用(https://bi.biopapyrus.jp/python/biopython/seq.html)
BioPython で塩基配列またはアミノ酸配列を扱うとき、Seq 型で扱うことが推奨されている。Seq 型でシーケンスを取り扱うことで、例えば AAGAAGA という配列をあったとき、これが DNA なのか、RNA なのか、それともアミノ酸なのかを区別できるようになる
他にも・・・
from Bio.Alphabet import generic_dna, generic_protein
my_dna = Seq("AGTACACTGGT", generic_dna)
my_dna #=> Seq('AGTACACTGGT', DNAAlphabet())のようになる
seq2.pyでは、generic_dnaを使って、"AGTACACTGGT"を'DNA型'として名前をつけたような感じです。
このように、Seqは、入力された(取得した)配列がどの構造式を持っているかを表すことができる
※間違いがあったら、ご指摘いただけるとありがたいです
今後、このように得た知識をアウトプットしていきたいと思っています!