概要
DNA分析をしようとして、闇雲にデータをあたっても、基本的な理論がわかってない状態で正しい方向に進むことはできないとわかっていながらも、基本統計量だけでも出せないかと試行錯誤してみましたがなかなかうまくいきませんでした。
データの分析を行うにあたって、現在わかっていることとあいまいな点を整理し、自分の中の理論的な枠組みを棚卸しようと思います。
開始コドンから終止コドンまでを検索するプログラム
取り敢えず、開始コドンから終止コドンまでを抽出するコードを書いてみました。
別に難しいところはありません。
ATGで始まってTAA,TAG,TGAで終わるそれっぽいものの数を数えるプログラムです。
その中で、3の倍数になっているものもカウントしています。
そこで疑問なんですが、タンパク質をコードしているコドンは、必ず3の倍数になるのかどうかというところに確信が持てない状態です。具体的には、イントロンとは、コドン内部のタンパク質形質しない塩基の配列をさすのか、それとも、タンパク質を形質しないコドン以外の塩基配列すべてをイントロンと呼ぶのかです。
話変わりますが、Qiitaの良いところは、誰かが書いたレポートに議論できるところだと思うんですよね。
最初は、コメントに間違いを指摘されたときはカッときましたが、よくよく考えてみれば、手本を示してくれてここが違うと思うけどと言ってもらえるってことは、有難いことじゃないかと思うんです。
間違いを指摘されて、いい気持のする人は少ないと思いますが、コミュニティを健全に運営していくため、自分の知見をただすためには大切なことではないだろうかと思うようになりました。
もし、この文章を読んで、ここが間違ってる、誤解しているなどのご指摘があれば、どんどん教えていただきたいと思います。