1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

MathematicaAdvent Calendar 2015

Day 23

長い英単語の成分分析

Last updated at Posted at 2015-12-23

発表!長い英単語トップ10。1位は驚きの語数
の記事を見ると $1$ 位に輝いている英単語は化学の専門用語でタンパク質の一種だそうです。
通称 Titin (チチン) と呼ばれているそうで、その単語の長さは驚きの
18万9819語
だそうです!!
全文を見たい場合はthelongestwordinenglish.txtに載っているそうなので早速見てみました。

すると、なんか似ている文字列が複数あるではないですか。。。
だったらどんな文字がどれだけ出ているかを調べたくなってしまいますよね。

そこで超高機能な Mathematica さんに調べてもらいました。

thelongestwordinenglish.nb
L1 = ToLowerCase@Import["http://nzlife.net/wp-content/uploads/thelongestwordinenglish.txt"];
L2 = StringInsert[L1, ",", First[#] + 2 & /@ StringPosition[L1, "yl"]];
L3 = StringReplacePart[L2, "phenylalanyl", StringPosition[L2, "phenyl,alanyl"]];
L4 = Sort[Flatten[{Union[#], Length[#]}] & /@ Split@Sort@StringSplit[L3, ","], #1[[2]] > #2[[2]] &];
Export["thelongestwordinenglish.csv", L4]

まずは、 L1 にさっきのリンク先の Text データをすべて小文字にしてインポート。
続いて L2 はアミノ酸の単語を区切るために yl の後をカンマで区切ります。
L3 では phenylalanyl が phenyl,alanyl と解釈されているのでその部分を修正
L4 は

StringSplit["string",patt]
文字列を文字列式 patt にマッチするデリミタで区切って部分文字列に分割する.

という素晴らしい関数があるので、これで区切ってソートして、更にスプリット。
それらを Union と Length を使って数を調べて、数の多い順にソートして欲しいデータを作ります。
これを csv などにしてエクスポートしてあげれば見やすいデータの完成です!

因みにそのあとゴニョゴニョと備考などを付けてまとめたものが以下のものです。

単語 個数 アミノ酸(英語) アミノ酸 略語($3$文字) 略語($1$文字)
leucyl 1147 leucine ロイシン Leu L
glutamyl 971 glutamic acid グルタミン酸 Glu E
glutaminyl 763 glutamine グルタミン Gln Q
seryl 730 serine セリン Ser S
lysyl 697 lysine リシン Lsy K
alanyl 571 alanine アラニン Ala A
aspartyl 465 aspartic acid アスパラギン酸 Asp D
valyl 430 valine バリン Val V
arginyl 425 arginine アルギニン Arg R
threonyl 413 threonine トレオニン Thr T
isoleucyl 391 isoleucine イソロイシン Ile I
glycyl 290 glycine グリシン Gly G
asparaginyl 289 asparagine アスパラギン Asn N
histidyl 238 histidine ヒスチジン His H
phenylalanyl 206 phenylalanine フェニルアラニン Phe F
methionyl 204 methionine メチオニン Met M
prolyl 176 proline プロリン Pro P
tyrosyl 142 tyrosin チロシン Tyr Y
tryptophyl 131 tryptophan トリプトファン Trp W
cysteinyl 117 cysteine システイン Cys C
 
leucine 1 leucine ロイシン Leu L

合計で $8797$ ものアミノ酸がありました。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?