発表!長い英単語トップ10。1位は驚きの語数
の記事を見ると $1$ 位に輝いている英単語は化学の専門用語でタンパク質の一種だそうです。
通称 Titin (チチン) と呼ばれているそうで、その単語の長さは驚きの
18万9819語
だそうです!!
全文を見たい場合はthelongestwordinenglish.txtに載っているそうなので早速見てみました。
すると、なんか似ている文字列が複数あるではないですか。。。
だったらどんな文字がどれだけ出ているかを調べたくなってしまいますよね。
そこで超高機能な Mathematica さんに調べてもらいました。
L1 = ToLowerCase@Import["http://nzlife.net/wp-content/uploads/thelongestwordinenglish.txt"];
L2 = StringInsert[L1, ",", First[#] + 2 & /@ StringPosition[L1, "yl"]];
L3 = StringReplacePart[L2, "phenylalanyl", StringPosition[L2, "phenyl,alanyl"]];
L4 = Sort[Flatten[{Union[#], Length[#]}] & /@ Split@Sort@StringSplit[L3, ","], #1[[2]] > #2[[2]] &];
Export["thelongestwordinenglish.csv", L4]
まずは、 L1 にさっきのリンク先の Text データをすべて小文字にしてインポート。
続いて L2 はアミノ酸の単語を区切るために yl の後をカンマで区切ります。
L3 では phenylalanyl が phenyl,alanyl と解釈されているのでその部分を修正
L4 は
StringSplit["string",patt]
文字列を文字列式 patt にマッチするデリミタで区切って部分文字列に分割する.
という素晴らしい関数があるので、これで区切ってソートして、更にスプリット。
それらを Union と Length を使って数を調べて、数の多い順にソートして欲しいデータを作ります。
これを csv などにしてエクスポートしてあげれば見やすいデータの完成です!
因みにそのあとゴニョゴニョと備考などを付けてまとめたものが以下のものです。
単語 | 個数 | アミノ酸(英語) | アミノ酸 | 略語($3$文字) | 略語($1$文字) |
---|---|---|---|---|---|
leucyl | 1147 | leucine | ロイシン | Leu | L |
glutamyl | 971 | glutamic acid | グルタミン酸 | Glu | E |
glutaminyl | 763 | glutamine | グルタミン | Gln | Q |
seryl | 730 | serine | セリン | Ser | S |
lysyl | 697 | lysine | リシン | Lsy | K |
alanyl | 571 | alanine | アラニン | Ala | A |
aspartyl | 465 | aspartic acid | アスパラギン酸 | Asp | D |
valyl | 430 | valine | バリン | Val | V |
arginyl | 425 | arginine | アルギニン | Arg | R |
threonyl | 413 | threonine | トレオニン | Thr | T |
isoleucyl | 391 | isoleucine | イソロイシン | Ile | I |
glycyl | 290 | glycine | グリシン | Gly | G |
asparaginyl | 289 | asparagine | アスパラギン | Asn | N |
histidyl | 238 | histidine | ヒスチジン | His | H |
phenylalanyl | 206 | phenylalanine | フェニルアラニン | Phe | F |
methionyl | 204 | methionine | メチオニン | Met | M |
prolyl | 176 | proline | プロリン | Pro | P |
tyrosyl | 142 | tyrosin | チロシン | Tyr | Y |
tryptophyl | 131 | tryptophan | トリプトファン | Trp | W |
cysteinyl | 117 | cysteine | システイン | Cys | C |
leucine | 1 | leucine | ロイシン | Leu | L |
合計で $8797$ ものアミノ酸がありました。