LoginSignup
12
12

More than 5 years have passed since last update.

実習用データ

Posted at

実習用データ

「ニューヨークの大気状態観測値」

ニューヨークの大気状態観測値。1973 年の五月から九月。 (詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/airquality.txt

  1. Ozone: Roosevelt 島における 1300 時から 1500 時までの 平均オゾン量 (parts per billion 単位)。
  2. Solar: セントラルパークにおける 0800 時から 1200 時 の周波数 4000~7700 オングストロームの日射量 (単位 Langleys)。
  3. Wind: La Guardia 空港における毎日の 0700 時から 10000 時の 平均風速 (単位 マイル)。
  4. Temp: La Guardia 空港における一日の最大温度 (単位 華氏)。

「合州国の州別暴力犯罪率」

1973 年の合州国の 50 の州毎の、住民10万人あたりの暴行、殺人、そして強姦による 逮捕数を含む。また都市部人口の割合が与えられている。
(詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/USArrests.txt

  1. Murder: 殺人による逮捕(10万あたり)
  2. Assault: 暴行による逮捕(10万あたり)
  3. UrbanPop: 都市部人口比率
  4. Rape: 強姦による逮捕(10万あたり)

「スポーツテストデータ」

中学生104人の運動能力テスト6種と体力測定5種の計測のデータ
(詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/sports_dataJt.txt

  1. 50mRun 50m走
  2. longjump 走り幅跳び
  3. handball ハンドボール投げ
  4. chinning 懸垂
  5. sidestep 反復横跳び
  6. vertump 垂直跳び
  7. back 背筋力
  8. grip 握力(両手平均)
  9. backward 上体そらし
  10. forward 立位体前屈
  11. stepping 踏み台昇降

「好きなアイスクリームアンケート」

男性40名、女性40名に、21種類のアイスクリームの好みに応じて点数(嫌い1〜好き9)をつけてもらったアンケート結果。
(詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/icecream_chosa.txt

  1. ID
  2. gender 性別
  3. age 年齢
  4. birth_order 兄弟姉妹の中で上から何番目か
  5. frequency 来店頻度
  6. vanilla バニラ
  7. strawberry ストロベリー
  8. milk_tea ミルクティー
  9. macadamia_nuts マカダミアナッツ
  10. cookie クッキー
  11. chocolate チョコ
  12. melon メロン
  13. coffee コーヒー
  14. almond アーモンド
  15. rum_raisin ラムレーズン
  16. mint ミント
  17. banana バナナ
  18. caramel キャラメル
  19. walnut クルミ
  20. cassis カシス
  21. chocolate_chips チョコチップ
  22. orange オレンジ
  23. green_tea 抹茶
  24. marron マロン
  25. chocolate_mint チョコミント
  26. adzuki-bean あずき

「新国民生活指標データ」

都道府県の豊かさを表すために,経済企画庁が策定した新国民生活指標の「住む」ことに関する平成11年の発表データ。
(詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/PLIlive_dataJ.txt

  1. Pref 都道府県 都道府県
  2. NonRep 危険住宅 危険・修理不能住宅比率(%)
  3. OverMin 最低居住 最低居住水準以上住宅比率(%)
  4. Rent 借家家賃 借家の1畳当たり実質家賃(円)
  5. HomeOwn 持家比率 持家比率(%)
  6. CompPol 公害苦情 公害苦情受理件数(人口十万人比)[-]
  7. NumClime 重要犯罪 重要刑法犯罪認知件数(人口十万人比)[-]
  8. NumLarc 重要窃盗 重要窃盗犯認知件数(人口十万人比)[-]
  9. TrafAcci 交通事故 交通事故発生件数(人口十万人比)[-]
  10. Fire 建物火災 建物火災出火件数(住宅十万戸比)[-]
  11. DspRubb ごみ処理率 ごみ衛生処理率(%)
  12. Sidewalk 歩道設置率 一般道路歩道設置率(%)
  13. MedFacil 医療機関 最寄りの医療機関までの距離500m未満住宅比率(%)
  14. OverOrd 居住水準 誘導居住水準以上住宅比率(%)
  15. Sunshine 日照時間 日照時間5時間以上住宅比率(%)
  16. NumMat 畳数 1人当たり畳数(畳)
  17. AreaResi 敷地面積 1住宅当たり敷地面積(m2)
  18. Transpt 交通機関 最寄りの交通機関1km未満住宅比率(%)
  19. AreaPark 公園面積 1人当たり公園面積(m2)
  20. Sewarage 下水普及率 下水道等普及率(%)
  21. Recycle リサイクル率 リサイクル率(%)
  22. AmtRubb ごみ排出量 1人1日当たりごみ排出量(g)[-]
  23. AvgMin 通勤通学時間 通勤・通学平均時間(分)[-]
  24. Pavement 道路舗装率 一般道路舗装率(%)

「都道府県別アルコール類の消費量」

沖縄県を除く日本の46都道府県における5種類のアルコール飲料の年間の消費量を調べたデータ。
詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/sake_dataJ.txt


  1. Pref 都道府県
  2. Sake 清酒
  3. Shochu 焼酎
  4. Beer ビール
  5. Wine 果実酒
  6. Whisky ウイスキー

「スイス銀行紙幣データ」

本物と偽物の1000スイスフラン紙幣それぞれ100枚の測定値。
詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/sbnote_dataJt.txt


  1. length 横幅長 紙幣の横の長さ
  2. left 左縦幅長 紙幣の縦の長さ(左側)
  3. right 右縦幅長 紙幣の縦の長さ(右側)
  4. bottom 下枠内長 紙幣の下端から内側の枠までの長さ
  5. top 上枠内長 紙幣の上端から内側の枠までの長さ
  6. diagonal 対角長 対角線の長さ
  7. class 真偽 札の真偽(0: 真札, 1:偽札)

「ワインの品質」

(詳細)


  1. fixed acidity
  2. volatile acidity
  3. citric acid
  4. residual sugar
  5. chlorides
  6. free sulfur dioxide
  7. total sulfur dioxide
  8. density
  9. pH
  10. sulphates
  11. alcohol
    Output variable (based on sensory data):
  12. quality (score between 0 and 10)

「あやめのデータ」

三種類のあやめの品種のそれぞれからの 50の花の、センチメートル単位の蕚(がく)片の長さと幅、花弁の長さと幅の計測結果を与える。 品種は Iris setosa, versicolor そして virginica である。

https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/iris.txt


  1. Sepal.Length 蕚(がく)片の長さ
  2. Sepal.Width 蕚(がく)片の幅
  3. Petal.Length 花弁の長さ
  4. Petal.Width 花弁の幅
  5. Species 品種(setosa, versicolor or virginica)

「あわびのデータ」

http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data
詳細


  1. Sex 雄か雌か子供か M, F, and I (infant)
  2. Length 長さ mm Longest shell measurement
  3. Diameter 直径 mm perpendicular to length
  4. Height 高さ mm with meat in shell
  5. Whole weight 総重量 grams whole abalone
  6. Shucked weight 身の重さ grams weight of meat
  7. Viscera weight 内臓の重さ grams gut weight (after bleeding)
  8. Shell weight 殻の重さ grams after being dried
  9. Rings 輪の数(年齢が推定できる) +1.5 gives the age in years

「ピマ・インディアンの糖尿病診断」

National Institute of Diabetes and Digestive and Kidney Diseases が公表している、糖尿病の人と糖尿病ではない人の測定データ。
(詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/pima-indians-diabetes.txt

  1. NumTimePreg: Number of times pregnant
  2. OralGluTol: Plasma glucose concentration a 2 hours in an oral glucose tolerance test
  3. BloodPres: Diastolic blood pressure (mm Hg)
  4. SkinThick: Triceps skin fold thickness (mm)
  5. SerumInsulin: 2-Hour serum insulin (mu U/ml)
  6. BMI: Body mass index (weight in kg/(height in m)^2)
  7. PedigreeFunc: Diabetes pedigree function
  8. Age: Age (years)
  9. Class: Class variable (0 or 1)

「パーキンソン病診断データ」

http://archive.ics.uci.edu/ml/machine-learning-databases/parkinsons/parkinsons.data
(詳細)


  1. name - ASCII subject name and recording number
  2. MDVP:Fo(Hz) - Average vocal fundamental frequency
  3. MDVP:Fhi(Hz) - Maximum vocal fundamental frequency
  4. MDVP:Flo(Hz) - Minimum vocal fundamental frequency
  5. MDVP:Jitter(%),MDVP:Jitter(Abs),MDVP:RAP,MDVP:PPQ,Jitter:DDP - Several measures of variation in fundamental frequency
  6. MDVP:Shimmer,MDVP:Shimmer(dB),Shimmer:APQ3,Shimmer:APQ5,MDVP:APQ,Shimmer:DDA - Several measures of variation in amplitude
  7. NHR,HNR - Two measures of ratio of noise to tonal components in the voice
  8. status - Health status of the subject (one) - Parkinson's, (zero) - healthy
  9. RPDE,D2 - Two nonlinear dynamical complexity measures
  10. DFA - Signal fractal scaling exponent
  11. spread1,spread2,PPE - Three nonlinear measures of fundamental frequency variation

「大腸菌タンパク質の細胞内局在」

http://archive.ics.uci.edu/ml/machine-learning-databases/ecoli/ecoli.data
(詳細)


  1. Sequence Name: Accession number for the SWISS-PROT database
  2. mcg: McGeoch's method for signal sequence recognition.
  3. gvh: von Heijne's method for signal sequence recognition.
  4. lip: von Heijne's Signal Peptidase II consensus sequence score.
    Binary attribute.
  5. chg: Presence of charge on N-terminus of predicted lipoproteins.
    Binary attribute.
  6. aac: score of discriminant analysis of the amino acid content of
    outer membrane and periplasmic proteins.
  7. alm1: score of the ALOM membrane spanning region prediction program.
  8. alm2: score of ALOM program after excluding putative cleavable signal
    regions from the sequence.

細胞内局在


  • cp (cytoplasm) 143
  • im (inner membrane without signal sequence) 77

  • pp (perisplasm) 52
  • imU (inner membrane, uncleavable signal sequence) 35
  • om (outer membrane) 20
  • omL (outer membrane lipoprotein) 5
  • imL (inner membrane lipoprotein) 2
  • imS (inner membrane, cleavable signal sequence) 2

「酵母タンパク質の細胞内局在」

http://archive.ics.uci.edu/ml/machine-learning-databases/yeast/yeast.data
(詳細)


  1. Sequence Name: Accession number for the SWISS-PROT database
  2. mcg: McGeoch's method for signal sequence recognition.
  3. gvh: von Heijne's method for signal sequence recognition.
  4. alm: Score of the ALOM membrane spanning region prediction program.
  5. mit: Score of discriminant analysis of the amino acid content of
    the N-terminal region (20 residues long) of mitochondrial and
    non-mitochondrial proteins.
  6. erl: Presence of "HDEL" substring (thought to act as a signal for
    retention in the endoplasmic reticulum lumen). Binary attribute.
  7. pox: Peroxisomal targeting signal in the C-terminus.
  8. vac: Score of discriminant analysis of the amino acid content of
    vacuolar and extracellular proteins.
  9. nuc: Score of discriminant analysis of nuclear localization signals
    of nuclear and non-nuclear proteins.

細胞内局在


  • CYT (cytosolic or cytoskeletal) 463
  • NUC (nuclear) 429
  • MIT (mitochondrial) 244
  • ME3 (membrane protein, no N-terminal signal) 163
  • ME2 (membrane protein, uncleaved signal) 51
  • ME1 (membrane protein, cleaved signal) 44
  • EXC (extracellular) 37
  • VAC (vacuolar) 30
  • POX (peroxisomal) 20
  • ERL (endoplasmic reticulum lumen) 5
12
12
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
12
12