実習用データ
「ニューヨークの大気状態観測値」
ニューヨークの大気状態観測値。1973 年の五月から九月。 (詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/airquality.txt
- Ozone: Roosevelt 島における 1300 時から 1500 時までの 平均オゾン量 (parts per billion 単位)。
- Solar: セントラルパークにおける 0800 時から 1200 時 の周波数 4000~7700 オングストロームの日射量 (単位 Langleys)。
- Wind: La Guardia 空港における毎日の 0700 時から 10000 時の 平均風速 (単位 マイル)。
- Temp: La Guardia 空港における一日の最大温度 (単位 華氏)。
「合州国の州別暴力犯罪率」
1973 年の合州国の 50 の州毎の、住民10万人あたりの暴行、殺人、そして強姦による 逮捕数を含む。また都市部人口の割合が与えられている。
(詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/USArrests.txt
- Murder: 殺人による逮捕(10万あたり)
- Assault: 暴行による逮捕(10万あたり)
- UrbanPop: 都市部人口比率
- Rape: 強姦による逮捕(10万あたり)
「スポーツテストデータ」
中学生104人の運動能力テスト6種と体力測定5種の計測のデータ
(詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/sports_dataJt.txt
- 50mRun 50m走
- longjump 走り幅跳び
- handball ハンドボール投げ
- chinning 懸垂
- sidestep 反復横跳び
- vertump 垂直跳び
- back 背筋力
- grip 握力(両手平均)
- backward 上体そらし
- forward 立位体前屈
- stepping 踏み台昇降
「好きなアイスクリームアンケート」
男性40名、女性40名に、21種類のアイスクリームの好みに応じて点数(嫌い1〜好き9)をつけてもらったアンケート結果。
(詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/icecream_chosa.txt
- ID
- gender 性別
- age 年齢
- birth_order 兄弟姉妹の中で上から何番目か
- frequency 来店頻度
- vanilla バニラ
- strawberry ストロベリー
- milk_tea ミルクティー
- macadamia_nuts マカダミアナッツ
- cookie クッキー
- chocolate チョコ
- melon メロン
- coffee コーヒー
- almond アーモンド
- rum_raisin ラムレーズン
- mint ミント
- banana バナナ
- caramel キャラメル
- walnut クルミ
- cassis カシス
- chocolate_chips チョコチップ
- orange オレンジ
- green_tea 抹茶
- marron マロン
- chocolate_mint チョコミント
- adzuki-bean あずき
「新国民生活指標データ」
都道府県の豊かさを表すために,経済企画庁が策定した新国民生活指標の「住む」ことに関する平成11年の発表データ。
(詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/PLIlive_dataJ.txt
- Pref 都道府県 都道府県
- NonRep 危険住宅 危険・修理不能住宅比率(%)
- OverMin 最低居住 最低居住水準以上住宅比率(%)
- Rent 借家家賃 借家の1畳当たり実質家賃(円)
- HomeOwn 持家比率 持家比率(%)
- CompPol 公害苦情 公害苦情受理件数(人口十万人比)[-]
- NumClime 重要犯罪 重要刑法犯罪認知件数(人口十万人比)[-]
- NumLarc 重要窃盗 重要窃盗犯認知件数(人口十万人比)[-]
- TrafAcci 交通事故 交通事故発生件数(人口十万人比)[-]
- Fire 建物火災 建物火災出火件数(住宅十万戸比)[-]
- DspRubb ごみ処理率 ごみ衛生処理率(%)
- Sidewalk 歩道設置率 一般道路歩道設置率(%)
- MedFacil 医療機関 最寄りの医療機関までの距離500m未満住宅比率(%)
- OverOrd 居住水準 誘導居住水準以上住宅比率(%)
- Sunshine 日照時間 日照時間5時間以上住宅比率(%)
- NumMat 畳数 1人当たり畳数(畳)
- AreaResi 敷地面積 1住宅当たり敷地面積(m2)
- Transpt 交通機関 最寄りの交通機関1km未満住宅比率(%)
- AreaPark 公園面積 1人当たり公園面積(m2)
- Sewarage 下水普及率 下水道等普及率(%)
- Recycle リサイクル率 リサイクル率(%)
- AmtRubb ごみ排出量 1人1日当たりごみ排出量(g)[-]
- AvgMin 通勤通学時間 通勤・通学平均時間(分)[-]
- Pavement 道路舗装率 一般道路舗装率(%)
「都道府県別アルコール類の消費量」
沖縄県を除く日本の46都道府県における5種類のアルコール飲料の年間の消費量を調べたデータ。
(詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/sake_dataJ.txt
- Pref 都道府県
- Sake 清酒
- Shochu 焼酎
- Beer ビール
- Wine 果実酒
- Whisky ウイスキー
「スイス銀行紙幣データ」
本物と偽物の1000スイスフラン紙幣それぞれ100枚の測定値。
(詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/sbnote_dataJt.txt
- length 横幅長 紙幣の横の長さ
- left 左縦幅長 紙幣の縦の長さ(左側)
- right 右縦幅長 紙幣の縦の長さ(右側)
- bottom 下枠内長 紙幣の下端から内側の枠までの長さ
- top 上枠内長 紙幣の上端から内側の枠までの長さ
- diagonal 対角長 対角線の長さ
- class 真偽 札の真偽(0: 真札, 1:偽札)
「ワインの品質」
- 赤ワイン http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv
- 白ワイン http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv
(詳細)
- fixed acidity
- volatile acidity
- citric acid
- residual sugar
- chlorides
- free sulfur dioxide
- total sulfur dioxide
- density
- pH
- sulphates
- alcohol Output variable (based on sensory data):
- quality (score between 0 and 10)
「あやめのデータ」
三種類のあやめの品種のそれぞれからの 50の花の、センチメートル単位の蕚(がく)片の長さと幅、花弁の長さと幅の計測結果を与える。 品種は Iris setosa, versicolor そして virginica である。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/iris.txt
- Sepal.Length 蕚(がく)片の長さ
- Sepal.Width 蕚(がく)片の幅
- Petal.Length 花弁の長さ
- Petal.Width 花弁の幅
- Species 品種(setosa, versicolor or virginica)
「あわびのデータ」
http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data
(詳細)
- Sex 雄か雌か子供か M, F, and I (infant)
- Length 長さ mm Longest shell measurement
- Diameter 直径 mm perpendicular to length
- Height 高さ mm with meat in shell
- Whole weight 総重量 grams whole abalone
- Shucked weight 身の重さ grams weight of meat
- Viscera weight 内臓の重さ grams gut weight (after bleeding)
- Shell weight 殻の重さ grams after being dried
- Rings 輪の数(年齢が推定できる) +1.5 gives the age in years
「ピマ・インディアンの糖尿病診断」
National Institute of Diabetes and Digestive and Kidney Diseases が公表している、糖尿病の人と糖尿病ではない人の測定データ。
(詳細)。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/pima-indians-diabetes.txt
- NumTimePreg: Number of times pregnant
- OralGluTol: Plasma glucose concentration a 2 hours in an oral glucose tolerance test
- BloodPres: Diastolic blood pressure (mm Hg)
- SkinThick: Triceps skin fold thickness (mm)
- SerumInsulin: 2-Hour serum insulin (mu U/ml)
- BMI: Body mass index (weight in kg/(height in m)^2)
- PedigreeFunc: Diabetes pedigree function
- Age: Age (years)
- Class: Class variable (0 or 1)
「パーキンソン病診断データ」
http://archive.ics.uci.edu/ml/machine-learning-databases/parkinsons/parkinsons.data
(詳細)
- name - ASCII subject name and recording number
- MDVP:Fo(Hz) - Average vocal fundamental frequency
- MDVP:Fhi(Hz) - Maximum vocal fundamental frequency
- MDVP:Flo(Hz) - Minimum vocal fundamental frequency
- MDVP:Jitter(%),MDVP:Jitter(Abs),MDVP:RAP,MDVP:PPQ,Jitter:DDP - Several measures of variation in fundamental frequency
- MDVP:Shimmer,MDVP:Shimmer(dB),Shimmer:APQ3,Shimmer:APQ5,MDVP:APQ,Shimmer:DDA - Several measures of variation in amplitude
- NHR,HNR - Two measures of ratio of noise to tonal components in the voice
- status - Health status of the subject (one) - Parkinson's, (zero) - healthy
- RPDE,D2 - Two nonlinear dynamical complexity measures
- DFA - Signal fractal scaling exponent
- spread1,spread2,PPE - Three nonlinear measures of fundamental frequency variation
「大腸菌タンパク質の細胞内局在」
http://archive.ics.uci.edu/ml/machine-learning-databases/ecoli/ecoli.data
(詳細)
- Sequence Name: Accession number for the SWISS-PROT database
- mcg: McGeoch's method for signal sequence recognition.
- gvh: von Heijne's method for signal sequence recognition.
- lip: von Heijne's Signal Peptidase II consensus sequence score. Binary attribute.
- chg: Presence of charge on N-terminus of predicted lipoproteins. Binary attribute.
- aac: score of discriminant analysis of the amino acid content of outer membrane and periplasmic proteins.
- alm1: score of the ALOM membrane spanning region prediction program.
- alm2: score of ALOM program after excluding putative cleavable signal regions from the sequence.
細胞内局在
- cp (cytoplasm) 143
- im (inner membrane without signal sequence) 77
- pp (perisplasm) 52
- imU (inner membrane, uncleavable signal sequence) 35
- om (outer membrane) 20
- omL (outer membrane lipoprotein) 5
- imL (inner membrane lipoprotein) 2
- imS (inner membrane, cleavable signal sequence) 2
「酵母タンパク質の細胞内局在」
http://archive.ics.uci.edu/ml/machine-learning-databases/yeast/yeast.data
(詳細)
- Sequence Name: Accession number for the SWISS-PROT database
- mcg: McGeoch's method for signal sequence recognition.
- gvh: von Heijne's method for signal sequence recognition.
- alm: Score of the ALOM membrane spanning region prediction program.
- mit: Score of discriminant analysis of the amino acid content of the N-terminal region (20 residues long) of mitochondrial and non-mitochondrial proteins.
- erl: Presence of "HDEL" substring (thought to act as a signal for retention in the endoplasmic reticulum lumen). Binary attribute.
- pox: Peroxisomal targeting signal in the C-terminus.
- vac: Score of discriminant analysis of the amino acid content of vacuolar and extracellular proteins.
- nuc: Score of discriminant analysis of nuclear localization signals of nuclear and non-nuclear proteins.
細胞内局在
- CYT (cytosolic or cytoskeletal) 463
- NUC (nuclear) 429
- MIT (mitochondrial) 244
- ME3 (membrane protein, no N-terminal signal) 163
- ME2 (membrane protein, uncleaved signal) 51
- ME1 (membrane protein, cleaved signal) 44
- EXC (extracellular) 37
- VAC (vacuolar) 30
- POX (peroxisomal) 20
- ERL (endoplasmic reticulum lumen) 5