皆さんこんにちは。今日は、ちょっと趣きを変えまして、「pydatasetについて ChatOpenAI に意見をもらう」というテーマで雑談したいと思います。それではChatGPT先生、よろしくお願いします。
assistant:
こんにちは!ぜひ、PyDatasetについて話しましょう。
PyDatasetはPythonで利用できるオープンソースのデータセットライブラリで、Rのデータセットを利用可能にします。そのうえで、多様なデータ分析を行なうために使われています。
PyDatasetは分析を行う際の教育用途や単純にデータセットを探して試す際にも使いやすいと言えます。何より特筆するべきはライブラリ内に含まれる大量のデータセットの多様性です。また、データセットはきちんと整理整頓され、その中身を調べることが出来ます。
ただし、PyDatasetは全てのデータセットを網羅しているわけではなく、特定のデータセットが必要な場合は他のソースを探す必要があります。レアなデータセットや新しく公開されたデータセットは他のレポジトリやオープンデータのプラットフォームで探すこともお奨めします。
全体的に見て、PyDatasetはとても使いやすく、データの探索と洞察を得るのに役立つリソースと言えます。学習の初期段階や新しいアイデアを試してみる際には特に役立つでしょう。
user:
ありがとうございます。PyDatasetには、756種類のデータがあり、全てを把握するのはとても大変なので、ひとつひとつ ChatOpenAI に意見をもらおうと思います。ChatGPT先生に756回も聞くのは大変ですからね。
assistant:
それは大変な量ですね!まずは、特定のデータセットに焦点を当てたいのか、それともランダムに選択したデータセットについて話を進めるのか、あなたの希望を教えていただければと思います。
あるデータセットに多くの時間を使うことは、そのデータセットの特異性、潜在的な価値、視覚化可能性、分析技術の重要性などを理解するのに役立つと思います。また、データセットは特定の目的のためならびに特定の視点から作られていますので、それについて考察することも重要です。
ただし、ランダムなデータセットについて考えるというアプローチも有益です。それは多様性に対する理解を深め、意外な視点や新たな洞察を得る機会を提供します。ランダム性は創造性と新たな発見を奨励する可能性があります。
なので、どちらのアプローチを選ぶかは全てあなた次第です。どのデータセットから始めますか?また、具体的に何を調査したいのかも教えていただけると幸いです。
user:
いえ、ChatGPT先生にお聞きしたいのは、今回使うこれらのライブラリについてです。ご存知のことがあれば詳しく教えてください。
from langchain.chains import LLMChain
from langchain.chat_models import AzureChatOpenAI
from langchain.prompts import PromptTemplate
assistant:
私のアーカイブと現在の情報によると、あなたが列挙した3つのライブラリ LLMChain
, AzureChatOpenAI
, PromptTemplate
についての詳しい情報は利用できませんでした。これらのライブラリは特定のプロジェクトや団体に関連している可能性があります。
一般的に、chains
や chat_models
モジュールは、プログラムの特定の部分や機能、あるいは特定の問題を解決するための機能をパッケージ化して提供するものと推測されます。
LLMChain
は、名前を見る限り長短期記憶(Long short-term memory、LSTM)やマルコフ連鎖などのような、何らかの連鎖や系列ベースのモデルを意味する可能性があります。
AzureChatOpenAI
はおそらくMicrosoftのAzureプラットフォームとOpenAIのGPTのような人工知能モデルを組み合わせてチャットボットのようなものを実装するためのものかもしれません。
PromptTemplate
は、ユーザーが入力する質問(プロンプト)に対して、特定の返答を設定する「テンプレート」を提供するものと思われます。
ただし、これらは私の推測に過ぎないことをご理解ください。具体的な機能や使い方について詳しく知りたい場合、それらが含まれるライブラリやパッケージのドキュメンテーション、ソースコードの注釈、またはその他の利用可能な資料を参照することをお勧めします。
user:
分かりました。これらはご存知ないのですね。ありがとうございます。
assistant:
はい、申し訳ありませんが、その通りです。具体的なライブラリの機能や実装については、公式ドキュメンテーションや実装者に直接問い合わせるのが一番確実な方法となります。それにより、的確で詳細な情報を得られます。お手数をおかけして申し訳ありませんが、何か他にお手伝いできることがありましたらお知らせください。
user:
現場からは以上です! スタジオにお返しします!
assistant:
ありがとうございます!これからもお困りごとがありましたら、どんな質問でもお気軽にどうぞ。お手伝いできることがありましたらお知らせください。それでは、よい一日をお過ごしください!
user:
はい、こちら、スタジオです。ここから先は、pydataの中身について AzureChatOpenAI にご意見をいただくコードをご紹介します。それではお楽しみください。
import pandas as pd
from pydataset import data
# displayの設定で最大表示列数を指定
pd.set_option("display.max_columns", None)
# displayの設定で最大表示行数を指定
pd.set_option("display.max_rows", None)
# 利用可能なデータセットのリストを取得
datasets = data()
datasets
dataset_id | title | |
---|---|---|
0 | AirPassengers | Monthly Airline Passenger Numbers 1949-1960 |
1 | BJsales | Sales Data with Leading Indicator |
2 | BOD | Biochemical Oxygen Demand |
3 | Formaldehyde | Determination of Formaldehyde |
4 | HairEyeColor | Hair and Eye Color of Statistics Students |
5 | InsectSprays | Effectiveness of Insect Sprays |
6 | JohnsonJohnson | Quarterly Earnings per Johnson & Johnson Share |
7 | LakeHuron | Level of Lake Huron 1875-1972 |
8 | LifeCycleSavings | Intercountry Life-Cycle Savings Data |
9 | Nile | Flow of the River Nile |
10 | OrchardSprays | Potency of Orchard Sprays |
11 | PlantGrowth | Results from an Experiment on Plant Growth |
12 | Puromycin | Reaction Velocity of an Enzymatic Reaction |
13 | Titanic | Survival of passengers on the Titanic |
14 | ToothGrowth | The Effect of Vitamin C on Tooth Growth in Guinea Pigs |
15 | UCBAdmissions | Student Admissions at UC Berkeley |
16 | UKDriverDeaths | Road Casualties in Great Britain 1969-84 |
17 | UKgas | UK Quarterly Gas Consumption |
18 | USAccDeaths | Accidental Deaths in the US 1973-1978 |
19 | USArrests | Violent Crime Rates by US State |
20 | USJudgeRatings | Lawyers' Ratings of State Judges in the US Superior Court |
21 | USPersonalExpenditure | Personal Expenditure Data |
22 | VADeaths | Death Rates in Virginia (1940) |
23 | WWWusage | Internet Usage per Minute |
24 | WorldPhones | The World's Telephones |
25 | airmiles | Passenger Miles on Commercial US Airlines, 1937-1960 |
26 | airquality | New York Air Quality Measurements |
27 | anscombe | Anscombe's Quartet of 'Identical' Simple Linear Regressions |
28 | attenu | The Joyner-Boore Attenuation Data |
29 | attitude | The Chatterjee-Price Attitude Data |
30 | austres | Quarterly Time Series of the Number of Australian Residents |
31 | cars | Speed and Stopping Distances of Cars |
32 | chickwts | Chicken Weights by Feed Type |
33 | co2 | Mauna Loa Atmospheric CO2 Concentration |
34 | crimtab | Student's 3000 Criminals Data |
35 | discoveries | Yearly Numbers of Important Discoveries |
36 | esoph | Smoking, Alcohol and (O)esophageal Cancer |
37 | euro | Conversion Rates of Euro Currencies |
38 | faithful | Old Faithful Geyser Data |
39 | freeny | Freeny's Revenue Data |
40 | infert | Infertility after Spontaneous and Induced Abortion |
41 | iris | Edgar Anderson's Iris Data |
42 | islands | Areas of the World's Major Landmasses |
43 | lh | Luteinizing Hormone in Blood Samples |
44 | longley | Longley's Economic Regression Data |
45 | lynx | Annual Canadian Lynx trappings 1821-1934 |
46 | morley | Michelson Speed of Light Data |
47 | mtcars | Motor Trend Car Road Tests |
48 | nhtemp | Average Yearly Temperatures in New Haven |
49 | nottem | Average Monthly Temperatures at Nottingham, 1920-1939 |
50 | npk | Classical N, P, K Factorial Experiment |
51 | occupationalStatus | Occupational Status of Fathers and their Sons |
52 | precip | Annual Precipitation in US Cities |
53 | presidents | Quarterly Approval Ratings of US Presidents |
54 | pressure | Vapor Pressure of Mercury as a Function of Temperature |
55 | quakes | Locations of Earthquakes off Fiji |
56 | randu | Random Numbers from Congruential Generator RANDU |
57 | rivers | Lengths of Major North American Rivers |
58 | rock | Measurements on Petroleum Rock Samples |
59 | sleep | Student's Sleep Data |
60 | stackloss | Brownlee's Stack Loss Plant Data |
61 | sunspot.month | Monthly Sunspot Data, from 1749 to "Present" |
62 | sunspot.year | Yearly Sunspot Data, 1700-1988 |
63 | sunspots | Monthly Sunspot Numbers, 1749-1983 |
64 | swiss | Swiss Fertility and Socioeconomic Indicators (1888) Data |
65 | treering | Yearly Treering Data, -6000-1979 |
66 | trees | Girth, Height and Volume for Black Cherry Trees |
67 | uspop | Populations Recorded by the US Census |
68 | volcano | Topographic Information on Auckland's Maunga Whau Volcano |
69 | warpbreaks | The Number of Breaks in Yarn during Weaving |
70 | women | Average Heights and Weights for American Women |
71 | acme | Monthly Excess Returns |
72 | aids | Delay in AIDS Reporting in England and Wales |
73 | aircondit | Failures of Air-conditioning Equipment |
74 | aircondit7 | Failures of Air-conditioning Equipment |
75 | amis | Car Speeding and Warning Signs |
76 | aml | Remission Times for Acute Myelogenous Leukaemia |
77 | bigcity | Population of U.S. Cities |
78 | brambles | Spatial Location of Bramble Canes |
79 | breslow | Smoking Deaths Among Doctors |
80 | calcium | Calcium Uptake Data |
81 | cane | Sugar-cane Disease Data |
82 | capability | Simulated Manufacturing Process Data |
83 | catsM | Weight Data for Domestic Cats |
84 | cav | Position of Muscle Caveolae |
85 | cd4 | CD4 Counts for HIV-Positive Patients |
86 | channing | Channing House Data |
87 | city | Population of U.S. Cities |
88 | claridge | Genetic Links to Left-handedness |
89 | cloth | Number of Flaws in Cloth |
90 | co.transfer | Carbon Monoxide Transfer |
91 | coal | Dates of Coal Mining Disasters |
92 | darwin | Darwin's Plant Height Differences |
93 | dogs | Cardiac Data for Domestic Dogs |
94 | downs.bc | Incidence of Down's Syndrome in British Columbia |
95 | ducks | Behavioral and Plumage Characteristics of Hybrid Ducks |
96 | fir | Counts of Balsam-fir Seedlings |
97 | frets | Head Dimensions in Brothers |
98 | grav | Acceleration Due to Gravity |
99 | gravity | Acceleration Due to Gravity |
100 | hirose | Failure Time of PET Film |
101 | islay | Jura Quartzite Azimuths on Islay |
102 | manaus | Average Heights of the Rio Negro river at Manaus |
103 | melanoma | Survival from Malignant Melanoma |
104 | motor | Data from a Simulated Motorcycle Accident |
105 | neuro | Neurophysiological Point Process Data |
106 | nitrofen | Toxicity of Nitrofen in Aquatic Systems |
107 | nodal | Nodal Involvement in Prostate Cancer |
108 | nuclear | Nuclear Power Station Construction Data |
109 | paulsen | Neurotransmission in Guinea Pig Brains |
110 | poisons | Animal Survival Times |
111 | polar | Pole Positions of New Caledonian Laterites |
112 | remission | Cancer Remission and Cell Activity |
113 | salinity | Water Salinity and River Discharge |
114 | survival | Survival of Rats after Radiation Doses |
115 | tau | Tau Particle Decay Modes |
116 | tuna | Tuna Sighting Data |
117 | urine | Urine Analysis Data |
118 | wool | Australian Relative Wool Prices |
119 | aids | data from Section 1.19 |
120 | alloauto | data from Section 1.9 |
121 | allograft | data from Exercise 13.1, p418 |
122 | azt | data from Exercise 4.7, p122 |
123 | baboon | data from Exercise 5.8, p147 |
124 | bcdeter | data from Section 1.18 |
125 | bfeed | data from Section 1.14 |
126 | bmt | data from Section 1.3 |
127 | bnct | data from Exercise 7.7, p223 |
128 | btrial | data from Section 1.5 |
129 | burn | data from Section 1.6 |
130 | channing | data from Section 1.16 |
131 | drug6mp | data from Section 1.2 |
132 | drughiv | data from Exercise 7.6, p222 |
133 | hodg | data from Section 1.10 |
134 | kidney | data from Section 1.4 |
135 | kidrecurr | Data on 38 individuals using a kidney dialysis machine |
136 | kidtran | data from Section 1.7 |
137 | larynx | data from Section 1.8 |
138 | lung | data from Exercise 4.4, p120 |
139 | pneumon | data from Section 1.13 |
140 | psych | data from Section 1.15 |
141 | rats | data from Exercise 7.13, p225 |
142 | std | data from Section 1.12 |
143 | stddiag | data from Exercise 5.6, p146 |
144 | tongue | data from Section 1.11 |
145 | twins | data from Exercise 7.14, p225 |
146 | Animals2 | Brain and Body Weights for 65 Species of Land Animals |
147 | CrohnD | Crohn's Disease Adverse Events Data |
148 | NOxEmissions | NOx Air Pollution Data |
149 | SiegelsEx | Siegel's Exact Fit Example Data |
150 | aircraft | Aircraft Data |
151 | airmay | Air Quality Data |
152 | alcohol | Alcohol Solubility in Water Data |
153 | ambientNOxCH | Daily Means of NOx (mono-nitrogen oxides) in air |
154 | bushfire | Campbell Bushfire Data |
155 | carrots | Insect Damages on Carrots |
156 | cloud | Cloud point of a Liquid |
157 | coleman | Coleman Data Set |
158 | condroz | Condroz Data |
159 | cushny | Cushny and Peebles Prolongation of Sleep Data |
160 | delivery | Delivery Time Data |
161 | education | Education Expenditure Data |
162 | epilepsy | Epilepsy Attacks Data Set |
163 | exAM | Example Data of Antille and May - for Simple Regression |
164 | foodstamp | Food Stamp Program Participation |
165 | hbk | Hawkins, Bradu, Kass's Artificial Data |
166 | heart | Heart Catherization Data |
167 | kootenay | Waterflow Measurements of Kootenay River in Libby and Newgate |
168 | lactic | Lactic Acid Concentration Measurement Data |
169 | milk | Daudin's Milk Composition Data |
170 | pension | Pension Funds Data |
171 | phosphor | Phosphorus Content Data |
172 | pilot | Pilot-Plant Data |
173 | possumDiv | Possum Diversity Data |
174 | pulpfiber | Pulp Fiber and Paper Data |
175 | radarImage | Satellite Radar Image Data from near Munich |
176 | salinity | Salinity Data |
177 | starsCYG | Hertzsprung-Russell Diagram Data of Star Cluster CYG OB1 |
178 | telef | Number of International Calls from Belgium |
179 | toxicity | Toxicity of Carboxylic Acids Data |
180 | vaso | Vaso Constriction Skin Data Set |
181 | wagnerGrowth | Wagner's Hannover Employment Growth Data |
182 | wood | Modified Data on Wood Specific Gravity |
183 | AMSsurvey | American Math Society Survey Data |
184 | Adler | Experimenter Expectations |
185 | Angell | Moral Integration of American Cities |
186 | Anscombe | U. S. State Public-School Expenditures |
187 | Baumann | Methods of Teaching Reading Comprehension |
188 | Bfox | Canadian Women's Labour-Force Participation |
189 | Blackmoor | Exercise Histories of Eating-Disordered and Control Subjects |
190 | Burt | Fraudulent Data on IQs of Twins Raised Apart |
191 | CanPop | Canadian Population Data |
192 | Chile | Voting Intentions in the 1988 Chilean Plebiscite |
193 | Chirot | The 1907 Romanian Peasant Rebellion |
194 | Cowles | Cowles and Davis's Data on Volunteering |
195 | Davis | Self-Reports of Height and Weight |
196 | DavisThin | Davis's Data on Drive for Thinness |
197 | Depredations | Minnesota Wolf Depredation Data |
198 | Duncan | Duncan's Occupational Prestige Data |
199 | Ericksen | The 1980 U.S. Census Undercount |
200 | Florida | Florida County Voting |
201 | Freedman | Crowding and Crime in U. S. Metropolitan Areas |
202 | Friendly | Format Effects on Recall |
203 | Ginzberg | Data on Depression |
204 | Greene | Refugee Appeals |
205 | Guyer | Anonymity and Cooperation |
206 | Hartnagel | Canadian Crime-Rates Time Series |
207 | Highway1 | Highway Accidents |
208 | Leinhardt | Data on Infant-Mortality |
209 | Mandel | Contrived Collinear Data |
210 | Migration | Canadian Interprovincial Migration Data |
211 | Moore | Status, Authoritarianism, and Conformity |
212 | Mroz | U.S. Women's Labor-Force Participation |
213 | OBrienKaiser | O'Brien and Kaiser's Repeated-Measures Data |
214 | Ornstein | Interlocking Directorates Among Major Canadian Firms |
215 | Pottery | Chemical Composition of Pottery |
216 | Prestige | Prestige of Canadian Occupations |
217 | Quartet | Four Regression Datasets |
218 | Robey | Fertility and Contraception |
219 | SLID | Survey of Labour and Income Dynamics |
220 | Sahlins | Agricultural Production in Mazulu Village |
221 | Salaries | Salaries for Professors |
222 | Soils | Soil Compositions of Physical and Chemical Characteristics |
223 | States | Education and Related Statistics for the U.S. States |
224 | Transact | Transaction data |
225 | UN | GDP and Infant Mortality |
226 | USPop | Population of the United States |
227 | Vocab | Vocabulary and Education |
228 | WeightLoss | Weight Loss Data |
229 | Womenlf | Canadian Women's Labour-Force Participation |
230 | Wool | Wool data |
231 | agriculture | European Union Agricultural Workforces |
232 | animals | Attributes of Animals |
233 | chorSub | Subset of C-horizon of Kola Data |
234 | flower | Flower Characteristics |
235 | plantTraits | Plant Species Traits Data |
236 | pluton | Isotopic Composition Plutonium Batches |
237 | ruspini | Ruspini Data |
238 | votes.repub | Votes for Republican Candidate in Presidential Elections |
239 | xclara | Bivariate Data Set with 3 Clusters |
240 | affairs | affairs |
241 | azcabgptca | azcabgptca |
242 | azdrg112 | azdrg112 |
243 | azpro | azpro |
244 | azprocedure | azprocedure |
245 | badhealth | badhealth |
246 | fasttrakg | fasttrakg |
247 | fishing | fishing |
248 | lbw | lbw |
249 | lbwgrp | lbwgrp |
250 | loomis | loomis |
251 | mdvis | mdvis |
252 | medpar | medpar |
253 | nuts | nuts |
254 | rwm | rwm |
255 | rwm1984 | rwm1984 |
256 | rwm5yr | rwm5yr |
257 | ships | ships |
258 | smoking | smoking |
259 | titanic | titanic |
260 | titanicgrp | titanicgrp |
261 | Accident | Ship Accidents |
262 | Airline | Cost for U.S. Airlines |
263 | Airq | Air Quality for Californian Metropolitan Areas |
264 | Benefits | Unemployement of Blue Collar Workers |
265 | Bids | Bids Received By U.S. Firms |
266 | BudgetFood | Budget Share of Food for Spanish Households |
267 | BudgetItaly | Budget Shares for Italian Households |
268 | BudgetUK | Budget Shares of British Households |
269 | Bwages | Wages in Belgium |
270 | CPSch3 | Earnings from the Current Population Survey |
271 | CRANpackages | Growth of CRAN |
272 | Capm | Stock Market Data |
273 | Car | Stated Preferences for Car Choice |
274 | Caschool | The California Test Score Data Set |
275 | Catsup | Choice of Brand for Catsup |
276 | Cigar | Cigarette Consumption |
277 | Cigarette | The Cigarette Consumption Panel Data Set |
278 | Clothing | Sales Data of Men's Fashion Stores |
279 | Computers | Prices of Personal Computers |
280 | Cracker | Choice of Brand for Crakers |
281 | Crime | Crime in North Carolina |
282 | DM | DM Dollar Exchange Rate |
283 | Diamond | Pricing the C's of Diamond Stones |
284 | Doctor | Number of Doctor Visits |
285 | DoctorAUS | Doctor Visits in Australia |
286 | DoctorContacts | Contacts With Medical Doctor |
287 | Earnings | Earnings for Three Age Groups |
288 | Electricity | Cost Function for Electricity Producers |
289 | Fair | Extramarital Affairs Data |
290 | Fatality | Drunk Driving Laws and Traffic Deaths |
291 | Fishing | Choice of Fishing Mode |
292 | Forward | Exchange Rates of US Dollar Against Other Currencies |
293 | FriendFoe | Data from the Television Game Show Friend Or Foe ? |
294 | Garch | Daily Observations on Exchange Rates of the US Dollar Against Other Currencies |
295 | Gasoline | Gasoline Consumption |
296 | Griliches | Wage Datas |
297 | Grunfeld | Grunfeld Investment Data |
298 | HC | Heating and Cooling System Choice in Newly Built Houses in California |
299 | HI | Health Insurance and Hours Worked By Wives |
300 | Hdma | The Boston HDMA Data Set |
301 | Heating | Heating System Choice in California Houses |
302 | Hedonic | Hedonic Prices of Cencus Tracts in Boston |
303 | Housing | Sales Prices of Houses in the City of Windsor |
304 | Icecream | Ice Cream Consumption |
305 | Journals | Economic Journals Dat Set |
306 | Kakadu | Willingness to Pay for the Preservation of the Kakadu National Park |
307 | Ketchup | Choice of Brand for Ketchup |
308 | Klein | Klein's Model I |
309 | LaborSupply | Wages and Hours Worked |
310 | Labour | Belgian Firms |
311 | MCAS | The Massashusets Test Score Data Set |
312 | Males | Wages and Education of Young Males |
313 | Mathlevel | Level of Calculus Attained for Students Taking Advanced Micro-economics |
314 | MedExp | Structure of Demand for Medical Care |
315 | Metal | Production for SIC 33 |
316 | Mode | Mode Choice |
317 | ModeChoice | Data to Study Travel Mode Choice |
318 | Mofa | International Expansion of U.S. Mofa's (majority-owned Foreign Affiliates in Fire (fin... |
319 | Mroz | Labor Supply Data |
320 | MunExp | Municipal Expenditure Data |
321 | NaturalPark | Willingness to Pay for the Preservation of the Alentejo Natural Park |
322 | Nerlove | Cost Function for Electricity Producers, 1955 |
323 | OFP | Visits to Physician Office |
324 | Oil | Oil Investment |
325 | PSID | Panel Survey of Income Dynamics |
326 | Participation | Labor Force Participation |
327 | PatentsHGH | Dynamic Relation Between Patents and R&D |
328 | PatentsRD | Patents, R&D and Technological Spillovers for a Panel of Firms |
329 | Pound | Pound-dollar Exchange Rate |
330 | Produc | Us States Production |
331 | RetSchool | Return to Schooling |
332 | SP500 | Returns on Standard & Poor's 500 Index |
333 | Schooling | Wages and Schooling |
334 | Somerville | Visits to Lake Somerville |
335 | Star | Effects on Learning of Small Class Sizes |
336 | Strike | Strike Duration Data |
337 | StrikeDur | Strikes Duration |
338 | StrikeNb | Number of Strikes in Us Manufacturing |
339 | SumHes | The Penn Table |
340 | Tobacco | Households Tobacco Budget Share |
341 | Train | Stated Preferences for Train Traveling |
342 | TranspEq | Statewide Data on Transportation Equipment Manufacturing |
343 | Treatment | Evaluating Treatment Effect of Training on Earnings |
344 | Tuna | Choice of Brand for Tuna |
345 | USFinanceIndustry | US Finance Industry Profits |
346 | USclassifiedDocuments | Official Secrecy of the United States Government |
347 | USstateAbbreviations | Standard abbreviations for states of the United States |
348 | UStaxWords | Number of Words in US Tax Law |
349 | UnempDur | Unemployment Duration |
350 | Unemployment | Unemployment Duration |
351 | University | Provision of University Teaching and Research |
352 | VietNamH | Medical Expenses in Viet-nam (household Level) |
353 | VietNamI | Medical Expenses in Viet-nam (individual Level) |
354 | Wages | Panel Datas of Individual Wages |
355 | Wages1 | Wages, Experience and Schooling |
356 | Workinghours | Wife Working Hours |
357 | Yen | Yen-dollar Exchange Rate |
358 | Yogurt | Choice of Brand for Yogurts |
359 | bankingCrises | Countries in Banking Crises |
360 | incomeInequality | Income Inequality in the US |
361 | nonEnglishNames | Names with Character Set Problems |
362 | politicalKnowledge | Political knowledge in the US and Europe |
363 | PD | A study of Parkinson's disease and APOE, LRRK2, SNCA makers |
364 | aldh2 | ALDH2 markers and Alcoholism |
365 | apoeapoc | APOE/APOC1 markers and Alzheimer's |
366 | cf | Cystic fibrosis data |
367 | crohn | Crohn's disease data |
368 | fa | Friedreich Ataxia data |
369 | fsnps | A case-control data involving four SNPs with missing genotype |
370 | hla | The HLA data |
371 | hr1420 | An example data for Manhattan plot with annotation |
372 | l51 | An example pedigree data |
373 | lukas | An example pedigree |
374 | mao | A study of Parkinson's disease and MAO gene |
375 | mfblong | Example data for ACEnucfam |
376 | mhtdata | An example data for Manhattan plot |
377 | nep499 | A study of Alzheimer's disease with eight SNPs and APOE |
378 | diamonds | Prices of 50,000 round cut diamonds |
379 | economics | US economic time series. |
380 | midwest | Midwest demographics. |
381 | movies | Movie information and user ratings from IMDB.com. |
382 | mpg | Fuel economy data from 1999 and 2008 for 38 popular models of car |
383 | msleep | An updated and expanded version of the mammals sleep dataset. |
384 | presidential | Terms of 10 presidents from Eisenhower to Bush W. |
385 | seals | Vector field of seal movements. |
386 | Arbuthnot | Arbuthnot's data on male and female birth ratios in London from 1629-1710. |
387 | Bowley | Bowley's data on values of British and Irish trade, 1855-1899 |
388 | Cavendish | Cavendish's Determinations of the Density of the Earth |
389 | ChestSizes | Chest measurements of 5738 Scottish Militiamen |
390 | CushnyPeebles | Cushny-Peebles Data: Soporific Effects of Scopolamine Derivatives |
391 | CushnyPeeblesN | Cushny-Peebles Data: Soporific Effects of Scopolamine Derivatives |
392 | Dactyl | Edgeworth's counts of dactyls in Virgil's Aeneid |
393 | DrinksWages | Elderton and Pearson's (1910) data on drinking and wages |
394 | Fingerprints | Waite's data on Patterns in Fingerprints |
395 | Galton | Galton's data on the heights of parents and their children |
396 | GaltonFamilies | Galton's data on the heights of parents and their children, by child |
397 | Guerry | Data from A.-M. Guerry, "Essay on the Moral Statistics of France" |
398 | Jevons | W. Stanley Jevons' data on numerical discrimination |
399 | Langren.all | van Langren's Data on Longitude Distance between Toledo and Rome |
400 | Langren1644 | van Langren's Data on Longitude Distance between Toledo and Rome |
401 | Macdonell | Macdonell's Data on Height and Finger Length of Criminals, used by Gosset (1908) |
402 | MacdonellDF | Macdonell's Data on Height and Finger Length of Criminals, used by Gosset (1908) |
403 | Michelson | Michelson's Determinations of the Velocity of Light |
404 | MichelsonSets | Michelson's Determinations of the Velocity of Light |
405 | Minard.cities | Data from Minard's famous graphic map of Napoleon's march on Moscow |
406 | Minard.temp | Data from Minard's famous graphic map of Napoleon's march on Moscow |
407 | Minard.troops | Data from Minard's famous graphic map of Napoleon's march on Moscow |
408 | Nightingale | Florence Nightingale's data on deaths from various causes in the Crimean War |
409 | OldMaps | Latitudes and Longitudes of 39 Points in 11 Old Maps |
410 | PearsonLee | Pearson and Lee's data on the heights of parents and children classified by gender |
411 | PolioTrials | Polio Field Trials Data |
412 | Prostitutes | Parent-Duchatelet's time-series data on the number of prostitutes in Paris |
413 | Pyx | Trial of the Pyx |
414 | Quarrels | Statistics of Deadly Quarrels |
415 | Snow.deaths | John Snow's map and data on the 1854 London Cholera outbreak |
416 | Snow.polygons | John Snow's map and data on the 1854 London Cholera outbreak |
417 | Snow.pumps | John Snow's map and data on the 1854 London Cholera outbreak |
418 | Snow.streets | John Snow's map and data on the 1854 London Cholera outbreak |
419 | Wheat | Playfair's Data on Wages and the Price of Wheat |
420 | Wheat.monarchs | Playfair's Data on Wages and the Price of Wheat |
421 | Yeast | Student's (1906) Yeast Cell Counts |
422 | YeastD.mat | Student's (1906) Yeast Cell Counts |
423 | ZeaMays | Darwin's Heights of Cross- and Self-fertilized Zea May Pairs |
424 | barley | Yield data from a Minnesota barley trial |
425 | environmental | Atmospheric environmental conditions in New York City |
426 | ethanol | Engine exhaust fumes from burning ethanol |
427 | melanoma | Melanoma skin cancer incidence |
428 | singer | Heights of New York Choral Society singers |
429 | Aids2 | Australian AIDS Survival Data |
430 | Animals | Brain and Body Weights for 28 Species |
431 | Boston | Housing Values in Suburbs of Boston |
432 | Cars93 | Data from 93 Cars on Sale in the USA in 1993 |
433 | Cushings | Diagnostic Tests on Patients with Cushing's Syndrome |
434 | DDT | DDT in Kale |
435 | GAGurine | Level of GAG in Urine of Children |
436 | Insurance | Numbers of Car Insurance claims |
437 | Melanoma | Survival from Malignant Melanoma |
438 | OME | Tests of Auditory Perception in Children with OME |
439 | Pima.te | Diabetes in Pima Indian Women |
440 | Pima.tr | Diabetes in Pima Indian Women |
441 | Pima.tr2 | Diabetes in Pima Indian Women |
442 | Rabbit | Blood Pressure in Rabbits |
443 | Rubber | Accelerated Testing of Tyre Rubber |
444 | SP500 | Returns of the Standard and Poors 500 |
445 | Sitka | Growth Curves for Sitka Spruce Trees in 1988 |
446 | Sitka89 | Growth Curves for Sitka Spruce Trees in 1989 |
447 | Skye | AFM Compositions of Aphyric Skye Lavas |
448 | Traffic | Effect of Swedish Speed Limits on Accidents |
449 | UScereal | Nutritional and Marketing Information on US Cereals |
450 | UScrime | The Effect of Punishment Regimes on Crime Rates |
451 | VA | Veteran's Administration Lung Cancer Trial |
452 | abbey | Determinations of Nickel Content |
453 | accdeaths | Accidental Deaths in the US 1973-1978 |
454 | anorexia | Anorexia Data on Weight Change |
455 | bacteria | Presence of Bacteria after Drug Treatments |
456 | beav1 | Body Temperature Series of Beaver 1 |
457 | beav2 | Body Temperature Series of Beaver 2 |
458 | biopsy | Biopsy Data on Breast Cancer Patients |
459 | birthwt | Risk Factors Associated with Low Infant Birth Weight |
460 | cabbages | Data from a cabbage field trial |
461 | caith | Colours of Eyes and Hair of People in Caithness |
462 | cats | Anatomical Data from Domestic Cats |
463 | cement | Heat Evolved by Setting Cements |
464 | chem | Copper in Wholemeal Flour |
465 | coop | Co-operative Trial in Analytical Chemistry |
466 | cpus | Performance of Computer CPUs |
467 | crabs | Morphological Measurements on Leptograpsus Crabs |
468 | deaths | Monthly Deaths from Lung Diseases in the UK |
469 | drivers | Deaths of Car Drivers in Great Britain 1969-84 |
470 | eagles | Foraging Ecology of Bald Eagles |
471 | epil | Seizure Counts for Epileptics |
472 | farms | Ecological Factors in Farm Management |
473 | fgl | Measurements of Forensic Glass Fragments |
474 | forbes | Forbes' Data on Boiling Points in the Alps |
475 | galaxies | Velocities for 82 Galaxies |
476 | gehan | Remission Times of Leukaemia Patients |
477 | genotype | Rat Genotype Data |
478 | geyser | Old Faithful Geyser Data |
479 | gilgais | Line Transect of Soil in Gilgai Territory |
480 | hills | Record Times in Scottish Hill Races |
481 | housing | Frequency Table from a Copenhagen Housing Conditions Survey |
482 | immer | Yields from a Barley Field Trial |
483 | leuk | Survival Times and White Blood Counts for Leukaemia Patients |
484 | mammals | Brain and Body Weights for 62 Species of Land Mammals |
485 | mcycle | Data from a Simulated Motorcycle Accident |
486 | menarche | Age of Menarche in Warsaw |
487 | michelson | Michelson's Speed of Light Data |
488 | minn38 | Minnesota High School Graduates of 1938 |
489 | motors | Accelerated Life Testing of Motorettes |
490 | muscle | Effect of Calcium Chloride on Muscle Contraction in Rat Hearts |
491 | newcomb | Newcomb's Measurements of the Passage Time of Light |
492 | nlschools | Eighth-Grade Pupils in the Netherlands |
493 | npk | Classical N, P, K Factorial Experiment |
494 | npr1 | US Naval Petroleum Reserve No. 1 data |
495 | oats | Data from an Oats Field Trial |
496 | painters | The Painter's Data of de Piles |
497 | petrol | N. L. Prater's Petrol Refinery Data |
498 | quine | Absenteeism from School in Rural New South Wales |
499 | road | Road Accident Deaths in US States |
500 | rotifer | Numbers of Rotifers by Fluid Density |
501 | ships | Ships Damage Data |
502 | shrimp | Percentage of Shrimp in Shrimp Cocktail |
503 | shuttle | Space Shuttle Autolander Problem |
504 | snails | Snail Mortality Data |
505 | steam | The Saturated Steam Pressure Data |
506 | stormer | The Stormer Viscometer Data |
507 | survey | Student Survey Data |
508 | synth.te | Synthetic Classification Problem |
509 | synth.tr | Synthetic Classification Problem |
510 | topo | Spatial Topographic Data |
511 | waders | Counts of Waders at 15 Sites in South Africa |
512 | whiteside | House Insulation: Whiteside's Data |
513 | wtloss | Weight Loss Data from an Obese Patient |
514 | Cigar | Cigarette Consumption |
515 | Crime | Crime in North Carolina |
516 | EmplUK | Employment and Wages in the United Kingdom |
517 | Gasoline | Gasoline Consumption |
518 | Grunfeld | Grunfeld's Investment Data |
519 | Hedonic | Hedonic Prices of Census Tracts in the Boston Area |
520 | LaborSupply | Wages and Hours Worked |
521 | Males | Wages and Education of Young Males |
522 | Produc | US States Production |
523 | Snmesp | Employment and Wages in Spain |
524 | SumHes | The Penn World Table, v. 5 |
525 | Wages | Panel Data of Individual Wages |
526 | baseball | Yearly batting records for all major league baseball players |
527 | AustralianElectionPolling | Political opinion polls in Australia, 2004-07 |
528 | AustralianElections | elections to Australian House of Representatives, 1949-2007 |
529 | EfronMorris | Batting Averages for 18 major league baseball players, 1970 |
530 | RockTheVote | Voter turnout experiment, using Rock The Vote ads |
531 | UKHouseOfCommons | 1992 United Kingdom electoral returns |
532 | absentee | Absentee and Machine Ballots in Pennsylvania State Senate Races |
533 | admit | Applications to a Political Science PhD Program |
534 | bioChemists | article production by graduate students in biochemistry Ph.D. programs |
535 | ca2006 | California Congressional Districts in 2006 |
536 | iraqVote | U.S. Senate vote on the use of force against Iraq, 2002. |
537 | politicalInformation | Interviewer ratings of respondent levels of political information |
538 | presidentialElections | elections for U.S. President, 1932-2012, by state |
539 | prussian | Prussian army horse kick data |
540 | unionDensity | cross national rates of trade union density |
541 | vote92 | Reports of voting in the 1992 U.S. Presidential election. |
542 | french_fries | Sensory data from a french fries experiment. |
543 | smiths | Demo data describing the Smiths. |
544 | tips | Tipping data |
545 | car.test.frame | Automobile Data from 'Consumer Reports' 1990 |
546 | car90 | Automobile Data from 'Consumer Reports' 1990 |
547 | cu.summary | Automobile Data from 'Consumer Reports' 1990 |
548 | kyphosis | Data on Children who have had Corrective Spinal Surgery |
549 | solder | Soldering of Components on Printed-Circuit Boards |
550 | stagec | Stage C Prostate Cancer |
551 | PublicSchools | US Expenditures for Public Schools |
552 | Bollen | Bollen's Data on Industrialization and Political Democracy |
553 | CNES | Variables from the 1997 Canadian National Election Study |
554 | Klein | Klein's Data on the U. S. Economy |
555 | Kmenta | Partly Artificial Data on the U. S. Economy |
556 | Tests | Six Mental Tests |
557 | bladder | Bladder Cancer Recurrences |
558 | cancer | NCCTG Lung Cancer Data |
559 | cgd | Chronic Granulotomous Disease data |
560 | colon | Chemotherapy for Stage B/C colon cancer |
561 | flchain | Assay of serum free light chain for 7874 subjects. |
562 | heart | Stanford Heart Transplant data |
563 | kidney | Kidney catheter data |
564 | leukemia | Acute Myelogenous Leukemia survival data |
565 | logan | Data from the 1972-78 GSS data used by Logan |
566 | lung | NCCTG Lung Cancer Data |
567 | mgus | Monoclonal gammapothy data |
568 | nwtco | Data from the National Wilm's Tumor Study |
569 | ovarian | Ovarian Cancer Survival Data |
570 | pbc | Mayo Clinic Primary Biliary Cirrhosis Data |
571 | rats | Rat treatment data from Mantel et al |
572 | stanford2 | More Stanford Heart Transplant data |
573 | tobin | Tobin's Tobit data |
574 | veteran | Veterans' Administration Lung Cancer study |
575 | Arthritis | Arthritis Treatment Data |
576 | Baseball | Baseball Data |
577 | BrokenMarriage | Broken Marriage Data |
578 | Bundesliga | Ergebnisse der Fussball-Bundesliga |
579 | Bundestag2005 | Votes in German Bundestag Election 2005 |
580 | Butterfly | Butterfly Species in Malaya |
581 | CoalMiners | Breathlessness and Wheeze in Coal Miners |
582 | DanishWelfare | Danish Welfare Study Data |
583 | Employment | Employment Status |
584 | Federalist | 'May' in Federalist Papers |
585 | Hitters | Hitters Data |
586 | HorseKicks | Death by Horse Kicks |
587 | Hospital | Hospital data |
588 | JobSatisfaction | Job Satisfaction Data |
589 | JointSports | Opinions About Joint Sports |
590 | Lifeboats | Lifeboats on the Titanic |
591 | NonResponse | Non-Response Survey Data |
592 | OvaryCancer | Ovary Cancer Data |
593 | PreSex | Pre-marital Sex and Divorce |
594 | Punishment | Corporal Punishment Data |
595 | RepVict | Repeat Victimization Data |
596 | Saxony | Families in Saxony |
597 | SexualFun | Sex is Fun |
598 | SpaceShuttle | Space Shuttle O-ring Failures |
599 | Suicide | Suicide Rates in Germany |
600 | Trucks | Truck Accidents Data |
601 | UKSoccer | UK Soccer Scores |
602 | VisualAcuity | Visual Acuity in Left and Right Eyes |
603 | VonBort | Von Bortkiewicz Horse Kicks Data |
604 | WeldonDice | Weldon's Dice Data |
605 | WomenQueue | Women in Queues |
606 | MatchIt.url | Table of links for Zelig |
607 | PErisk | Political Economic Risk Data from 62 Countries in 1987 |
608 | SupremeCourt | U.S. Supreme Court Vote Matrix |
609 | Weimar | 1932 Weimar election data |
610 | Zelig.url | Table of links for Zelig |
611 | approval | U.S. Presidential Approval Data |
612 | bivariate | Sample data for bivariate probit regression |
613 | coalition | Coalition Dissolution in Parliamentary Democracies |
614 | coalition2 | Coalition Dissolution in Parliamentary Democracies, Modified Version |
615 | eidat | Simulation Data for Ecological Inference |
616 | free1 | Freedom of Speech Data |
617 | free2 | Freedom of Speech Data |
618 | friendship | Simulated Example of Schoolchildren Friendship Network |
619 | grunfeld | Simulation Data for model Seemingly Unrelated Regression (sur) that corresponds to met... |
620 | hoff | Social Security Expenditure Data |
621 | homerun | Sample Data on Home Runs Hit By Mark McGwire and Sammy Sosa in 1998. |
622 | immi1 | Individual Preferences Over Immigration Policy |
623 | immi2 | Individual Preferences Over Immigration Policy |
624 | immi3 | Individual Preferences Over Immigration Policy |
625 | immi4 | Individual Preferences Over Immigration Policy |
626 | immi5 | Individual Preferences Over Immigration Policy |
627 | immigration | Individual Preferences Over Immigration Policy |
628 | klein | Simulation Data for model Two-Stage Least Square (twosls) that corresponds to method 2... |
629 | kmenta | Simulation Data for model Three-Stage Least Square (threesls) that corresponds to meth... |
630 | macro | Macroeconomic Data |
631 | mexico | Voting Data from the 1988 Mexican Presidental Election |
632 | mid | Militarized Interstate Disputes |
633 | newpainters | The Discretized Painter's Data of de Piles |
634 | sanction | Multilateral Economic Sanctions |
635 | sna.ex | Simulated Example of Social Network Data |
636 | swiss | Swiss Fertility and Socioeconomic Indicators (1888) Data |
637 | tobin | Tobin's Tobit Data |
638 | turnout | Turnout Data Set from the National Election Survey |
639 | voteincome | Sample Turnout and Demographic Data from the 2000 Current Population Survey |
640 | BCG | BCG Vaccine Data |
641 | BtheB | Beat the Blues Data |
642 | CYGOB1 | CYG OB1 Star Cluster Data |
643 | Forbes2000 | The Forbes 2000 Ranking of the World's Biggest Companies (Year 2004) |
644 | GHQ | General Health Questionnaire |
645 | Lanza | Prevention of Gastointestinal Damages |
646 | agefat | Total Body Composision Data |
647 | aspirin | Aspirin Data |
648 | birthdeathrates | Birth and Death Rates Data |
649 | bladdercancer | Bladder Cancer Data |
650 | clouds | Cloud Seeding Data |
651 | epilepsy | Epilepsy Data |
652 | foster | Foster Feeding Experiment |
653 | heptathlon | Olympic Heptathlon Seoul 1988 |
654 | mastectomy | Survival Times after Mastectomy of Breast Cancer Patients |
655 | meteo | Meteorological Measurements for 11 Years |
656 | orallesions | Oral Lesions in Rural India |
657 | phosphate | Phosphate Level Data |
658 | pistonrings | Piston Rings Failures |
659 | planets | Exoplanets Data |
660 | plasma | Blood Screening Data |
661 | polyps | Familial Andenomatous Polyposis |
662 | polyps3 | Familial Andenomatous Polyposis |
663 | pottery | Romano-British Pottery Data |
664 | rearrests | Rearrests of Juvenile Felons |
665 | respiratory | Respiratory Illness Data |
666 | roomwidth | Students Estimates of Lecture Room Width |
667 | schizophrenia | Age of Onset of Schizophrenia Data |
668 | schizophrenia2 | Schizophrenia Data |
669 | schooldays | Days not Spent at School |
670 | skulls | Egyptian Skulls |
671 | smoking | Nicotine Gum and Smoking Cessation |
672 | students | Student Risk Taking |
673 | suicides | Crowd Baiting Behaviour and Suicides |
674 | toothpaste | Toothpaste Data |
675 | voting | House of Representatives Voting Data |
676 | water | Mortality and Water Hardness |
677 | watervoles | Water Voles Data |
678 | waves | Electricity from Wave Power at Sea |
679 | weightgain | Gain in Weight of Rats |
680 | womensrole | Womens Role in Society |
681 | Bechtoldt | Seven data sets showing a bifactor solution. |
682 | Bechtoldt.1 | Seven data sets showing a bifactor solution. |
683 | Bechtoldt.2 | Seven data sets showing a bifactor solution. |
684 | Dwyer | 8 cognitive variables used by Dwyer for an example. |
685 | Gleser | Example data from Gleser, Cronbach and Rajaratnam (1965) to show basic principles of g... |
686 | Gorsuch | Example data set from Gorsuch (1997) for an example factor extension. |
687 | Harman.5 | 5 socio-economic variables from Harman (1967) |
688 | Harman.8 | Correlations of eight physical variables (from Harman, 1966) |
689 | Harman.political | Eight political variables used by Harman (1967) as example 8.17 |
690 | Holzinger | Seven data sets showing a bifactor solution. |
691 | Holzinger.9 | Seven data sets showing a bifactor solution. |
692 | Reise | Seven data sets showing a bifactor solution. |
693 | Schmid | 12 variables created by Schmid and Leiman to show the Schmid-Leiman Transformation |
694 | Thurstone | Seven data sets showing a bifactor solution. |
695 | Thurstone.33 | Seven data sets showing a bifactor solution. |
696 | Tucker | 9 Cognitive variables discussed by Tucker and Lewis (1973) |
697 | ability | 16 ability items scored as correct or incorrect. |
698 | affect | Two data sets of affect and arousal scores as a function of personality and movie cond... |
699 | bfi | 25 Personality items representing 5 factors |
700 | bfi.dictionary | 25 Personality items representing 5 factors |
701 | blot | Bond's Logical Operations Test - BLOT |
702 | burt | 11 emotional variables from Burt (1915) |
703 | cities | Distances between 11 US cities |
704 | cubits | Galton's example of the relationship between height and 'cubit' or forearm length |
705 | cushny | A data set from Cushny and Peebles (1905) on the effect of three drugs on hours of sle... |
706 | epi | Eysenck Personality Inventory (EPI) data for 3570 participants |
707 | epi.bfi | 13 personality scales from the Eysenck Personality Inventory and Big 5 inventory |
708 | epi.dictionary | Eysenck Personality Inventory (EPI) data for 3570 participants |
709 | galton | Galton's Mid parent child height data |
710 | heights | A data.frame of the Galton (1888) height and cubit data set. |
711 | income | US family income from US census 2008 |
712 | iqitems | 16 multiple choice IQ items |
713 | msq | 75 mood items from the Motivational State Questionnaire for 3896 participants |
714 | neo | NEO correlation matrix from the NEO_PI_R manual |
715 | peas | Galton's Peas |
716 | sat.act | 3 Measures of ability: SATV, SATQ, ACT |
717 | withinBetween | An example of the distinction between within group and between group correlations |
718 | Bosco | Boscovich Data |
719 | CobarOre | Cobar Ore data |
720 | Mammals | Garland(1983) Data on Running Speed of Mammals |
721 | barro | Barro Data |
722 | engel | Engel Data |
723 | uis | UIS Drug Treatment study data |
724 | dietox | Growth curves of pigs in a 3x3 factorial experiment |
725 | koch | Ordinal Data from Koch |
726 | ohio | Ohio Children Wheeze Status |
727 | respdis | Clustered Ordinal Respiratory Disorder |
728 | respiratory | Data from a clinical trial comparing two treatments for a respiratory illness |
729 | seizure | Epiliptic Seizures |
730 | sitka89 | Growth of Sitka Spruce Trees |
731 | spruce | Log-size of 79 Sitka spruce trees |
732 | liver | Liver related laboratory data |
733 | portpirie | Rain, wavesurge and portpirie datasets. |
734 | rain | Rain, wavesurge and portpirie datasets. |
735 | summer | Air pollution data, separately for summer and winter months |
736 | wavesurge | Rain, wavesurge and portpirie datasets. |
737 | winter | Air pollution data, separately for summer and winter months |
738 | arthritis | Rheumatoid Arthritis Clinical Trial |
739 | housing | Homeless Data |
740 | bmw | Daily Log Returns on BMW Share Price |
741 | danish | Danish Fire Insurance Claims |
742 | nidd.annual | The River Nidd Data |
743 | nidd.thresh | The River Nidd Data |
744 | siemens | Daily Log Returns on Siemens Share Price |
745 | sp.raw | SP Data to June 1993 |
746 | spto87 | SP Return Data to October 1987 |
747 | Dyestuff | Yield of dyestuff by batch |
748 | Dyestuff2 | Yield of dyestuff by batch |
749 | InstEval | University Lecture/Instructor Evaluations by Students at ETH |
750 | Pastes | Paste strength by batch and cask |
751 | Penicillin | Variation in penicillin testing |
752 | VerbAgg | Verbal Aggression item responses |
753 | cake | Breakage Angle of Chocolate Cakes |
754 | cbpp | Contagious bovine pleuropneumonia |
755 | grouseticks | Data on red grouse ticks from Elston et al. 2001 |
756 | sleepstudy | Reaction times in a sleep deprivation study |
import json
def load_config_from_json(json_file_path):
with open(json_file_path, "r") as json_file:
config = json.load(json_file)
return config
config = load_config_from_json("./config.json")
OPENAI_API_BASE = config["OPENAI_API_BASE"]
OPENAI_API_KEY = config["OPENAI_API_KEY"]
OPENAI_API_VERSION = config["OPENAI_API_VERSION"]
OPENAI_API_ENGINE = config["OPENAI_API_ENGINE"]
!pip install openai
!pip install langchain
from langchain.chains import LLMChain
from langchain.chat_models import AzureChatOpenAI
from langchain.prompts import PromptTemplate
for dataset_id, title in zip(datasets.dataset_id, datasets.title):
print("#", dataset_id)
print(title)
df = data(dataset_id)
print("Data shape: ", df.shape, "\n\n")
llm = AzureChatOpenAI(
azure_endpoint=OPENAI_API_BASE,
api_key=OPENAI_API_KEY,
api_version=OPENAI_API_VERSION,
azure_deployment=OPENAI_API_ENGINE,
temperature=0.8,
)
prompt_template = """
データサイエンティストを養成するコンサルタントのように振る舞ってください。
以下のようなデータがあるときに、
・データの内容
・どのような解析手法が使えそうか
・そのために使えるPythonライブラリは何か
を提案してください。
###
dataset_id:
{dataset_id}
title:
{title}
data:
{df}
"""
chain = LLMChain(llm=llm, prompt=PromptTemplate.from_template(prompt_template))
print(chain({'dataset_id':dataset_id, 'title':title, 'df':df.head(10)})['text'])
print("\n\n先頭10データ:")
display(df.head(10))
AirPassengers
Monthly Airline Passenger Numbers 1949-1960
Data shape: (144, 2)
データの内容:
このデータセットは、1949年から1960年までの航空会社の月間乗客数を示しています。時間(年と月)と乗客数(AirPassengers)の2つの列で構成されています。
解析手法の提案:
このデータセットは、時系列データであり、月ごとの乗客数が記録されています。そのため、時系列解析を行うことが適しています。具体的には、乗客数のトレンドや季節性を分析し、将来の予測を行うことができます。
Pythonライブラリの提案:
このデータセットを解析するためには、以下のPythonライブラリを使用することができます。
- Pandas: データの読み込み、前処理、データフレームの操作などに使用します。
- Matplotlib: データの可視化やグラフの作成に使用します。
- Statsmodels: 時系列解析のための統計モデルの構築や予測の実行に使用します。
- Scikit-learn: 時系列解析における特徴量エンジニアリングやモデルの評価に使用します。
以上のライブラリを使用することで、データの可視化やトレンドの分析、季節性の把握、将来の予測などを行うことができます。
先頭10データ:
time | AirPassengers | |
---|---|---|
1 | 1949.000000 | 112 |
2 | 1949.083333 | 118 |
3 | 1949.166667 | 132 |
4 | 1949.250000 | 129 |
5 | 1949.333333 | 121 |
6 | 1949.416667 | 135 |
7 | 1949.500000 | 148 |
8 | 1949.583333 | 148 |
9 | 1949.666667 | 136 |
10 | 1949.750000 | 119 |
BJsales
Sales Data with Leading Indicator
Data shape: (150, 2)
データの内容:
このデータセットは、時間とBJsales(販売数)の2つの列から構成されています。時間に対応する販売数が記録されており、時系列データとなっています。
どのような解析手法が使えそうか:
このデータセットは時系列データであるため、時系列解析が有効です。時系列解析では、過去のパターンやトレンドを分析し、未来の予測や傾向の予測を行うことができます。具体的な解析手法としては、移動平均や指数平滑法、ARIMAモデルなどが考えられます。
そのために使えるPythonライブラリは何か:
以下のPythonライブラリが時系列解析に使用可能です:
- pandas: データの読み込みやデータフレーム操作に使用します。
- numpy: 数値計算やデータ操作に使用します。
- matplotlibやseaborn: データの可視化に使用します。
- statsmodels: 時系列解析のためのさまざまなモデルや統計手法が提供されています。
具体的な解析手法に応じて、必要なライブラリをインポートして解析を行うことができます。
先頭10データ:
time | BJsales | |
---|---|---|
1 | 1 | 200.1 |
2 | 2 | 199.5 |
3 | 3 | 199.4 |
4 | 4 | 198.9 |
5 | 5 | 199.0 |
6 | 6 | 200.2 |
7 | 7 | 198.6 |
8 | 8 | 200.0 |
9 | 9 | 200.3 |
10 | 10 | 201.2 |
BOD
Biochemical Oxygen Demand
Data shape: (6, 2)
データの内容:
このデータは、時間と需要の関係を示しています。時間ごとの生化学的酸素要求量(Biochemical Oxygen Demand、BOD)の値が記録されています。
どのような解析手法が使えそうか:
このデータは、時間の経過に伴う需要の変化を分析するために使えます。需要のトレンドや季節性の影響を調べることができます。また、予測モデルの構築や需要の予測にも応用できます。
そのために使えるPythonライブラリは何か:
このデータを可視化し、需要のトレンドや季節性を分析するために、以下のPythonライブラリが役立ちます。
-
pandas: データの整理・加工・分析に便利なライブラリです。データの読み込みや操作、統計量の計算などに使用します。
-
matplotlib: データの可視化に使用するライブラリです。需要のトレンドや季節性をグラフで表示することができます。
-
statsmodels: 時系列データの分析に使用するライブラリです。ARIMAモデルや季節性のある時系列モデルなどを構築し、需要の予測を行うことができます。
-
scikit-learn: 機械学習モデルの構築に使用するライブラリです。需要の予測モデルの構築やモデルの評価に利用できます。
これらのライブラリを使用して、需要のトレンドや季節性を調査し、需要の予測モデルを構築することができます。
先頭10データ:
Time | demand | |
---|---|---|
1 | 1 | 8.3 |
2 | 2 | 10.3 |
3 | 3 | 19.0 |
4 | 4 | 16.0 |
5 | 5 | 15.6 |
6 | 7 | 19.8 |
Formaldehyde
Determination of Formaldehyde
Data shape: (6, 2)
データの内容:
このデータセットは、ホルムアルデヒドの濃度(carb)とその光学密度(optden)の関係を示しています。
解析手法の提案:
このデータセットは、ホルムアルデヒドの濃度と光学密度の関係を調べるために、回帰分析が適しています。回帰分析を使用することで、ホルムアルデヒドの濃度と光学密度の関係式を推定することができます。
Pythonライブラリの提案:
この解析には、NumPyとSciPyのライブラリが使用できます。NumPyは数値計算を行うための基本的な機能を提供し、SciPyは科学技術計算のための高度な機能を提供します。また、回帰分析にはscikit-learnのLinearRegressionモジュールも使用できます。これらのライブラリを使用することで、データセットの回帰分析を簡単に実装することができます。
具体的なコード例:
以下は、Pythonで回帰分析を行うためのサンプルコードです。
import numpy as np
import scipy.stats as stats
from sklearn.linear_model import LinearRegression
# データセットの読み込み
carb = np.array([0.1, 0.3, 0.5, 0.6, 0.7, 0.9])
optden = np.array([0.086, 0.269, 0.446, 0.538, 0.626, 0.782])
# 回帰分析の実行
slope, intercept, r_value, p_value, std_err = stats.linregress(carb, optden)
# 結果の表示
print('回帰係数:', slope)
print('切片:', intercept)
print('相関係数:', r_value)
print('p値:', p_value)
print('標準誤差:', std_err)
このコードでは、NumPyを使ってデータセットを配列として読み込み、SciPyのlinregress関数を使って回帰分析を実行しています。結果として、回帰係数、切片、相関係数、p値、標準誤差が表示されます。これにより、ホルムアルデヒドの濃度と光学密度の関係式を推定することができます。
先頭10データ:
carb | optden | |
---|---|---|
1 | 0.1 | 0.086 |
2 | 0.3 | 0.269 |
3 | 0.5 | 0.446 |
4 | 0.6 | 0.538 |
5 | 0.7 | 0.626 |
6 | 0.9 | 0.782 |
HairEyeColor
Hair and Eye Color of Statistics Students
Data shape: (32, 4)
データの内容:
このデータセットは、統計学の学生の髪の色、目の色、性別、出現頻度の情報を含んでいます。
解析手法の提案:
このデータセットは、髪の色と目の色の組み合わせに対する性別と出現頻度の関係を調べることができます。具体的には、髪の色と目の色の組み合わせが性別にどのように関連しているのか、また出現頻度にどのような影響を与えているのかを分析することができます。
Pythonライブラリの提案:
このデータセットの分析には、Pandas、Matplotlib、SeabornなどのPythonライブラリが役立ちます。
- Pandasを使用して、データセットを読み込み、必要なデータの抽出や整形を行います。
- MatplotlibやSeabornを使用して、グラフや可視化を作成し、髪の色と目の色の組み合わせに対する性別や出現頻度の分布を視覚化します。
- PandasやNumPyを使用して、統計的な分析や集計を行い、各組み合わせの性別や出現頻度の統計値を計算します。
以上の手法とPythonライブラリを使用することで、このデータセットの解析を行うことができます。
先頭10データ:
Hair | Eye | Sex | Freq | |
---|---|---|---|---|
1 | Black | Brown | Male | 32 |
2 | Brown | Brown | Male | 53 |
3 | Red | Brown | Male | 10 |
4 | Blond | Brown | Male | 3 |
5 | Black | Blue | Male | 11 |
6 | Brown | Blue | Male | 50 |
7 | Red | Blue | Male | 10 |
8 | Blond | Blue | Male | 30 |
9 | Black | Hazel | Male | 10 |
10 | Brown | Hazel | Male | 25 |
InsectSprays
Effectiveness of Insect Sprays
Data shape: (72, 2)
データの内容:
このデータセットは、昆虫スプレーの効果を調査するために収集されたデータです。各行には、ある種のスプレー(A)を使用した場合の昆虫の数(count)が示されています。
どのような解析手法が使えそうか:
このデータセットを分析するためには、昆虫スプレーの効果を評価する必要があります。具体的には、スプレーの種類(A)ごとに昆虫の数(count)の平均値や分散を計算し、効果の差異を比較することが考えられます。また、異なる種類のスプレーを使用した場合の昆虫の数の分布を可視化することも有用です。
そのために使えるPythonライブラリは何か:
この分析を行うためには、Pythonのデータ分析に特化したライブラリであるPandasとMatplotlibが役立ちます。Pandasを使用してデータセットを読み込み、必要な統計量や可視化を行うことができます。Matplotlibを使用して、スプレーの種類ごとの昆虫の数の分布や効果の差異を可視化することができます。
具体的な解析手法や可視化方法については、データの分布や目的によって異なるため、詳細な要件や目的に応じた提案を行うことができます。
先頭10データ:
count | spray | |
---|---|---|
1 | 10 | A |
2 | 7 | A |
3 | 20 | A |
4 | 14 | A |
5 | 14 | A |
6 | 12 | A |
7 | 10 | A |
8 | 23 | A |
9 | 17 | A |
10 | 20 | A |
JohnsonJohnson
Quarterly Earnings per Johnson & Johnson Share
Data shape: (84, 2)
データの内容:
このデータセットは、Johnson & Johnsonの株式に関する四半期ごとの利益を示しています。データは年と四半期の時間スタンプと、対応する四半期の利益を含んでいます。
解析手法:
このデータセットは、時間に関連するデータであるため、時系列分析が有用です。時系列分析では、データのトレンドや季節性を調べることができます。特に、このデータセットでは四半期ごとの利益が記録されているため、季節性の分析が興味深いかもしれません。
Pythonライブラリの提案:
時系列分析には、pandasやStatsModels、ProphetなどのPythonライブラリが便利です。
- pandas: データの読み込み、前処理、可視化などのための強力なデータ処理ツールです。
- StatsModels: 時系列モデルの構築や統計的な分析に使用することができます。
- Prophet: Facebookが開発した時系列予測モデルのためのライブラリで、トレンドや季節性の予測が容易になります。
これらのライブラリを使用して、データの読み込みや前処理、可視化を行い、時系列分析を実施することができます。また、必要に応じて予測モデルを構築して将来の利益を予測することもできます。
先頭10データ:
time | JohnsonJohnson | |
---|---|---|
1 | 1960.00 | 0.71 |
2 | 1960.25 | 0.63 |
3 | 1960.50 | 0.85 |
4 | 1960.75 | 0.44 |
5 | 1961.00 | 0.61 |
6 | 1961.25 | 0.69 |
7 | 1961.50 | 0.92 |
8 | 1961.75 | 0.55 |
9 | 1962.00 | 0.72 |
10 | 1962.25 | 0.77 |
LakeHuron
Level of Lake Huron 1875-1972
Data shape: (98, 2)
データの内容:
このデータは、1875年から1972年までの間のミシガン湖ヒューロンの水位を示しています。
解析手法の提案:
このデータセットは、時間と水位の関係を調べるために、時系列解析を使用することができます。時系列解析を用いることで、水位の変動パターンや季節変動がわかるかもしれません。
Pythonライブラリの提案:
時系列解析には、pandas、NumPy、matplotlibなどのPythonライブラリが使用できます。pandasはデータの読み込みや加工処理に便利です。NumPyは数値計算に使用され、時系列データの操作にも役立ちます。matplotlibはグラフの描画に使用され、水位の変動を視覚化するのに適しています。
提案のコード例:
以下は、pandas、NumPy、matplotlibを使用して水位の変動を可視化するコードの例です。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# データの読み込み
data = pd.read_csv('データセットのファイルパス.csv')
# 時系列データの準備
time = data['time']
lake_huron = data['LakeHuron']
# グラフの描画
plt.plot(time, lake_huron)
plt.xlabel('Year')
plt.ylabel('Lake Huron Level')
plt.title('Lake Huron Level 1875-1972')
plt.show()
このコードは、水位の年ごとの変動を折れ線グラフで表示します。グラフを通じて、水位の傾向や周期性を視覚的に把握することができます。
先頭10データ:
time | LakeHuron | |
---|---|---|
1 | 1875 | 580.38 |
2 | 1876 | 581.86 |
3 | 1877 | 580.97 |
4 | 1878 | 580.80 |
5 | 1879 | 579.79 |
6 | 1880 | 580.39 |
7 | 1881 | 580.42 |
8 | 1882 | 580.82 |
9 | 1883 | 581.40 |
10 | 1884 | 581.32 |
LifeCycleSavings
Intercountry Life-Cycle Savings Data
Data shape: (50, 5)
データの内容:
このデータセットは、異なる国のライフサイクルの節約データを示しています。各国における年間節約率(sr)、15歳未満の人口割合(pop15)、75歳以上の人口割合(pop75)、一人当たりの実質可処分所得(dpi)、一人当たりの実質可処分所得の成長率(ddpi)が含まれています。
解析手法の提案:
このデータセットは、国の経済状況や人口統計に関する情報を提供しているため、以下のような解析手法が使えそうです。
-
国ごとの節約率の比較: 各国の節約率(sr)を比較し、国の経済力や貯蓄習慣の違いを分析することができます。
-
経済成長と節約率の関係: 一人当たりの実質可処分所得の成長率(ddpi)と節約率(sr)の関係を調査し、経済成長と個人の貯蓄行動の関連性を分析することができます。
-
年齢構成と節約率の関係: 15歳未満の人口割合(pop15)や75歳以上の人口割合(pop75)と節約率(sr)の関係を調査し、人口構成が節約行動に与える影響を分析することができます。
Pythonライブラリの提案:
上記の解析手法を実施するために、以下のPythonライブラリが便利です。
-
Pandas: データの読み込み、前処理、集計、結合などのデータ操作を行うためのライブラリです。
-
Matplotlib: グラフの作成や可視化を行うためのライブラリです。
-
NumPy: 数値計算やデータの配列操作を行うためのライブラリです。
-
SciPy: 統計解析や科学技術計算など、さまざまな科学技術計算をサポートするライブラリです。
これらのライブラリを組み合わせて、データの読み込みから解析までを行うことができます。また、Jupyter Notebookなどの統合開発環境を使用することで、データの可視化や結果の共有も容易に行えます。
先頭10データ:
sr | pop15 | pop75 | dpi | ddpi | |
---|---|---|---|---|---|
Australia | 11.43 | 29.35 | 2.87 | 2329.68 | 2.87 |
Austria | 12.07 | 23.32 | 4.41 | 1507.99 | 3.93 |
Belgium | 13.17 | 23.80 | 4.43 | 2108.47 | 3.82 |
Bolivia | 5.75 | 41.89 | 1.67 | 189.13 | 0.22 |
Brazil | 12.88 | 42.19 | 0.83 | 728.47 | 4.56 |
Canada | 8.79 | 31.72 | 2.85 | 2982.88 | 2.43 |
Chile | 0.60 | 39.74 | 1.34 | 662.86 | 2.67 |
China | 11.90 | 44.75 | 0.67 | 289.52 | 6.51 |
Colombia | 4.98 | 46.64 | 1.06 | 276.65 | 3.08 |
Costa Rica | 10.78 | 47.64 | 1.14 | 471.24 | 2.80 |
Nile
Flow of the River Nile
Data shape: (100, 2)
データの内容:
このデータセットは、ナイル川の流量データです。年ごとの時間とナイル川の流量が含まれています。
どのような解析手法が使えそうか:
このデータセットでは、時間の経過に伴うナイル川の流量の変化を分析することができます。具体的には、以下の解析手法が使えそうです。
-
時系列解析: ナイル川の流量の時間変化を予測や分析するために、時系列解析を使用することができます。時系列解析には、ARIMAモデルや指数平滑法などがあります。
-
相関分析: ナイル川の流量と他の要素(例:降水量、気温など)との間の関係を調べるために、相関分析を使用することができます。相関分析には、ピアソン相関係数やスピアマンの順位相関係数などがあります。
そのために使えるPythonライブラリは何か:
上記の解析手法を実施するためには、以下のPythonライブラリが利用できます。
-
pandas: データの読み込みや操作、時系列データの前処理に使用することができます。
-
numpy: 数値計算やデータ処理に使用することができます。
-
matplotlibやseaborn: データの可視化に使用することができます。例えば、時系列プロットや相関プロットを作成する際に利用します。
-
statsmodels: 時系列解析や相関分析に使用することができます。ARIMAモデルの構築や相関係数の算出などが可能です。
上記のライブラリを組み合わせて、データセットの時系列解析や相関分析を行い、ナイル川の流量の変化に関する洞察を得ることができます。また、予測モデルの構築や将来の流量の予測も行うことができます。
先頭10データ:
time | Nile | |
---|---|---|
1 | 1871 | 1120 |
2 | 1872 | 1160 |
3 | 1873 | 963 |
4 | 1874 | 1210 |
5 | 1875 | 1160 |
6 | 1876 | 1160 |
7 | 1877 | 813 |
8 | 1878 | 1230 |
9 | 1879 | 1370 |
10 | 1880 | 1140 |
OrchardSprays
Potency of Orchard Sprays
Data shape: (64, 4)
データの内容:
このデータセットは、果樹園で使用される噴霧剤の強さに関するデータです。各行は噴霧剤の使用による効果の減少率(decrease)、噴霧位置の行番号(rowpos)、噴霧位置の列番号(colpos)、および使用された噴霧剤の種類(treatment)が含まれています。
どのような解析手法が使えそうか:
このデータセットは、噴霧剤の強さとその他の要素との関係を調べるために使用できます。具体的には、噴霧剤の効果の減少率と噴霧位置、および噴霧剤の種類との関係を分析することができます。また、効果の減少率に対して噴霧位置や噴霧剤の種類がどの程度影響を与えているかを評価することもできます。
そのために使えるPythonライブラリ:
このデータセットを解析するためには、以下のPythonライブラリを使用することができます。
- pandas: データセットを読み込んで加工し、必要な統計情報や可視化を行うために使用します。
- matplotlibやseaborn: データの可視化に使用します。噴霧剤の効果の減少率と噴霧位置や噴霧剤の種類との関係をグラフ化することで可視化することができます。
- SciPyやstatsmodels: 噴霧剤の効果の減少率と噴霧位置や噴霧剤の種類との関係を統計的に評価するために使用します。特に、一元配置分散分析(ANOVA)などの統計テストを実行するために使用できます。
これらのライブラリを使用して、噴霧剤の強さとその他の要素との関係を分析し、噴霧剤の効果を最大化するための改善策を提案することができます。
先頭10データ:
decrease | rowpos | colpos | treatment | |
---|---|---|---|---|
1 | 57 | 1 | 1 | D |
2 | 95 | 2 | 1 | E |
3 | 8 | 3 | 1 | B |
4 | 69 | 4 | 1 | H |
5 | 92 | 5 | 1 | G |
6 | 90 | 6 | 1 | F |
7 | 15 | 7 | 1 | C |
8 | 2 | 8 | 1 | A |
9 | 84 | 1 | 2 | C |
10 | 6 | 2 | 2 | B |
PlantGrowth
Results from an Experiment on Plant Growth
Data shape: (30, 2)
データの内容:
このデータは、ある実験での植物の成長に関する結果を示しています。重さ(weight)とグループ(group)の2つのカラムがあります。
どのような解析手法が使えそうか:
このデータでは、異なるグループ間の植物の重さの違いを分析することができます。グループによって植物の重さに違いがあるかどうかを検証するために、t検定や分散分析(ANOVA)などの統計解析手法が適用できます。
そのために使えるPythonライブラリは何か:
このような統計解析を行うためには、NumPyやSciPy、statsmodelsといったPythonライブラリが利用できます。特に、statsmodelsライブラリは統計解析を行うための機能が豊富であり、t検定や分散分析を含むさまざまな統計解析手法が実装されています。また、pandasライブラリを使用することで、データの読み込みや前処理を行うことができます。
先頭10データ:
weight | group | |
---|---|---|
1 | 4.17 | ctrl |
2 | 5.58 | ctrl |
3 | 5.18 | ctrl |
4 | 6.11 | ctrl |
5 | 4.50 | ctrl |
6 | 4.61 | ctrl |
7 | 5.17 | ctrl |
8 | 4.53 | ctrl |
9 | 5.33 | ctrl |
10 | 5.14 | ctrl |
Puromycin
Reaction Velocity of an Enzymatic Reaction
Data shape: (23, 3)
データの内容:
Puromycinというデータセットで、酵素反応の反応速度に関するデータがあります。データには濃度(conc)、速度(rate)、状態(state)の列が含まれています。
解析手法の提案:
このデータセットでは、濃度と速度の関係を分析することが可能です。具体的な解析手法としては、回帰分析や相関分析が考えられます。また、濃度ごとに速度の違いを比較するために、グループ間の平均比較(t検定やANOVA)も有効です。
Pythonライブラリの提案:
このデータセットの解析には、以下のようなPythonライブラリが使えます。
- pandas: データの読み込みや整形、集計などのデータ操作に使用します。
- matplotlib / seaborn: データの可視化に使用します。濃度と速度の関係やグループ間の比較をグラフで表現できます。
- statsmodels / scipy: 回帰分析や相関分析、平均比較のための統計解析に使用します。
先頭10データ:
conc | rate | state | |
---|---|---|---|
1 | 0.02 | 76 | treated |
2 | 0.02 | 47 | treated |
3 | 0.06 | 97 | treated |
4 | 0.06 | 107 | treated |
5 | 0.11 | 123 | treated |
6 | 0.11 | 139 | treated |
7 | 0.22 | 159 | treated |
8 | 0.22 | 152 | treated |
9 | 0.56 | 191 | treated |
10 | 0.56 | 201 | treated |
Titanic
Survival of passengers on the Titanic
Data shape: (32, 5)
データの内容:
このデータセットは、Titanic号の乗客の生存情報を示しています。データには、乗客のクラス、性別、年齢、生存結果、および頻度が含まれています。
解析手法の提案:
このデータセットを分析するためには、以下のような解析手法が使えそうです。
-
データの可視化と要約統計量の計算:データセットの特徴や傾向を把握するために、各変数の分布や相関関係を可視化し、要約統計量を計算します。
-
生存率の予測モデルの構築:乗客のクラス、性別、年齢などの特徴を使用して、生存率を予測するモデルを構築します。
-
特徴量の重要度の評価:モデルの解釈性を向上させるために、各特徴量の重要度を評価し、生存に寄与する要因を特定します。
-
他の変数との関係の検討:他の変数と生存率の関係を検討し、特定のグループや条件における生存率の違いを分析します。
Pythonライブラリの提案:
上記の解析手法には、以下のPythonライブラリが使えます。
-
pandas: データの読み込み、データの整形、要約統計量の計算などに使用します。
-
matplotlibやseaborn: データの可視化に使用します。ヒストグラム、散布図、箱ひげ図などのグラフを作成することができます。
-
scikit-learn: モデルの構築、予測、特徴量の重要度の評価などに使用します。ランダムフォレストや勾配ブースティングなどの機械学習アルゴリズムが実装されています。
-
scipy: 統計解析や仮説検定などに使用します。特に生存率の比較や関連性の検定に使用できます。
先頭10データ:
Class | Sex | Age | Survived | Freq | |
---|---|---|---|---|---|
1 | 1st | Male | Child | No | 0 |
2 | 2nd | Male | Child | No | 0 |
3 | 3rd | Male | Child | No | 35 |
4 | Crew | Male | Child | No | 0 |
5 | 1st | Female | Child | No | 0 |
6 | 2nd | Female | Child | No | 0 |
7 | 3rd | Female | Child | No | 17 |
8 | Crew | Female | Child | No | 0 |
9 | 1st | Male | Adult | No | 118 |
10 | 2nd | Male | Adult | No | 154 |
ToothGrowth
The Effect of Vitamin C on Tooth Growth in Guinea Pigs
Data shape: (60, 3)
データの内容:
このデータは、ビタミンCがモルモットの歯の成長に与える影響を調査した実験結果です。データにはビタミンCの投与方法(supp)と投与量(dose)によって得られた歯の成長の長さ(len)が含まれています。
解析手法:
このデータでは、ビタミンCの投与方法と投与量が歯の成長にどのような効果を与えるかを調査することができます。以下の解析手法が適用される可能性があります。
-
群間比較(ANOVA):ビタミンCの投与方法(supp)や投与量(dose)ごとに歯の成長の平均に差があるかどうかを比較するために、群間比較の統計手法であるANOVAを使用することができます。
-
相関分析:ビタミンCの投与量(dose)と歯の成長の長さ(len)の関係性を調べるために、相関分析を行うことができます。これにより、ビタミンCの投与量が増えると歯の成長がどのように変化するかを評価することができます。
Pythonライブラリ:
上記の解析手法を実施するために、以下のPythonライブラリが使用できます。
-
pandas:データの読み込みや前処理、データの可視化に使用できるライブラリです。データの読み込みやデータの整形に使用することができます。
-
scipy:ANOVAや相関分析などの統計解析に使用できるライブラリです。統計解析に必要な関数や統計モデルを提供しています。
-
matplotlibやseaborn:データの可視化に使用できるライブラリです。グラフやプロットを作成するために使用することができます。matplotlibは基本的なグラフ作成に使用され、seabornはより美しいグラフの作成に使用されます。
以上の手法とライブラリを使用することで、ビタミンCの投与方法や投与量がモルモットの歯の成長に与える効果を評価することができます。
先頭10データ:
len | supp | dose | |
---|---|---|---|
1 | 4.2 | VC | 0.5 |
2 | 11.5 | VC | 0.5 |
3 | 7.3 | VC | 0.5 |
4 | 5.8 | VC | 0.5 |
5 | 6.4 | VC | 0.5 |
6 | 10.0 | VC | 0.5 |
7 | 11.2 | VC | 0.5 |
8 | 11.2 | VC | 0.5 |
9 | 5.2 | VC | 0.5 |
10 | 7.0 | VC | 0.5 |
UCBAdmissions
Student Admissions at UC Berkeley
Data shape: (24, 4)
データ内容:
UC Berkeleyの学生の入学結果と、性別・学部・頻度のデータです。
解析手法:
このデータを分析するためには、以下のような解析手法が使えそうです。
- カテゴリごとの入学率の比較
- 学部ごとの入学率の比較
- 性別ごとの入学率の比較
Pythonライブラリ:
このデータを分析するためには、以下のPythonライブラリが使えます。
- pandas: データの読み込み、整形、集計などを行うために使用します。
- matplotlib / seaborn: グラフの作成や可視化を行うために使用します。
- scipy.stats: カイ二乗検定などの統計的な解析手法を実装するために使用します。
以上の手法とライブラリを使用して、UC Berkeleyの学生の入学結果に関する分析を行うことができます。
先頭10データ:
Admit | Gender | Dept | Freq | |
---|---|---|---|---|
1 | Admitted | Male | A | 512 |
2 | Rejected | Male | A | 313 |
3 | Admitted | Female | A | 89 |
4 | Rejected | Female | A | 19 |
5 | Admitted | Male | B | 353 |
6 | Rejected | Male | B | 207 |
7 | Admitted | Female | B | 17 |
8 | Rejected | Female | B | 8 |
9 | Admitted | Male | C | 120 |
10 | Rejected | Male | C | 205 |
UKDriverDeaths
Road Casualties in Great Britain 1969-84
Data shape: (192, 2)
データの内容:
このデータセットは、1969年から1984年までのイギリスでの道路事故による死者数を示しています。
解析手法の提案:
このデータセットは、時間とイギリスでのドライバーの死亡者数の関係を調べるために使用できます。具体的には、年ごとの死者数の傾向や季節性の影響を分析することができます。
解析手法としては、時系列データの解析手法を用いることが考えられます。例えば、時系列モデル(ARIMAやSARIMA)を使って未来の死者数を予測することや、季節性の影響を調べるために季節調整モデル(Seasonal Decomposition of Time Series)を使うことができます。
Pythonライブラリの提案:
このデータセットの解析には、以下のPythonライブラリが役立ちます。
- Pandas: データの読み込み、前処理、可視化などのためのライブラリです。
- Matplotlib: データの可視化やグラフ作成のためのライブラリです。
- Statsmodels: 時系列データの解析や予測モデルの作成に使用されるライブラリです。
- Seasonal: 季節性の分析や季節調整モデルの作成に使用されるライブラリです。
これらのライブラリを組み合わせて、データの可視化や傾向の分析、予測モデルの作成などを行うことができます。
先頭10データ:
time | UKDriverDeaths | |
---|---|---|
1 | 1969.000000 | 1687 |
2 | 1969.083333 | 1508 |
3 | 1969.166667 | 1507 |
4 | 1969.250000 | 1385 |
5 | 1969.333333 | 1632 |
6 | 1969.416667 | 1511 |
7 | 1969.500000 | 1559 |
8 | 1969.583333 | 1630 |
9 | 1969.666667 | 1579 |
10 | 1969.750000 | 1653 |
UKgas
UK Quarterly Gas Consumption
Data shape: (108, 2)
データの内容:
このデータはイギリスの四半期ごとのガス消費量を示しており、年とその四半期の組み合わせで表されています。
解析手法:
このデータセットでは、時系列データが提供されているため、時間の変化に関する分析手法が使えそうです。具体的には、時系列データのトレンドや季節性の有無、周期性の特徴などを調査するための分析手法が適用可能です。
使えるPythonライブラリ:
このデータセットを分析するためには、主に次のPythonライブラリが使えます。
- pandas: データの読み込み、整形、集計などに使用します。
- matplotlib: データの可視化やグラフ作成に使用します。
- statsmodels: 時系列データの分析や予測モデルの構築に使用します。
- scikit-learn: 時系列データのクラスタリングや異常検知などの機械学習手法に使用します。
以上のライブラリを使用して、データセットを可視化し、時系列データの特徴を把握し、必要に応じて予測モデルを構築することができます。
先頭10データ:
time | UKgas | |
---|---|---|
1 | 1960.00 | 160.1 |
2 | 1960.25 | 129.7 |
3 | 1960.50 | 84.8 |
4 | 1960.75 | 120.1 |
5 | 1961.00 | 160.1 |
6 | 1961.25 | 124.9 |
7 | 1961.50 | 84.8 |
8 | 1961.75 | 116.9 |
9 | 1962.00 | 169.7 |
10 | 1962.25 | 140.9 |
USAccDeaths
Accidental Deaths in the US 1973-1978
Data shape: (72, 2)
データの内容:
アメリカの1973年から1978年の間の意図しない死亡事故の数。
解析手法の提案:
・時系列データの予測:時間の経過に伴うアメリカの意図しない死亡事故の数の変動を予測することができます。トレンドや季節性の分析、ARIMAモデルなどを用いることで、将来の死亡事故数を予測できます。
使用できるPythonライブラリの提案:
・pandas: データフレームとしてデータを操作するために使用します。
・matplotlibやseaborn: データの可視化に使用します。時系列データの変動やトレンドを可視化することで、パターンや傾向を把握することができます。
・statsmodels: 時系列分析や予測モデルの構築に使用します。ARIMAモデルなどの統計モデルを簡単に作成することができます。
先頭10データ:
time | USAccDeaths | |
---|---|---|
1 | 1973.000000 | 9007 |
2 | 1973.083333 | 8106 |
3 | 1973.166667 | 8928 |
4 | 1973.250000 | 9137 |
5 | 1973.333333 | 10017 |
6 | 1973.416667 | 10826 |
7 | 1973.500000 | 11317 |
8 | 1973.583333 | 10744 |
9 | 1973.666667 | 9713 |
10 | 1973.750000 | 9938 |
USArrests
Violent Crime Rates by US State
Data shape: (50, 4)
データの内容:
このデータは、米国の各州の暴力犯罪率を示しています。各州ごとに、殺人、暴行、都市人口、強姦の数値が記録されています。
どのような解析手法が使えそうか:
このデータセットでは、各州の暴力犯罪率を分析するために、以下の解析手法が使えそうです。
- 暴力犯罪率の比較: 各州の暴力犯罪率を比較し、最も高い/低い州を特定することができます。
- データのクラスタリング: 各州の特徴を考慮し、クラスタリング分析を行うことで、暴力犯罪率の類似したグループを特定することができます。
- 相関関係の分析: 各州の暴力犯罪率と他の変数(殺人、暴行、都市人口、強姦)の相関関係を調査することができます。
そのために使えるPythonライブラリは何か:
この解析には、以下のPythonライブラリが役立ちます。
- pandas: データセットの読み込み、データの整理、集計などの操作に使用します。
- numpy: 数値計算や統計処理に使用します。
- matplotlib, seaborn: データの可視化に使用します。
- scikit-learn: クラスタリング分析や相関関係の分析に使用します。
先頭10データ:
Murder | Assault | UrbanPop | Rape | |
---|---|---|---|---|
Alabama | 13.2 | 236 | 58 | 21.2 |
Alaska | 10.0 | 263 | 48 | 44.5 |
Arizona | 8.1 | 294 | 80 | 31.0 |
Arkansas | 8.8 | 190 | 50 | 19.5 |
California | 9.0 | 276 | 91 | 40.6 |
Colorado | 7.9 | 204 | 78 | 38.7 |
Connecticut | 3.3 | 110 | 77 | 11.1 |
Delaware | 5.9 | 238 | 72 | 15.8 |
Florida | 15.4 | 335 | 80 | 31.9 |
Georgia | 17.4 | 211 | 60 | 25.8 |
USJudgeRatings
Lawyers' Ratings of State Judges in the US Superior Court
Data shape: (43, 12)
データの内容:
- US Superior Courtの州判事に対する弁護士の評価データ
- 各判事ごとに、10項目の評価項目に対するスコアが与えられている
解析手法:
- 判事の評価に基づいて、判事の能力や傾向を分析する
- 判事の評価スコアの相関関係や傾向を調べる
- 判事の評価スコアのクラスタリングや分類を行い、異なるタイプの判事を特定する
使えそうなPythonライブラリ:
- pandas: データの読み込み・整形・操作に使用
- numpy: 数値計算や行列操作に使用
- matplotlib / seaborn: データの可視化に使用
- scikit-learn: データのクラスタリングや分類に使用
- statsmodels: 統計解析に使用
先頭10データ:
CONT | INTG | DMNR | DILG | CFMG | DECI | PREP | FAMI | ORAL | WRIT | PHYS | RTEN | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
AARONSON,L.H. | 5.7 | 7.9 | 7.7 | 7.3 | 7.1 | 7.4 | 7.1 | 7.1 | 7.1 | 7.0 | 8.3 | 7.8 |
ALEXANDER,J.M. | 6.8 | 8.9 | 8.8 | 8.5 | 7.8 | 8.1 | 8.0 | 8.0 | 7.8 | 7.9 | 8.5 | 8.7 |
ARMENTANO,A.J. | 7.2 | 8.1 | 7.8 | 7.8 | 7.5 | 7.6 | 7.5 | 7.5 | 7.3 | 7.4 | 7.9 | 7.8 |
BERDON,R.I. | 6.8 | 8.8 | 8.5 | 8.8 | 8.3 | 8.5 | 8.7 | 8.7 | 8.4 | 8.5 | 8.8 | 8.7 |
BRACKEN,J.J. | 7.3 | 6.4 | 4.3 | 6.5 | 6.0 | 6.2 | 5.7 | 5.7 | 5.1 | 5.3 | 5.5 | 4.8 |
BURNS,E.B. | 6.2 | 8.8 | 8.7 | 8.5 | 7.9 | 8.0 | 8.1 | 8.0 | 8.0 | 8.0 | 8.6 | 8.6 |
CALLAHAN,R.J. | 10.6 | 9.0 | 8.9 | 8.7 | 8.5 | 8.5 | 8.5 | 8.5 | 8.6 | 8.4 | 9.1 | 9.0 |
COHEN,S.S. | 7.0 | 5.9 | 4.9 | 5.1 | 5.4 | 5.9 | 4.8 | 5.1 | 4.7 | 4.9 | 6.8 | 5.0 |
DALY,J.J. | 7.3 | 8.9 | 8.9 | 8.7 | 8.6 | 8.5 | 8.4 | 8.4 | 8.4 | 8.5 | 8.8 | 8.8 |
DANNEHY,J.F. | 8.2 | 7.9 | 6.7 | 8.1 | 7.9 | 8.0 | 7.9 | 8.1 | 7.7 | 7.8 | 8.5 | 7.9 |
USPersonalExpenditure
Personal Expenditure Data
Data shape: (5, 5)
データの内容は、年ごとの個人支出のカテゴリごとの金額です。
解析手法としては、時間の経過に伴う個人支出の変化や傾向を分析することが考えられます。具体的には、各カテゴリごとの個人支出の増減や相関関係を調べることができます。また、特定の年やカテゴリを比較することで、支出の変化のパターンを把握することもできます。
このデータを分析するためには、Pandasライブラリを使用することが適しています。Pandasは、データの読み込み、整理、集計、可視化など、さまざまなデータ操作を行うための機能を提供しています。
具体的な分析手順としては、以下のような流れが考えられます。
-
データの読み込みと確認
- Pandasの
read_csv
関数を使用して、データを読み込みます。 - データの形式や欠損値の有無を確認します。
- Pandasの
-
データの整形
- 必要な列や行を抽出し、不要なデータを削除します。
- データの型を適切に変換します。
-
データの集計
- 各カテゴリごとの個人支出の合計や平均を計算します。
- 年ごとやカテゴリごとの個人支出の増減を可視化します。
-
データの相関分析
- 各カテゴリの個人支出間の相関関係を調べます。
- 相関係数や散布図を作成して、相関関係の強さや傾向を確認します。
以上の手法とPythonのPandasライブラリを使用することで、データセットの内容や変化を詳細に分析することができます。
先頭10データ:
1940 | 1945 | 1950 | 1955 | 1960 | |
---|---|---|---|---|---|
Food and Tobacco | 22.200 | 44.500 | 59.60 | 73.2 | 86.80 |
Household Operation | 10.500 | 15.500 | 29.00 | 36.5 | 46.20 |
Medical and Health | 3.530 | 5.760 | 9.71 | 14.0 | 21.10 |
Personal Care | 1.040 | 1.980 | 2.45 | 3.4 | 5.40 |
Private Education | 0.341 | 0.974 | 1.80 | 2.6 | 3.64 |
VADeaths
Death Rates in Virginia (1940)
Data shape: (5, 4)
データの内容:
このデータは、1940年のバージニア州における死亡率を示しています。年齢別に、地方の男性・女性と都市部の男性・女性の死亡率が示されています。
解析手法の提案:
このデータを分析するために、以下の解析手法が使えそうです。
-
データの可視化と統計的な要約:
- データの分布や傾向を把握するために、折れ線グラフや棒グラフを用いた可視化が有効です。
- 平均や中央値などの統計的な要約を計算し、各年齢グループや地域間の死亡率の差異を理解することも重要です。
-
時系列データの予測:
- このデータは年ごとに集計されているため、時系列データとして扱うことができます。
- ARIMAモデルや指数平滑法などの時系列予測手法を用いて、将来の死亡率の予測を行うことができます。
-
因子間の関係の分析:
- 地方と都市部、男性と女性の死亡率の違いを調査するために、因子間の関係を分析することが重要です。
- 相関係数や回帰分析を用いて、死亡率と他の要因(たとえば、医療のアクセス性や生活習慣)の関係性を調べることができます。
Pythonライブラリの提案:
この分析には、以下のPythonライブラリが役立つでしょう。
- NumPy: 数値計算や統計的な操作を行うために使用します。
- Pandas: データフレームの作成やデータの整理・加工を行うために使用します。
- Matplotlib: グラフの可視化に使用します。
- statsmodels: 時系列解析や統計的なモデリングに使用します。
- seaborn: より美しい可視化を簡単に作成するために使用します。
先頭10データ:
Rural Male | Rural Female | Urban Male | Urban Female | |
---|---|---|---|---|
50-54 | 11.7 | 8.7 | 15.4 | 8.4 |
55-59 | 18.1 | 11.7 | 24.3 | 13.6 |
60-64 | 26.9 | 20.3 | 37.0 | 19.3 |
65-69 | 41.0 | 30.9 | 54.6 | 35.1 |
70-74 | 66.0 | 54.3 | 71.1 | 50.0 |
WWWusage
Internet Usage per Minute
Data shape: (100, 2)
このデータは、時間に対する1分間のインターネット使用量を示しています。データの内容を見ると、時間帯ごとのインターネット使用量の変動を分析することができそうです。
このようなデータの解析手法としては、時系列データの分析が考えられます。具体的には、以下のような解析手法が使えそうです。
-
データの可視化: データの傾向や変動を把握するために、折れ線グラフや棒グラフなどの可視化手法を使います。時間とインターネット使用量の関係をグラフで表示することで、変動のパターンが見えてきます。
-
時系列予測: 過去のデータをもとに未来のインターネット使用量を予測することができます。ARIMAモデルやLSTMネットワークなどの時系列予測手法を使います。これにより、将来の需要予測やリソースの最適化などに役立ちます。
-
季節性の分析: インターネット使用量には季節性があるかもしれません。季節性のあるデータを分析するためには、季節調整や周期分解といった手法が使えます。これにより、季節的な需要パターンを把握することができます。
このデータを解析するためには、以下のようなPythonライブラリが役立ちます。
-
Pandas: データフレームとしてデータを扱うためのライブラリです。データの読み込み、前処理、集計などを行うことができます。
-
MatplotlibやSeaborn: グラフの可視化に使われるライブラリです。折れ線グラフや棒グラフなどのグラフを作成することができます。
-
Statsmodels: 時系列分析や時系列予測に使われるライブラリです。ARIMAモデルや季節調整などの手法が実装されています。
-
Scikit-learn: 機械学習モデルを使った予測や分類に使われるライブラリです。LSTMネットワークなどの時系列予測モデルを構築することができます。
以上の手法とライブラリを使うことで、このデータの特徴や変動のパターンを把握し、将来のインターネット使用量を予測することができるでしょう。
先頭10データ:
time | WWWusage | |
---|---|---|
1 | 1 | 88 |
2 | 2 | 84 |
3 | 3 | 85 |
4 | 4 | 85 |
5 | 5 | 84 |
6 | 6 | 85 |
7 | 7 | 83 |
8 | 8 | 85 |
9 | 9 | 88 |
10 | 10 | 89 |
WorldPhones
The World's Telephones
Data shape: (7, 7)
データの内容:
このデータセットは、1951年から1961年までの各地域ごとの電話の保有台数を示しています。
どのような解析手法が使えそうか:
このデータセットは、時間の経過に伴う各地域の電話の保有台数の変化を分析することができます。具体的には、各地域の電話の保有台数の増減の傾向や、地域間の電話の保有台数の比較などが分析できます。また、時間によるトレンドの予測や将来の電話の保有台数の予測も可能です。
そのために使えるPythonライブラリ:
このデータセットの分析には、PandasとMatplotlibを使用することができます。
具体的な手順としては、まずPandasを使用してデータを読み込み、データフレームとして扱います。次に、Matplotlibを使用して各地域の電話の保有台数の増減の傾向を可視化します。さらに、Pandasの統計的な関数やメソッドを使用して、地域間の電話の保有台数の比較や時間によるトレンドの分析を行います。最後に、Matplotlibを使用して将来の電話の保有台数の予測を可視化することもできます。
具体的なコード例は以下の通りです:
import pandas as pd
import matplotlib.pyplot as plt
# データの読み込み
data = {
'year': [1951, 1956, 1957, 1958, 1959, 1960, 1961],
'N.Amer': [45939, 60423, 64721, 68484, 71799, 76036, 79831],
'Europe': [21574, 29990, 32510, 35218, 37598, 40341, 43173],
'Asia': [2876, 4708, 5230, 6662, 6856, 8220, 9053],
'S.Amer': [1815, 2568, 2695, 2845, 3000, 3145, 3338],
'Oceania': [1646, 2366, 2526, 2691, 2868, 3054, 3224],
'Africa': [89, 1411, 1546, 1663, 1769, 1905, 2005],
'Mid.Amer': [555, 733, 773, 836, 911, 1008, 1076]
}
df = pd.DataFrame(data)
# 各地域の電話の保有台数の増減の傾向を可視化
plt.plot(df['year'], df['N.Amer'], label='N.Amer')
plt.plot(df['year'], df['Europe'], label='Europe')
plt.plot(df['year'], df['Asia'], label='Asia')
plt.plot(df['year'], df['S.Amer'], label='S.Amer')
plt.plot(df['year'], df['Oceania'], label='Oceania')
plt.plot(df['year'], df['Africa'], label='Africa')
plt.plot(df['year'], df['Mid.Amer'], label='Mid.Amer')
plt.xlabel('Year')
plt.ylabel('Number of Phones')
plt.title('Number of Phones in each Region')
plt.legend()
plt.show()
# 地域間の電話の保有台数の比較
region_comparison = df[['N.Amer', 'Europe', 'Asia', 'S.Amer', 'Oceania', 'Africa', 'Mid.Amer']].sum()
region_comparison.plot(kind='bar')
plt.xlabel('Region')
plt.ylabel('Number of Phones')
plt.title('Comparison of Number of Phones by Region')
plt.show()
# 時間によるトレンドの分析
trend_analysis = df[['N.Amer', 'Europe', 'Asia', 'S.Amer', 'Oceania', 'Africa', 'Mid.Amer']].mean()
trend_analysis.plot(kind='line')
plt.xlabel('Region')
plt.ylabel('Number of Phones')
plt.title('Trend Analysis of Number of Phones by Region')
plt.show()
# 将来の電話の保有台数の予測
# ここでは、Pandasの統計的な関数やメソッドを使用して予測を行う
以上のように、PandasとMatplotlibを使用して、データの内容を分析し、可視化することができます。また、将来の予測を行う際には、Pandasの統計的な関数やメソッドを使用して予測を行うことができます。
先頭10データ:
N.Amer | Europe | Asia | S.Amer | Oceania | Africa | Mid.Amer | |
---|---|---|---|---|---|---|---|
1951 | 45939 | 21574 | 2876 | 1815 | 1646 | 89 | 555 |
1956 | 60423 | 29990 | 4708 | 2568 | 2366 | 1411 | 733 |
1957 | 64721 | 32510 | 5230 | 2695 | 2526 | 1546 | 773 |
1958 | 68484 | 35218 | 6662 | 2845 | 2691 | 1663 | 836 |
1959 | 71799 | 37598 | 6856 | 3000 | 2868 | 1769 | 911 |
1960 | 76036 | 40341 | 8220 | 3145 | 3054 | 1905 | 1008 |
1961 | 79831 | 43173 | 9053 | 3338 | 3224 | 2005 | 1076 |