(English follows)
我々Team AIは渋谷で毎日機械学習勉強会・データ分析ハッカソンを開催しています。
コミュニティを東京中心の100万人にするのが目標です。
日本中・世界中にこのデータ分析のムーブメントが広がると良いなと思っているので、
データ分析ハッカソンをやるときに便利なチュートリアルをまとめました。
とても楽しいので、皆さん、特に地方の皆さんは是非ご自身でやってみてくださいね!
Team AIとしても協力します。
#初めての方は下記でKaggle/特にKernelの使い方をざっと眺めてください
まずはこれを観て! 石井が作ったKaggle Kernel機能の解説(生産性が上がります!)=>
https://www.youtube.com/watch?v=HkJmnpBjiI0
DataSetが沢山並んでいるここで、いいねが沢山ついている興味あるデータセットをクリックしてみて下さい。DataSetはキーワード検索する事もできます。
https://www.kaggle.com/datasets
専業Kagglerカレーちゃんさんの詳細なKaggle解説;
https://note.mu/currypurin/n/nf390914c721e
カレーちゃんはTwitterでもKaggle情報発信されています;
https://twitter.com/currypurin
#2018/9/6
Googleよりデータセットの横断検索エンジンが発表 すごい便利です
https://toolbox.google.com/datasetsearch
#Kaggleって何?
Kaggle事始め
http://qiita.com/taka4sato/items/802c494fdebeaa7f43b7
データサイエンティストを目指して勉強するなら、Kaggleからはじめよう
#Kaggle Slack Group
Global Group 3000人
https://kagglenoobs.herokuapp.com/
日本のグループ ハイレベル中心に400人
http://kaggler-ja.herokuapp.com/
#Fintech Data Hackathon
###我々が使っているデータセット
Bitcoin Price Prediction (LightWeight CSV)
https://www.kaggle.com/team-ai/bitcoin-price-prediction
Uniqlo (FastRetailing) Stock Price Prediction
Foreign Exchange (FX) Prediction - USD/JPY
https://www.kaggle.com/team-ai/foreign-exchange-fx-prediction-usdjpy
Foreign Exchange(FX) Prediction - EUR/USD
https://www.kaggle.com/meehau/EURUSD/kernels
かなり丁寧に書かれたKernel => 予測精度99.7%は本当でしょうか??
https://www.kaggle.com/daiearth22/eurusd-15-minute-interval-price-prediction?scriptVersionId=8708587
Kaggle datasets in finance category (competitionはデータが重いです)
https://www.kaggle.com/tags/finance
Credit Card Fraud
クレジットカードの詐欺検知データ (66MBなので重め)
https://www.kaggle.com/mlg-ulb/creditcardfraud
StockPrice and News
ニュースと株価の相関分析(6MB)
https://www.kaggle.com/aaron7sun/stocknews
Loan Data for risk analysis
貸付リスク計算データ (6KB 軽め)
https://www.kaggle.com/zhijinzhai/loandata
Loan Data for risk analysis(heavy data)
貸付リスク計算データ (240MBvery heavy )
https://www.kaggle.com/wendykan/lending-club-loan-data
###読むと良いブログ
為替をDeepLearningで予測してみた話
http://qiita.com/ognek/items/1b776d504d20bd6f6d7d
Twitter感情分析で株価予測の論文を検証したら約70%の精度で上下予測できた
http://qiita.com/ryo_grid/items/5a5ecc602186a3381c87
PythonというかMatplotlibでスケールや単位の異なる時系列データを整形して表示する
http://qiita.com/zaburo/items/00f364422ef3fe64f156
###2018/10/19追記
インドの金融データ提供会社;
https://www.quandl.com/
デイトレーダーの方からかなり有益な情報を頂きました
株価予測をデータの前処理からLSTMでのトレーニングまで一気にやっちゃうAlphaAIのオープンソースプロジェクト - 98%の精度
https://github.com/VivekPa/AlphaAI
Finance x Python のもくもく会FinPy
https://fin-py.connpass.com/
Quantopianもくもく会
https://quantopian-tokyo.connpass.com/
手数料ゼロの株取引アプリStream
https://smartplus-sec.com/stream/
PythonデイトレーダーどりらんさんTwitter
https://twitter.com/patraqushe?lang=en
デイトレエンジニアしんせいたろうさんTwitter
https://twitter.com/shinseitaro
###2018/9/21 FinTech追記
無料でも使える投資家支援アプリMyTrade
https://mytrade.jp/
経済危機を異常検知のコンセプトで予測するDragonKing理論(BlackSwanに似て非なる)
https://www.ted.com/talks/didier_sornette_how_we_can_predict_the_next_financial_crisis/transcript?language=ja#t-6583
DragonKing理論論文
https://arxiv.org/abs/0907.4290
###2018/2/16 追加
カード支払い不履行データをExcelで分析してみた(今更聞けない統計学)
https://medium.com/team-ai-math/data-analysis-by-excel-b90fcbd7f4fe
海外のFinTech投資調査25社 Jan 2018
https://medium.com/team-ai-fintech/fintech-investment-jan-35d2424f22f4
注目の海外FinTechサービス事例20
https://medium.com/team-ai-fintech/fintech-startups-20-2c21b27ea003
#Medical Data Hackathon
Synchronized brainwave dataset 脳波
https://www.kaggle.com/berkeley-biosense/synchronized-brainwave-dataset
Breast Cancer Wisconsin (Diagnostic) Data Set 乳がん
https://www.kaggle.com/uciml/breast-cancer-wisconsin-data
Hospital General Information 病院
https://www.kaggle.com/cms/hospital-general-information
Zika Virus Epidemic ジカ熱
https://www.kaggle.com/cdc/zika-virus-epidemic
Cervical Cancer Risk Classification 子宮頸がん
https://www.kaggle.com/loveall/cervical-cancer-risk-classification
Medical Appointment No Shows 患者のドタキャン分析
https://www.kaggle.com/joniarroba/noshowappointments
Mental Health in Tech Survey テック業界のメンタルヘルス
https://www.kaggle.com/osmi/mental-health-in-tech-survey
###2018/6/18 Medical Dataハッカソンより追加
Googleのいけてるデータ可視化ツールFACETS
https://pair-code.github.io/facets/
RandamForestのRegressorで変数の重要度をざっくり検出(便利!)
http://scikit-learn.org/…/sklearn.ensemble.RandomForestRegr…
取得データの概要がつかめるPands Profiling
https://wonderwall.hatenablog.com/entry/2018/02/12/171500
医薬のオープンデータDrugBank
https://www.drugbank.ca/
タンパク質のオープンデータProtein Bank
https://www.rcsb.org/
Googleの無料GPUクラウドColaboratoryが超便利
http://itsukara.hateblo.jp/entry/2018/02/05/214949
#NASA/Space Data Hackathon
Exoplanet Hunting in Deep Space 惑星探査データ
https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data
Solar Radiation Prediction 太陽の放射線データ
https://www.kaggle.com/dronio/SolarEnergy
Climate Change: Earth Surface Temperature Data 地球の表面温度データ
https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data
Meteorite Landings 隕石の衝突データ
https://www.kaggle.com/nasa/meteorite-landings
UFO Sightings UFO発見データ
https://www.kaggle.com/NUFORC/ufo-sightings
Open Exoplanet Catalogue 太陽系外惑星データ
https://www.kaggle.com/mrisdal/open-exoplanet-catalogue
Kepler Exoplanet Search Results 太陽系外惑星データ2
https://www.kaggle.com/nasa/kepler-exoplanet-search-results/kernels
NASAの太陽系外惑星探査ケプラー宇宙望遠鏡ミッション詳細
https://japanese.engadget.com/2018/03/15/9-4500/
##2018/12/23追加
さくらインターネットの人工衛星データ活用の仕組みTellus
https://www.sakura.ad.jp/information/pressreleases/2018/07/31/1968197591/
Google Earth API
https://developers.google.com/earth-engine/
#Marketing/Retail Data Hackathon
Springleaf Marketing Response ダイレクトメールの反応分析 150MB
https://www.kaggle.com/c/springleaf-marketing-response/kernels
Coupon Purchase Prediction リクルートのポンパレのデータ
https://www.kaggle.com/c/coupon-purchase-prediction
Airbnb New User Bookings Airbnbの予約データ分析
Where will a new guest book their first travel experience?
https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings
Rossmann Store Sales 小売店売上予測
https://www.kaggle.com/c/rossmann-store-sales/data
Home Depot Product Search Relevance
Predict the relevance of search results on homedepot.com
https://www.kaggle.com/c/home-depot-product-search-relevance
Acquire Valued Shoppers Challenge
Predict which shoppers will become repeat buyers
https://www.kaggle.com/c/acquire-valued-shoppers-challenge
Getting real about fake news
https://www.kaggle.com/mrisdal/fake-news
Starbucks Locations Worldwide
https://www.kaggle.com/starbucks/store-locations
Retail rocket recommendation system dataset
https://www.kaggle.com/retailrocket/ecommerce-dataset
Grupo Bimbo Inventory Demand 食品の売上最適化と返品の最小化 (Trainデータ3GBデータあり)
Maximize sales and minimize returns of bakery goods
https://www.kaggle.com/c/grupo-bimbo-inventory-demand
Innerwear Data from Victoria's Secret
https://www.kaggle.com/PromptCloudHQ/innerwear-data-from-victorias-secret-and-others
#NLP(自然言語処理) Data Hackathon
自然言語処理チュートリアル =>
https://qiita.com/daisuke-team-ai/items/d2e18f07a08d9b4cb783
###NLPの代表的なアプローチまとめ + コード (Kaggle Kernel) オススメ
https://www.kaggle.com/abhishek/approaching-almost-any-nlp-problem-on-kaggle
NLP Data;
Shinzo Abe Twitter Data(安倍首相のTwitterデータ)
https://www.kaggle.com/team-ai/shinzo-abe-japanese-prime-minister-twitter-nlp/version/1
World News on Reddit
掲示板上のニュースデータ解析
https://www.kaggle.com/rootuser/worldnews-on-reddit
South Park Dialogue
アニメ作品台本のセリフデータから話者を特定
https://www.kaggle.com/tovarischsukhov/southparklines
Deep NLP
Chatbotと履歴書データの解析
https://www.kaggle.com/samdeeplearning/deepnlp
Python Questions from StackOverFlow
プログラミングQ&AサイトのPythonに関する質問分析
https://www.kaggle.com/stackoverflow/pythonquestions
Japanese English Bilingual Corpus(日本語と英語のWikipediaコーパス)
https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus
Japanese lemma frequency 日本語の頻出語15000リスト
A list of the 15,000 most common word forms in Japanese
https://www.kaggle.com/rtatman/japanese-lemma-frequency
Japanese Whisky Review Dataset(英語ですが日本のウイスキーのレビュー)
1,000+ Reviews of Japanese Whisky
https://www.kaggle.com/koki25ando/japanese-whisky-review
(上級者向け) Q&AサイトQuoraの類似質問を分類するコンペ
https://www.kaggle.com/c/quora-question-pairs
番外;トランプ大統領のTwitter AI => 話しかけると直ぐに答えてくれます!
https://twitter.com/TrumpSidekik
#HR Data
Kaggle ML and Data Science Survey, 2017 データ分析業界全体の分析
A big picture view of the state of data science and machine learning.
https://www.kaggle.com/kaggle/kaggle-survey-2017
U.S. Incomes by Occupation and Gender 性別による収入格差の分析
Analyze gender gap and differences in industry's incomes
https://www.kaggle.com/jonavery/incomes-by-career-and-gender
Daily Happiness & Employee Turnover 業績と社員幸福度の相関性分析
Is There a Relationship Between Employee Happiness and Job Turnover?
https://www.kaggle.com/harriken/employeeturnover
IBM HR Analytics Employee Attrition & Performance IBMの離職率分析
Predict attrition of your valuable employees
https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset
Human Resources Analytics なぜ優秀な社員が離職するのか?という分析
Why are our best and most experienced employees leaving prematurely?
https://www.kaggle.com/ludobenistant/hr-analytics
2016 New Coder Survey 新人ソフトウエアエンジニア15000人分の属性データ
A survey of 15,000+ people who are new to software development
https://www.kaggle.com/freecodecamp/2016-new-coder-survey-
U.S. Incomes by Occupation and Gender 職業と性別による所得格差分析
Analyze gender gap and differences in industry's incomes
https://www.kaggle.com/jonavery/incomes-by-career-and-gender
#参照すると良い記事
Pythonでk-db.comから時系列データを取得する
#オススメデータセット
#英語も素晴らしい情報が揃っています
###Google Translate for Chromeを入れれば一発で自動翻訳できます!
Quoraに時系列予測のノウハウがいっぱい載っています(FinTech向け);
https://www.google.co.jp/search?q=how+to+predict+time+series+quora&rlz=1C5CHFA_enJP747JP747&oq=how+to+predict+time+series+quora&aqs=chrome..69i57.8273j0j7&sourceid=chrome&ie=UTF-8
#数理的アプローチ一覧
(保存版:ど素人向け) 機械学習/データ分析 読むべき記事リスト by Team AI
#Pythonのパッケージ
##Pandas
Official Site
http://pandas.pydata.org/
ゆるふわPandasチートシート
これだけ覚えておけばなんとかなるPandas
##Seaborn
Official Site
https://seaborn.pydata.org/
pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その1
pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その2
matplotlib と Seaborn の軸の日本語設定
= Event in Jan 2024 , Team AI comes back as "Kiara U" =
Data U event on 13 Jan (Sat)
——
Venue :
——
(Today’s step 1-2-3)
13:00-13:30 - open the room and we welcome the participants
13:30- 13:50
0 : warm intro - hey we are Rizwan and Dave - call us R&D!! You do warm intro too.
13:50-14:10
1: Get to know how to use kaggle! Welcome to open data science. Download CSV + do analysis + try to make some value with your deep insight.
14:10 - 15:00
2: today we have prepared some light weight data (should be less than 1MB = easy to analyze) You can group up the team of 4-5 ppl - for finance (=make money!) , medical (=save life!) , NASA (= discover the mystery of universe!)
15:00- 15:10 break
15:10 - 15:30
3: Continue the work! Don’t sleep. Everyone should help each other.
15:30-15:50
4 : Each team do 5min pitch about good / bad / possible next step out of your data-hackathon
15:50-16:00
5: Closing
——
The data we prepared
Source - you can use google translate to read this page
https://qiita.com/daisuke-team-ai/items/f8e3275f1d3ca7e9bfcd
——
(Finance data)
Bitcoin Price Prediction (LightWeight CSV)
https://www.kaggle.com/team-ai/bitcoin-price-prediction
Foreign Exchange (FX) Prediction - USD/JPY https://www.kaggle.com/team-ai/foreign-exchange-fx-prediction-usdjpy
Foreign Exchange(FX) Prediction - EUR/USD https://www.kaggle.com/meehau/EURUSD/kernels
StockPrice and News
ニュースと株価の相関分析(6MB)
https://www.kaggle.com/aaron7sun/stocknews
Loan Data for risk analysis
貸付リスク計算データ (6KB 軽め)
https://www.kaggle.com/zhijinzhai/loandata
Below are free to use - you can check nintendo, apple stock price for free
Yahoo finance
https://finance.yahoo.com
Google finance
https://support.google.com/docs/answer/3093281?hl=en
(Medical data )
Synchronized brainwave dataset 脳波
https://www.kaggle.com/berkeley-biosense/synchronized-brainwave-dataset
Breast Cancer Wisconsin (Diagnostic) Data Set 乳がん
https://www.kaggle.com/uciml/breast-cancer-wisconsin-data
Hospital General Information 病院
https://www.kaggle.com/cms/hospital-general-information
Zika Virus Epidemic ジカ熱
https://www.kaggle.com/cdc/zika-virus-epidemic
Cervical Cancer Risk Classification 子宮頸がん
https://www.kaggle.com/loveall/cervical-cancer-risk-classification
Medical Appointment No Shows 患者のドタキャン分析
https://www.kaggle.com/joniarroba/noshowappointments
Mental Health in Tech Survey テック業界のメンタルヘルス
https://www.kaggle.com/osmi/mental-health-in-tech-survey
(Space data )
Exoplanet Hunting in Deep Space 惑星探査データ
https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data
Solar Radiation Prediction 太陽の放射線データ
https://www.kaggle.com/dronio/SolarEnergy
Climate Change: Earth Surface Temperature Data 地球の表面温度データ
https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data
Meteorite Landings 隕石の衝突データ
https://www.kaggle.com/nasa/meteorite-landings
UFO Sightings UFO発見データ
https://www.kaggle.com/NUFORC/ufo-sightings
Open Exoplanet Catalogue 太陽系外惑星データ
https://www.kaggle.com/mrisdal/open-exoplanet-catalogue
Kepler Exoplanet Search Results 太陽系外惑星データ2
https://www.kaggle.com/nasa/kepler-exoplanet-search-results/kernels
NASAの太陽系外惑星探査ケプラー宇宙望遠鏡ミッション詳細
https://japanese.engadget.com/2018/03/15/9-4500/
(Others )
Anything you want! Pick something small in Kaggle.com or Google Data Set Serach