Help us understand the problem. What is going on with this article?

(保存版:随時更新)データ分析ハッカソンやる時の便利なチュートリアル集 by Team AI

我々Team AIは渋谷で毎日機械学習勉強会・データ分析ハッカソンを開催しています。
コミュニティを東京中心の100万人にするのが目標です。

日本中・世界中にこのデータ分析のムーブメントが広がると良いなと思っているので、
データ分析ハッカソンをやるときに便利なチュートリアルをまとめました。
とても楽しいので、皆さん、特に地方の皆さんは是非ご自身でやってみてくださいね!
Team AIとしても協力します。

FullSizeRender (8).jpg

初めての方は下記でKaggle/特にKernelの使い方をざっと眺めてください

まずはこれを観て! 石井が作ったKaggle Kernel機能の解説(生産性が上がります!)=>
https://www.youtube.com/watch?v=HkJmnpBjiI0

https://www.codexa.net/what-is-kaggle/

http://luvtome.blog5.fc2.com/blog-entry-644.html

DataSetが沢山並んでいるここで、いいねが沢山ついている興味あるデータセットをクリックしてみて下さい。DataSetはキーワード検索する事もできます。
https://www.kaggle.com/datasets

専業Kagglerカレーちゃんさんの詳細なKaggle解説;
https://note.mu/currypurin/n/nf390914c721e

カレーちゃんはTwitterでもKaggle情報発信されています;
https://twitter.com/currypurin

スクリーンショット 2018-09-06 19.21.27.png

2018/9/6

Googleよりデータセットの横断検索エンジンが発表 すごい便利です
https://toolbox.google.com/datasetsearch

Kaggleって何?

Kaggle事始め
http://qiita.com/taka4sato/items/802c494fdebeaa7f43b7

データサイエンティストを目指して勉強するなら、Kaggleからはじめよう

http://qiita.com/KIKUYA-Takumi/items/13ac849582318f559271

Kaggle Slack Group

Global Group 3000人
https://kagglenoobs.herokuapp.com/

日本のグループ ハイレベル中心に400人
http://kaggler-ja.herokuapp.com/

Fintech Data Hackathon

我々が使っているデータセット

Bitcoin Price Prediction (LightWeight CSV)
https://www.kaggle.com/team-ai/bitcoin-price-prediction

Uniqlo (FastRetailing) Stock Price Prediction

https://www.kaggle.com/daiearth22/uniqlo-fastretailing-stock-price-prediction

Foreign Exchange (FX) Prediction - USD/JPY
https://www.kaggle.com/team-ai/foreign-exchange-fx-prediction-usdjpy

Foreign Exchange(FX) Prediction - EUR/USD
https://www.kaggle.com/meehau/EURUSD/kernels
かなり丁寧に書かれたKernel => 予測精度99.7%は本当でしょうか??
https://www.kaggle.com/daiearth22/eurusd-15-minute-interval-price-prediction?scriptVersionId=8708587

Kaggle datasets in finance category (competitionはデータが重いです)
https://www.kaggle.com/tags/finance

Credit Card Fraud
クレジットカードの詐欺検知データ (66MBなので重め)
https://www.kaggle.com/mlg-ulb/creditcardfraud

StockPrice and News
ニュースと株価の相関分析(6MB)
https://www.kaggle.com/aaron7sun/stocknews

Loan Data for risk analysis
貸付リスク計算データ (6KB 軽め)
https://www.kaggle.com/zhijinzhai/loandata

Loan Data for risk analysis(heavy data)
貸付リスク計算データ (240MBvery heavy )
https://www.kaggle.com/wendykan/lending-club-loan-data

読むと良いブログ

為替をDeepLearningで予測してみた話
http://qiita.com/ognek/items/1b776d504d20bd6f6d7d

Twitter感情分析で株価予測の論文を検証したら約70%の精度で上下予測できた
http://qiita.com/ryo_grid/items/5a5ecc602186a3381c87

PythonというかMatplotlibでスケールや単位の異なる時系列データを整形して表示する
http://qiita.com/zaburo/items/00f364422ef3fe64f156

2018/10/19追記

インドの金融データ提供会社;
https://www.quandl.com/

デイトレーダーの方からかなり有益な情報を頂きました

株価予測をデータの前処理からLSTMでのトレーニングまで一気にやっちゃうAlphaAIのオープンソースプロジェクト - 98%の精度
https://github.com/VivekPa/AlphaAI

Finance x Python のもくもく会FinPy
https://fin-py.connpass.com/

Quantopianもくもく会
https://quantopian-tokyo.connpass.com/

手数料ゼロの株取引アプリStream
https://smartplus-sec.com/stream/

PythonデイトレーダーどりらんさんTwitter
https://twitter.com/patraqushe?lang=en

デイトレエンジニアしんせいたろうさんTwitter
https://twitter.com/shinseitaro

2018/9/21 FinTech追記

無料でも使える投資家支援アプリMyTrade
https://mytrade.jp/

経済危機を異常検知のコンセプトで予測するDragonKing理論(BlackSwanに似て非なる)
https://www.ted.com/talks/didier_sornette_how_we_can_predict_the_next_financial_crisis/transcript?language=ja#t-6583

DragonKing理論論文
https://arxiv.org/abs/0907.4290

2018/2/16 追加

カード支払い不履行データをExcelで分析してみた(今更聞けない統計学)
https://medium.com/team-ai-math/data-analysis-by-excel-b90fcbd7f4fe

海外のFinTech投資調査25社 Jan 2018
https://medium.com/team-ai-fintech/fintech-investment-jan-35d2424f22f4

注目の海外FinTechサービス事例20
https://medium.com/team-ai-fintech/fintech-startups-20-2c21b27ea003

Medical Data Hackathon

Synchronized brainwave dataset 脳波
https://www.kaggle.com/berkeley-biosense/synchronized-brainwave-dataset

Breast Cancer Wisconsin (Diagnostic) Data Set 乳がん
https://www.kaggle.com/uciml/breast-cancer-wisconsin-data

Hospital General Information 病院
https://www.kaggle.com/cms/hospital-general-information

Zika Virus Epidemic ジカ熱
https://www.kaggle.com/cdc/zika-virus-epidemic

Cervical Cancer Risk Classification 子宮頸がん
https://www.kaggle.com/loveall/cervical-cancer-risk-classification

Medical Appointment No Shows 患者のドタキャン分析
https://www.kaggle.com/joniarroba/noshowappointments

Mental Health in Tech Survey テック業界のメンタルヘルス
https://www.kaggle.com/osmi/mental-health-in-tech-survey

2018/6/18 Medical Dataハッカソンより追加

Googleのいけてるデータ可視化ツールFACETS
https://pair-code.github.io/facets/

RandamForestのRegressorで変数の重要度をざっくり検出(便利!)
http://scikit-learn.org/…/sklearn.ensemble.RandomForestRegr…

取得データの概要がつかめるPands Profiling
https://wonderwall.hatenablog.com/entry/2018/02/12/171500

医薬のオープンデータDrugBank
https://www.drugbank.ca/

タンパク質のオープンデータProtein Bank
https://www.rcsb.org/

Googleの無料GPUクラウドColaboratoryが超便利
http://itsukara.hateblo.jp/entry/2018/02/05/214949

NASA/Space Data Hackathon

Exoplanet Hunting in Deep Space 惑星探査データ
https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data

Solar Radiation Prediction 太陽の放射線データ
https://www.kaggle.com/dronio/SolarEnergy

Climate Change: Earth Surface Temperature Data 地球の表面温度データ
https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data

Meteorite Landings 隕石の衝突データ
https://www.kaggle.com/nasa/meteorite-landings

UFO Sightings UFO発見データ
https://www.kaggle.com/NUFORC/ufo-sightings

Open Exoplanet Catalogue 太陽系外惑星データ
https://www.kaggle.com/mrisdal/open-exoplanet-catalogue

Kepler Exoplanet Search Results 太陽系外惑星データ2
https://www.kaggle.com/nasa/kepler-exoplanet-search-results/kernels

NASAの太陽系外惑星探査ケプラー宇宙望遠鏡ミッション詳細
https://japanese.engadget.com/2018/03/15/9-4500/

2018/12/23追加

さくらインターネットの人工衛星データ活用の仕組みTellus
https://www.sakura.ad.jp/information/pressreleases/2018/07/31/1968197591/

Google Earth API
https://developers.google.com/earth-engine/

Marketing/Retail Data Hackathon

Springleaf Marketing Response ダイレクトメールの反応分析 150MB
https://www.kaggle.com/c/springleaf-marketing-response/kernels

Coupon Purchase Prediction リクルートのポンパレのデータ
https://www.kaggle.com/c/coupon-purchase-prediction

Airbnb New User Bookings Airbnbの予約データ分析
Where will a new guest book their first travel experience?
https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings

Rossmann Store Sales 小売店売上予測
https://www.kaggle.com/c/rossmann-store-sales/data

Home Depot Product Search Relevance
Predict the relevance of search results on homedepot.com
https://www.kaggle.com/c/home-depot-product-search-relevance

Acquire Valued Shoppers Challenge
Predict which shoppers will become repeat buyers
https://www.kaggle.com/c/acquire-valued-shoppers-challenge

Getting real about fake news
https://www.kaggle.com/mrisdal/fake-news

Starbucks Locations Worldwide
https://www.kaggle.com/starbucks/store-locations

Retail rocket recommendation system dataset
https://www.kaggle.com/retailrocket/ecommerce-dataset

Grupo Bimbo Inventory Demand 食品の売上最適化と返品の最小化 (Trainデータ3GBデータあり)
Maximize sales and minimize returns of bakery goods
https://www.kaggle.com/c/grupo-bimbo-inventory-demand

Innerwear Data from Victoria's Secret
https://www.kaggle.com/PromptCloudHQ/innerwear-data-from-victorias-secret-and-others

NLP(自然言語処理) Data Hackathon

自然言語処理チュートリアル =>
https://qiita.com/daisuke-team-ai/items/d2e18f07a08d9b4cb783

NLPの代表的なアプローチまとめ + コード (Kaggle Kernel) オススメ

https://www.kaggle.com/abhishek/approaching-almost-any-nlp-problem-on-kaggle

NLP Data;

Shinzo Abe Twitter Data(安倍首相のTwitterデータ)
https://www.kaggle.com/team-ai/shinzo-abe-japanese-prime-minister-twitter-nlp/version/1

World News on Reddit
掲示板上のニュースデータ解析
https://www.kaggle.com/rootuser/worldnews-on-reddit

South Park Dialogue
アニメ作品台本のセリフデータから話者を特定
https://www.kaggle.com/tovarischsukhov/southparklines

Deep NLP
Chatbotと履歴書データの解析
https://www.kaggle.com/samdeeplearning/deepnlp

Python Questions from StackOverFlow
プログラミングQ&AサイトのPythonに関する質問分析
https://www.kaggle.com/stackoverflow/pythonquestions

Japanese English Bilingual Corpus(日本語と英語のWikipediaコーパス)
https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus

Japanese lemma frequency 日本語の頻出語15000リスト
A list of the 15,000 most common word forms in Japanese
https://www.kaggle.com/rtatman/japanese-lemma-frequency

Japanese Whisky Review Dataset(英語ですが日本のウイスキーのレビュー)
1,000+ Reviews of Japanese Whisky
https://www.kaggle.com/koki25ando/japanese-whisky-review

(上級者向け) Q&AサイトQuoraの類似質問を分類するコンペ
https://www.kaggle.com/c/quora-question-pairs

番外;トランプ大統領のTwitter AI => 話しかけると直ぐに答えてくれます!
https://twitter.com/TrumpSidekik
スクリーンショット 2018-10-10 20.51.26.png

HR Data

Kaggle ML and Data Science Survey, 2017 データ分析業界全体の分析
A big picture view of the state of data science and machine learning.
https://www.kaggle.com/kaggle/kaggle-survey-2017

U.S. Incomes by Occupation and Gender 性別による収入格差の分析
Analyze gender gap and differences in industry's incomes
https://www.kaggle.com/jonavery/incomes-by-career-and-gender

Daily Happiness & Employee Turnover 業績と社員幸福度の相関性分析
Is There a Relationship Between Employee Happiness and Job Turnover?
https://www.kaggle.com/harriken/employeeturnover

IBM HR Analytics Employee Attrition & Performance IBMの離職率分析
Predict attrition of your valuable employees
https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

Human Resources Analytics なぜ優秀な社員が離職するのか?という分析
Why are our best and most experienced employees leaving prematurely?
https://www.kaggle.com/ludobenistant/hr-analytics

2016 New Coder Survey 新人ソフトウエアエンジニア15000人分の属性データ
A survey of 15,000+ people who are new to software development
https://www.kaggle.com/freecodecamp/2016-new-coder-survey-

U.S. Incomes by Occupation and Gender 職業と性別による所得格差分析
Analyze gender gap and differences in industry's incomes
https://www.kaggle.com/jonavery/incomes-by-career-and-gender

参照すると良い記事

Pythonでk-db.comから時系列データを取得する

http://qiita.com/sawadybomb/items/03c3814268d3e2904e6c

オススメデータセット

英語も素晴らしい情報が揃っています

Google Translate for Chromeを入れれば一発で自動翻訳できます!

Quoraに時系列予測のノウハウがいっぱい載っています(FinTech向け);
https://www.google.co.jp/search?q=how+to+predict+time+series+quora&rlz=1C5CHFA_enJP747JP747&oq=how+to+predict+time+series+quora&aqs=chrome..69i57.8273j0j7&sourceid=chrome&ie=UTF-8

数理的アプローチ一覧

(保存版:ど素人向け) 機械学習/データ分析 読むべき記事リスト by Team AI

http://qiita.com/daisuke-team-ai/items/68f82f6502e06678c660

Pythonのパッケージ

Pandas

Official Site
http://pandas.pydata.org/
ゆるふわPandasチートシート

http://qiita.com/tanemaki/items/2ed05e258ef4c9e6caac

これだけ覚えておけばなんとかなるPandas

http://qiita.com/kojim/items/c56ec63063bec62bc5ed

Seaborn

Official Site
https://seaborn.pydata.org/

pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その1

http://qiita.com/hik0107/items/3dc541158fceb3156ee0

pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その2

http://qiita.com/hik0107/items/7233ca334b2a5e1ca924

matplotlib と Seaborn の軸の日本語設定

http://qiita.com/kshigeru/items/0cfc0778bab197687967

daisuke-team-ai
機械学習の勉強会を毎週渋谷の拠点で開催。Slack Pluginとしての同時翻訳Chatbot - Kiaraを世界市場に向けて販売しています。"機械学習エンジニアになりたい人のための本"(翔泳社) Profile : https://www.ishiid.com/
https://www.jenio.co/
team-ai
渋谷の機械学習研究会コミュニティ。データ分析ハッカソンを開催。Kaggleを使って金融・医療データなどをグループワークで分析しています。論文輪読会などテーマを決めて最新技術を共同リサーチしています。
https://www.team-ai.com/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした