はじめに
Axross Recipeを運営している松田です。
今回は、Pythonライブラリの中でも可視化に優れたライブラリについて特長を解説し、それぞれのライブりを活用したアウトプット作成を通して学べるレシピをご紹介します。
Python可視化ライブラリの紹介
データ可視化(汎用)
###matplotlib
Pythonでグラフを描画したり、イメージを表示させたりする際に用いられるライブラリです。
matplotlibの公式チュートリアル:https://matplotlib.org/3.3.3/tutorials/index.html
matplotlibを用いたレシピの紹介
01 .matplotlibによるグラフ出力の"いろは"が学べるレシピ
Pythonのグラフ化ライブラリmatplotlibの様々な機能を使って、ビジネス活用できるグラフ可視化ノウハウを試しながら学べます。
投稿者:@pythonistaDさん
02 .TwitterAPIで最もいいねがつきやすい時間帯を分析するレシピ
PythonでTwitter APIからツイートを取得・解析し、投稿された時間帯ごとにいいね数を集計し、matplotlibでヒストグラム可視化します。
投稿者:@ベナオさん
03 .App Storeのカスタマーレビューを集計してヒストグラムを作って比較評価するレシピ
PythonでPayPayのApp Storeカスタマーレビューデータを取得し、その傾向をmatplotlibを使ってヒストグラム等でグラフ可視化します。それぞれのレビュー傾向を比較評価することで、フェイクレビューを予測します。
投稿者:@ベナオさん
04 .ベネズエラの現状からインフレ・デフレを理解するレシピ
numpypandas,pandas,matplotlibを使用して、ベネズエラを通してインフレとデフレについての学習や現状の分析をします。
本レシピを通して興味のある国について自分でも分析できるようになるのを目指していきます。
投稿者:@中村真裕さん
###pandas
データ解析を支援する機能を提供するライブラリです。数表および時系列データを操作するためのデータ構造と演算の際に用いられます。
pandasの公式チュートリアル:https://pandas.pydata.org/docs/getting_started/intro_tutorials
pandasを用いたレシピの紹介
05 .脅威の無料AutoML「Pycaret」でKaggleに挑むレシピ
Auto MLのPythonライブラリPycaretを使用して、自動でデータ処理や予測精度の高い機械学習モデルの選定を行い、タイタニック号の生存者予測のデータ分析を行います。
投稿者:@Micolashさん
06 .ECサイトのレビューからブランド信者を育成するレシピ
pandas、matplotlib、seaborn等のPythonライブラリとsklearn(機械学習)を使って、ECサイトのレビューから頻繁に利用してくれる顧客の声をキャッチし、注力すべき顧客を特定し、そのフィードバックをもとに次の施策考案に活用するマーケティング分析を行います。
投稿者:@中村真裕さん
07 .Campfireでプロジェクトを分析し作戦を考案するレシピ
pandas、matplotlib、seaborn等のPythonライブラリとsklearn(機械学習)を使って、Campfireから複数のプロジェクトをスクレイピング、機械学習を取り入れながら成否を分ける要素を分析し成功させるための方法を学びます。
投稿者:@中村真裕さん
plotly
出版物レベルの品質でグラフを作成するライブラリです。折れ線グラフ、散布図、面積図、棒グラフ、エラーバー、箱ひげ図、ヒストグラム、ヒートマップ、サブプロット、複数軸、極座標図、バブルチャートの作成時に用いられます。
plotlyの公式チュートリアル:https://plotly.com/python/plotly-fundamentals/
Plotlyを用いたレシピの紹介
08 .独自グラフを作成したいときのオープンデータ活用 ~新規陽性者数と重症患者数の関係~
Pythonを使ってオープンデータの取得から前処理、データ分析を行い、plotlyで理想の独自グラフを作成する方法を解説します。
実際に「新規陽性者数と重症患者数の関係」をオープンデータから可視化して分析します。
投稿者:@su2umaruさん
09 .信頼できるデータが必要なときのオープンデータ活用 ~緯度・経度との組み合わせによる地図上への可視化~
Pythonで東京都の新型コロナウイルス感染症対策サイトのオープンデータと地図情報(経度・緯度のデータ)を取得し、前処理、plotlyによるデータの可視化を行います。
信頼できるデータが必要なときにオープンデータを活用して、短時間で地図へのデータ可視化と分析ができるようになります。
投稿者:@su2umaruさん
###seaborn
matplotlibをベースにしたPythonのデータ可視化ライブラリです。情報量の多い統計グラフィックを描画するために用いられます。
seabornの公式チュートリアル:https://seaborn.pydata.org/tutorial.html
seabornを用いたレシピの紹介
10 .Pythonを使ったクラスター分析による市場セグメンテーションレシピ
市場の細分化(=市場セグメンテーション)の概要と、Pythonによる主成分分析とクラスタリング分析、コレスポンデンス分析を用いたデータ分析テクニックを解説しています。
投稿者:@小林 猛さん
11 .Pythonと統計検定で、回帰モデルを用いて市場反応分析するレシピ
Pythonによる相関分析と回帰・重回帰モデルのデータ分析手法を用いて、マーケティング活動を表す変数(商品の価格・販売促進活動など)に対する市場の反応分析(売上、購買行動など)を行います。
投稿者:@小林 猛さん
12 .Pythonの因子分析による市場の発見と知覚マップ化を実践するレシピ
Pythonによる因子分析の概要とモデリング、そしてより細分化された階層クラスタリングとデンドログラムという手法の概要とコーディングを学ぶことができます。
投稿者:@小林 猛さん
地図可視化
###folium
Pythonのエコシステムのデータ操作の強みと、Leaflet.jsライブラリのマッピングの強みを活かしたライブラリです。データをLeafletマップ上で簡単に可視化する際に用いられます。
foliumの公式チュートリアル:https://python-visualization.github.io/folium/quickstart.html
Foliumを用いたレシピの紹介
13 .suumoの物件情報を取得・分析するレシピ
物件情報サイトsuumoから、東京23区の物件情報をクローリングで取得し、その物件情報(住所)をGeocoding APIによって緯度・経度に座標変換し、foliumを使って地図上にマッピング・情報を視覚化します。最終的には、物件の家賃と築年数の関係性を分析します。
投稿者:@runnerさん
###SIMPLEKML
地理データと関連コンテンツを格納するためのXMLベースの形式を生成するライブラリです。KML活用時の負担を軽減する際に用いられます。
SIMPLEKMLの公式チュートリアル:https://simplekml.readthedocs.io/en/latest/tutorials.html
SIMPLEKMLを用いたレシピの紹介
14 .位置情報を持つデータからKMLファイルを生成してマップ上にプロットするレシピ
地図空間データを記述するためにGoogle社が開発したKML(Keyhole Markup Language) と言われるファイルを生成し、 Pythonのプログラミングを使って、緯度、経度の位置情報を含むデータを、マップ上にプロットして可視化を行います。
投稿者:@katkazさん
###japanmap
日本の都道府県の地図をクリッカブルに表示するjQueryプラグインです。日本地図にデータを反映する際に用いられます。
japanmapの公式チュートリアル:https://takemaru-hirai.github.io/japan-map
Japan Mapを用いたレシピの紹介
15 .japanmapを活用した日本地図の可視化レシピ
日本の人口密度を題材に、Pythonによるオープンデータの取得、japanmapを使った日本地図上への可視化を行い、様々な角度から分析します。
投稿者:@su2umaruさん
テキスト可視化
###NetworkX
複雑なネットワークの構造、ダイナミクス、機能を作成、操作、研究するためのPythonパッケージです。
NetworkXの公式チュートリアル:https://networkx.org/documentation/stable/tutorial.html
NetworkXを用いたレシピの紹介
16 .売れ筋商品の特徴を共起ネットワークで可視化するレシピ
Pthonによる日本語テキストのテキストマイニングを試すことができます。簡易的なWebスクレイピング、テキストデータから単語の共起関係の抽出やNetworkX を利用した共起ネットワークの可視化を行います。
投稿者:@katkazさん
17 .材料の単語分散表現から知見を抽出するレシピ
材料系の膨大な論文をスクレイピングで学習し、mat2vec を使って材料同士の類似度を分析し、マテリアルズインフォマティクスにおいて、単語分散表現の機械学習モデルから人間が気づかなかった知見を抽出、NetworkX で可視化します。
投稿者:@mi-212さん
###Word Cloud
頻出語を頻度に比例する大きさで並べるライブラリです。品詞を絞ることで作品内の頻出名詞を可視化することも可能です。
WordCloudの公式チュートリアル:http://amueller.github.io/word_cloud/auto_examples/index.html
Word Cloudを用いたレシピの紹介
18 .1冊の本を1枚の画像で可視化するレシピ
青空文庫の書籍から日本語のテキストデータを収集し、PythonとMecabを使って形態素解析し、単語の頻出度に応じてWordCloudで1枚の画像として可視化します。
投稿者:@katkazさん
###fasttext
オープンソースの無料軽量ライブラリです。テキスト表現やテキスト分類法を学ぶ際に用いられます。
fastTextの公式チュートリアル:https://fasttext.cc/docs/en/supervised-tutorial.html
fasttextを用いたレシピの紹介
19 .文書の「あいまい検索」機能をつくるレシピ
word2vecの発展系 fasttextを使って、日本語文章の検索単語が完全に一致しなくても検索できる「あいまい検索」を実装します。このレシピでは、文章のベクトル化のためにfastTextを利用していますが、テキストの可視化ライブラリとしても活用できます。
投稿者:@ tdualさん
最後に
プログラミングは「習うより慣れろ、繰り返し演習すること」が重要です。
Axross Recipeのレシピを通して、プログラムの意味を考えながら写経(コードを実際に書き写す行為)し、実際に動くものをつくりながら学ぶことで、新たな知識の習得やスキルアップの一助になれれば幸いです。