#Scratchでデータサイエンス
MITメディアラボが開発している教育用のビジュアルプログラミング言語(プログラミング学習環境)であるScratchでオープンデータを扱ってみます.Scratchは「教育向け」や「ゲームを作る」という印象が強い気がしますが,ゲーム以外のことも色々できます.今回は簡易的なデータサイエンス・データ処理っぽいことをしてアプリを作ります!
###つくるもの
国の名前を入力するとその国の人口を教えてくれるアプリを作ります.
###環境(つかうもの)
・Scratch3.0(ブラウザ版)
・Googleスプレッドシート
・オープンデータ(エクセル形式)
###オープンデータ
今回使うデータは国連の人口データにします.
1番上のものを使います.世界人口の男女含まれるものです.クリックするとエクセルのファイルがダウンロードされます.開くとこんな感じ(エクセルがPCに入っていない方はGoogleDriveに上げてから開いてください).
どんなデータを使うかで方法は変わりますが,今回はこのファイルのC列の「国名」と
BZ列の「2020」年の人口予想のデータを使います.
###データ処理
Googleスプレッドシートで作業します.
先ほどのC列(国名)とBZ列(2020年の人口)をそのままスプレッドシートに貼り付けます.
見づらいしデータが整理されていなくてきたないですね.少し整えます.この辺のブランクや余計な項目を削除します.
見やすくなりました.
さらにここから黄色くなっている見出し部分や使わない項目(例えば2行-17行はごそっといらない)を削除していきます.
見出しと国名以外の項目は1番下の行まで全部消します.ただ,「World」や「Africa」など大きい枠組みでの地域名は面白そうなので残します.この辺りはお好みで.値がずれてしまうと困るので削除するときは必ず行ごと消してください.
不必要な項目を削除して見やすくしました.ただしこのままだと数字の間に空白が入っていて使いづらいです.なので空白は全て削除します.C列の1番上の行に以下の関数を入れます.
=SUBSTITUTE(SUBSTITUTE(B1," ","")," ","")
あとは1行目を下にぐいっと引っ張れば他の行にも適用できます.
次に気になるのは数値です.1行目の「World」の人口が少なすぎます.実際は「7794799 k」ということですかね.なのでとりあえず全部の値に1000掛けます.
で,全部に適用.それっぽくなりました!
これでデータをうまく整形できました!
最後に,Scratchに取り込めるようにスプレッドシートで作成したデータをCSV形式でエクスポートします.
これでようやくScratchでオープンデータを扱う準備ができました!以上でデータ処理はおわりです!
###Scratchでデータを読み込む
先ほどのCSVファイルを読み込みます.ScratchでCSVを読み込む際にはリストを使うので,リストを作ります.国の名前を入れるとその人口を答えてくれるアプリを作るので,それとわかる名前でリストを作っておきます.
ここでは「country_name」と「population」の二つです.
空のリストが作成されました.
次にこのリストを右クリックすると「読み込み」という項目がでるのでそれを選択します.
何列目を読み込むか聞かれるので該当する列を入力しましょう.上のスプレッドシートの通りであれば「country_name」は「1列目」,「population」は「4列目」のはずです.これでScratchに国名とその人口を取り込むことができました!
データの整形をしておいたので番号(ID)で国と人口が紐づいています.あとはプログラムを書けば(Scratchなので組み立てれば)簡単にアプリを作ることができます!
###国名を入力すると人口を出力するプログラム
実際に作ったものはこちらです.プログラム自体は非常にシンプルです.プログラムについては実際のものをみてもらう方がいいと思いますが,現在の実装をざっくり説明すると・・・
step1. 国名を入力
step2. 入力された国名にあたるまでリスト「country_name」の中を上から探索
step3. その際,番号(ID)をカウント
step4. 一致があればストップ
step5. カウントされた番号(ID)に該当する値をでリスト「population」の中から選び出力
というアルゴリズムになっています.関数などを自作しなくてもScratchの組み込みの機能だけでできます.
この程度のブロック数でできますが,もっとシンプルに書ける気もします.
実際のアプリは言語の選択ができたり,デザインやBGMも付けているのでもっと別のブロックもあったりします.
また,入力はキーボードから受け取っているので国名を正確に入力(大文字小文字を区別したり)しなくてはならないのでまだまだ改良の余地ありです.
###まとめ
Scratchは教育用のイメージがありますが,やろうと思えばいくらでも複雑なことができます.スプレッドシートとScratchを使えば,ちょっとしたデータサイエンスに触れることができます!今回は,
・スプレッドシートを使った簡単なデータの整形
・Scratchでの読み込み
・Scratchのリストでデータを扱う
というのを試しました.
とっても楽しいのでデータを変えていろいろ試してみるのがオススメです!「こういうデータを使ってこんな面白いことできるよ!」というアイディアたくさん募集中です!
###Reference & Acknowledgement
- Scratch, https://scratch.mit.edu/.
- United Nations "Population Division", https://www.un.org/en/development/desa/population/index.asp.