はじめに
この記事では、Pythonを使用してCOVID-19のデータをインターネット上から取得し、SQLiteデータベースに保存し、その後抽出する方法について説明します。Pythonが初めての方でも理解できるように、コードの各部分を詳しく説明します。
※実装環境: Jupyter Notebook
なお、データベースとは、大量の情報を効率的に管理するためのシステムです。今回はSQLiteというデータベース(DB)を使用します。SQLiteは軽量で高速なオープンソースのリレーショナルデータベースで、Pythonとの連携も容易です。
また、本記事で使用するデータは公開されているものであり、法的な制約はありませんが、取得したデータを適切に管理し、第三者に漏洩させないよう注意してください。
COVID-19データの取得
まずは、COVID-19のデータをAPIから取得します。APIとは、アプリケーション間で情報をやり取りするためのインターフェースのことを指します。この場合、COVID-19 Data APIというインターネット上のサービスからデータを取得します。
以下にそのためのPythonコードを示します。
# 必要なライブラリをインポートします
import requests
import pandas as pd
import sqlite3
# COVID-19 Data APIのURL
URL = "https://api.covid19api.com/dayone/country/japan" # ここでは日本のデータを取得します
# APIからデータを取得します
response = requests.get(URL)
# 応答が成功した場合のみデータを処理します
if response.status_code == 200:
data = response.json() # データをJSON形式で読み込みます
df = pd.DataFrame(data) # データをpandasのDataFrameに変換します
このコードの説明は以下の通りです。
-
import文:
requests
はHTTPリクエストを行うためのモジュールで、pandas
はデータ解析を支援する機能を提供するライブラリで、sqlite3
はPythonからSQLiteDBを操作するためのモジュールです。 - URL: これはCOVID-19 Data APIのURLを指定しています。ここでは日本のデータを取得します。
-
requests.get(url): 指定されたURLからHTTP GETリクエストを送信してデータを取得します。このリクエストに対する応答は
response
に格納されます。 - response.status_code: HTTP応答のステータスコードをチェックします。200はリクエストが成功したことを示します。
- response.json() : 応答をJSON形式で読み込みます。JSONはJavaScript Object Notationの略で、データ交換形式の一つです。
- pd.DataFrame(data): ここでは、取得したデータをpandasのDataFrameに変換します。DataFrameはpandasの主要なデータ構造で、2次元のラベル付きデータ構造を提供します。
データの保存
次に、取得したデータをSQLiteDBに保存します。
# SQLiteDBに接続(存在しない場合は新しく作成)します
conn = sqlite3.connect('covid19_data.db')
# DataFrameをSQLiteDBに保存します
df.to_sql('covid_data', conn, if_exists='replace', index=False)
# DBの接続を閉じます
conn.close()
このコードの説明は以下の通りです。
- sqlite3.connect('covid19_data.db'): これはSQLiteDBに接続します。指定したDBが存在しない場合は新しく作成されます。
-
df.to_sql('covid_data', conn, if_exists='replace', index=False): DataFrameのデータをSQLiteDBに保存します。テーブル名は
covid_data
としています。もし同名のテーブルが既に存在する場合は、それを置き換えます(if_exists='replace')
。また、DataFrameのインデックスは保存しないように設定しています(index=False)
。 - conn.close(): DBとの接続を閉じます。
データの抽出
最後に、保存したDBスからデータを抽出します。
# SQLiteDBに接続します
conn = sqlite3.connect('covid19_data.db')
# SQLクエリを実行してデータを抽出します
df = pd.read_sql('SELECT * FROM covid_data', conn)
# DBの接続を閉じます
conn.close()
# 結果を表示します
print(df)
このコードの説明は以下の通りです。
-
pd.read_sql('SELECT*FROM covid_data', conn): 指定したSQLクエリ(*:全てのデータを抽出するクエリ)を実行し、その結果をDataFrameに読み込みます。SQLは、リレーショナルDBからデータを操作したり取得したりするための言語です。このクエリは、
covid_data
テーブルから全てのデータを抽出します。 - print(df): 結果を表示します。ここでは取得したデータ全体を表示していますが、実際には特定の列や行を抽出することが多いです。
まとめ
この記事では、Pythonを用いてCOVID-19のデータを取得し、SQLiteDBに保存し、そのDBからデータを抽出する手順について詳しく説明しました。これらの手順は、データ分析や機械学習の初歩的な部分を理解するための基礎となります。これらの概念と手順を理解すれば、さまざまなデータソースからデータを取得し、それを効率的に処理して分析する能力を身につけることができます。
ただし、取得したデータは適切に管理し、特に個人情報などの機密情報を含む場合には第三者に漏洩しないよう注意が必要です。また、データを取得する際には、そのデータの提供者の規約や法的な制約を遵守することも重要です。
Pythonやデータ分析、DBの操作についてさらに学びたい方は、Pythonの公式ドキュメンテーションや各種オンライン教材を参照してみてください。これらのリソースは、初学者から上級者まで幅広いレベルの学習者に対して豊富な情報を提供しています。
最後に
最後まで記事を読んでいただきありがとうございます!
この記事があなたのPythonの学習に少しでも役立ったら、"いいね"を押していただけると嬉しいです!これからも役立つ情報をお届けするので、ぜひフォローお願いいたします!。
また、私が独学でPythonエンジニアになった方法を元に、1年間の独学ロードマップとスケジュールを下記に紹介していますので、どうぞご覧ください!
1年でPythonエンジニアになる!独学でスキルアップするためのロードマップとスケジュール