1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

pythonの業務自動化で東京オリンピックメタル情報を毎日受信してみましょう

Last updated at Posted at 2021-08-03

当記事で実現していること

  • webから毎日のオリンピックメタルランキング(TOP10)の情報を取得する
  • 取得した情報はEXCELに保存する
  • オリンピック開始日から当日分のメタルランキング(TOP10)をEXCELから取得する
  • 当日のメタルランキング(TOP10)をグラフで表示する
  • メタルランキング(TOP10)の毎日のメタル推移をグラフで表示する
  • 当日のメタルランキング(TOP10)の情報、上記作ったグラフを毎日一定時間に自動でメールでお知らせする

当記事で共有する機能

  • pythonでWEBからデータ取得
  • pythonでEXCELにデータ書き込みとEXCELからデータ読み取り
  • pythonで表データをグラフで表示する
  • pythonでメール送信する「添付ファイルなし」
  • pythonでメール送信する「添付ファイルあり」
  • windowsのスケジューラの使い方

早速作りましょう

必要なライブラリ

tokyo2020.py
# 使てない物もあるかもしれません
import sys
from datetime import date
import pandas as pd
import openpyxl
import matplotlib.pyplot as plt
import matplotlib.style
import smtplib, base64
from email.message import EmailMessage
from email.mime.multipart import MIMEMultipart
from email.mime.text import MIMEText
from email.mime.application import MIMEApplication
from email.mime.base import MIMEBase
from email.header import Header
from email.utils import formatdate
from email import encoders
import os.path

オリンピックメタルランキング(TOP10)の情報を取得する関数

tokyo2020.py
def read_olympic_info_from_web():
    # 公式サイトから情報を取得
    url = 'https://olympics.com/tokyo-2020/olympic-games/ja/results/all-sports/medal-standings.htm'
    df = pd.read_html(url)
    #コンテンツの中からTOP10位の情報を取得
    olympic_info = df[0].head(10)
    # カラム名を整理
    olympic_info = olympic_info.rename(columns={'チーム/NOC': 'チーム', 'Unnamed: 2': '', 'Unnamed: 3': '','Unnamed: 4': '',})
    return olympic_info

公式サイトは:東京2020オリンピック公式ウェブサイト
サイト(リソース)の中から一番目をtable要素から前頭の10行を選択
カラム名を自分で分かりやすいように整理する
処理後データを返す

取得したデータをEXCELに保存する

まずEXCELのサンプルをpyファイルがあるディレクトリに作成する、以下のように

tokyo2020
|----tokyo2020.xlsx
|----tokyo2020.py

次にtokyo2020.xlsxの中にサンブルシートを作成する、以下のように

image.png

表のタイトルとwebデータの整理したカラム名を同様こと

EXCELにデータを書き込み

tokyo2020.py
def write_olympic_info_to_excel():
    olympic_info = read_olympic_info_from_web()
    # mm-dd形式で毎日のシートを作成、情報を保存する
    today = date.today()
    my_date = str(today.month) + '-' + str(today.day)
    wb = openpyxl.load_workbook('tokyo2020.xlsx')
    sheet = wb.copy_worksheet(wb['サンブル'])
    sheet.title = my_date
    # データ書き込み
    for i,row in olympic_info.iterrows():
        index = i + 2
        sheet.cell(row = index, column = 1).value = row['順位']
        sheet.cell(row = index, column = 2).value = row['チーム']
        sheet.cell(row = index, column = 3).value = row['']
        sheet.cell(row = index, column = 4).value = row['']
        sheet.cell(row = index, column = 5).value = row['']
        sheet.cell(row = index, column = 6).value = row['合計']
        sheet.cell(row = index, column = 7).value = row['合計別順位']
        sheet.cell(row = index, column = 8).value = row['NOCコード']
        sheet.cell(row = index, column = 9).value = my_date
    wb.save('tokyo2020.xlsx')

「サンプル」シートをコピーして別シート作成している
新規作成したシート名を当日の日付(mm-dd)で命名している
WEBから取得したデータをループして行ごとにEXCELシートに書き込んでいる
既存の'tokyo2020.xlsxを上書き

データをEXCELから読み取り

tokyo2020.py
def read_olympic_info_from_excel():
    input_file = pd.ExcelFile('tokyo2020.xlsx')
    sheet_names = input_file.sheet_names
    # workbookの全てのシートから情報を読み込み
    dic = pd.read_excel('tokyo2020.xlsx', sheet_name = sheet_names)
    olympic_info = pd.concat(dic, axis=0, ignore_index=True)
    return pd.DataFrame(olympic_info, columns = ['順位','チーム','','','','日程'])

すべてのシートのデータを取得してPandasのDataFrameに変換している
変換後のDataFrameから必要な情報を取得する
取得したデータを返す

TOP10のチーム情報をグラフで表示

tokyo2020.py
def olympic_info_show_barh():
    # 最新オリンピック情報を取得
    olympic_info = read_olympic_info_from_web()
    olympic_info = pd.DataFrame(olympic_info, columns = ['順位','チーム', '']).sort_values(by='',ascending=True)
    # 最新情報をまとめて描画
    fig, ax =plt.subplots()
    ax.barh(olympic_info['チーム'], olympic_info[''], color='teal', label = '金メタル数')
    ax.legend()
    # 画像を表示
    #plt.show()
    # 画像を保存
    plt.savefig('tokyo2020.png') 

ここは直接WEBから取得したデータを使っている
グルーピング処理でチーム毎日の取得した,,の数字を分割している
横棒グラフでランキング金メタルの数の大き準で表示する

tokyo2020.png

TOP10のチーム情報をグラフで表示「チーム別」

tokyo2020.py
def olympic_info_show_plot():
    # 最新オリンピック情報を取得
    olympic_info_from_web = read_olympic_info_from_web()
    # excelに保存したデータを読み込み
    olympic_info = read_olympic_info_from_excel()
    # チーム、日程でグルーピング
    olympic_info = olympic_info[['順位','', '','']].groupby([olympic_info['チーム'], olympic_info['日程']])
    olympic_info = olympic_info.sum().reset_index()
    # 折れ線グラフのスタイルを設定
    matplotlib.style.use('ggplot')
    for i in range(0,10):
        fig, ax = plt.subplots()
        # チーム別にデータを取得
        data = olympic_info[olympic_info['チーム'] == olympic_info_from_web.iloc[i,1]]
        # 折れ線グラフ描画
        ax.plot(data['日程'], data[''], color='#FFCC00',marker='o', label='')
        ax.plot(data['日程'], data[''], color='#33CCFF', marker='o', label='')
        ax.plot(data['日程'], data[''], color='#990000', marker='o', label='')
        ax.set_title(olympic_info_from_web.iloc[i,1])
        ax.legend()
        #plt.show()
        plt.savefig(olympic_info_from_web.iloc[i,1] +'.png') 

ここはEXCELから取得したデータを使っている
グラフのタイトルにWEBから取得したデータをチーム名を表示している
横軸は日程、縦軸はメタル数
折れ線グラフで金メタル、銀メタル、どうメタルの毎日獲得した数を描画

アメリカ合衆国.png

中華人民共和国.png

日本.png

英国.png

ROC.png

オーストラリア.png

イタリア.png

ドイツ.png

フランス.png

オランダ.png

メール送信「添付ファイルあり」

tokyo2020.py
def send_olympic_info_temp(title, html) :
    # 各種情報
    mail_to   = "送信先"
    mail_from = '送信元'
    password = 'パスワード'

    # STMPサーバ設定
    smtp_server = 'smtp.gmail.com'
    port = 587

    # サーバに接続
    server = smtplib.SMTP(smtp_server, port)
    server.starttls()
    server.login(mail_from, password)

    #送信準備
    #msg = MIMEMultipart('alternative')
    msg = MIMEMultipart()
    #msg = MIMEMultipart()
    msg['Subject'] = title
    msg['From'] = mail_from
    msg['To'] = mail_to
       
    related = MIMEMultipart('related')
    alt = MIMEMultipart('alternative')
    related.attach(alt)
    
    part = MIMEText(html, 'html')
    msg.attach(part)
    
    # 最新オリンピック情報を取得
    olympic_info_from_web = read_olympic_info_from_web()
    
    try:
        # 添付ファイルの追加「TOP10チーム金メタルランキング」
        with open('tokyo2020.png', mode='rb') as png:
            png_data = png.read()
            attach_file = MIMEApplication(png_data)
            attach_file.add_header('Content-Disposition', 'attachment', filename='tokyo2020.png')
            msg.attach(attach_file)
        
        # 添付ファイルの追加「TOP10チーム別日推移メタル数」
        for i in range(0,10):
            team_name = olympic_info_from_web.iloc[i,1]
            with open(f'{team_name}.png', mode='rb') as png:
                png_data = png.read()
            attach_file = MIMEApplication(png_data)
            attach_file.add_header('Content-Disposition', 'attachment', filename=team_name + '.png')
            msg.attach(attach_file)
                
        # メール送信
        try:
            server.send_message(msg)
        except:
            print('本日のオリンピック情報送信完了できませんでした。')
        else:
            print('本日のオリンピック情報送信完了しました。')
            
    except FileNotFoundError:
        print('ファイルがありませか送信しませんでした。')
    finally:
        # SMTP セッションの終了と TCP コネクションの切断
        server.quit()

ここ送信元メールはGmailを使っている
グラフのタイトルにWEBから取得したデータをチーム名を表示している
送信内容は上記で取得したWEBデータと作ったグラフの画像
メール送信時は`send_olympic_info_temp(title, html) 'の引数にデータを渡す(例:title:本日のオリンピックメタル情報、html:WEBから取得したデータをHTML形式で渡す)

コードを定期(毎日)実行する

image.png

  • Windowsのスケジューラツールを使って上記のtokyo2020.pyを毎日の一定時間に自動で実行するようにスケジューリングする
  • Windowsのスケジューラでの設定方法はネットでたくさんあるのでそちらを参照してください、本記事で割愛

最後に

  • もっといいやり方があるかもしれません
  • 記事の中に間違いがあるかもしれません、見つかったら指摘お願い。。
1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?