1.なぜ作ったの?
QiitaでDiscordのタイムラインを見ていると、
Discordで原神のニュースを取得・通知するbotをつく (りたか) った
という記事を見かけて、Discord BOTにWebスクレイピングを組み込むのかー、なるほどー!と。
MMO FF14には公式でギルドメンバーを募集するウェブサイト コミュニティファインダーというものがあるのですが、掲示板的に投稿やコメントができるものの、新規コメントの通知は公式のユーザページにしかなく、新たなコメントに気づきにくいものでした。
先ほどの記事の実装と似た感じで、コミュニティファインダーの新規投稿を、Discord BOTにDMしてもらえば、気づくのが早くなるのでは?
という思いつきです。
2.実装
どこを対象にするかChrome 検証で確認しながら作成しました。
現状では古い投稿も全てDMされてしまいますが、古い投稿は削除する運用にしているので、まぁとりあえずいいか、と思っています。
discordbot.py (20240212)
import discord
from discord.ext import commands, tasks
import requests
from bs4 import BeautifulSoup
import os
# Webスクレイピング対象のURL
TARGET_URL = 'https://jp.finalfantasyxiv.com/lodestone/community_finder/*********'
@tasks.loop(hours=3) # 3時間ごとに実行
async def check_website():
try:
response = requests.get(TARGET_URL)
soup = BeautifulSoup(response.content, 'html.parser')
# 特定のクラスを持つ要素を選択
for news_item in soup.find_all('div', class_='cf-comment'):
comment__name = news_item.find('div', class_='cf-comment__header').get_text(strip=False)
comment__body = news_item.find('p', class_='cf-comment__body').get_text(strip=False)
embed = discord.Embed(title="FF14コミュニティファインダー新着メッセージ",description="新着メッセージがありました!")
embed.add_field(name="name",value=comment__name,inline=False)
embed.add_field(name="body",value=comment__body,inline=False)
user = await bot.fetch_user(*************) # 特定のユーザーのIDを指定
await user.send(embed=embed) # ユーザーにDMを送信
except Exception as e:
print(f'エラーが発生しました: {e}')
# Botが準備完了したときに実行されるイベント
@bot.event
async def on_ready():
print("bot is ready")
check_website.start() # タスクを開始
3.悩んだポイント
動いてそうだけど、DiscordのDMが来ないなー??
と思ったら、Discordがスパムと判断して、BOTからのDMを受け取らないようになっていたようでした。
BOT宛てに一度DMを送ると、BOTからユーザ宛てにDMが届くようになりました。
4.今後
- できれば差分でDM送信してくれるとありがたい。
- DMにキャラクターの画像とかも添付できたらかっこいいよね。
5.その後
やっぱりBOTからのDMはスパム扱いされるのか、送信されてこなくなるので、どうしたものかと考え中
普通にチャンネルに投稿しようかなぁ・・・
なら差分機能がほしくなるよねー
メンバーと他の人だと投稿した時のCSSのクラス設定が違っていて、正しく取得できていなかっただけでした。
6.非同期処理(20240213追加)
ぼんやりQiitaのタイムラインを眺めていると、
【23日目】コードは非同期処理で。【PythonでDiscordBOTを作ろう!】
という記事を見つけて。
なるほどWindowsのアプリのように、非同期処理でマルチタスクな感じにする方がいいよね!
というわけで、記事を参考にrequestsをaiohttpに書き直し。
requests_htmlというのを使うと非同期もWebスクレイピングもできそうだったけど、読み解くのが面倒だったのでBeautifulSoupのままです。
discordbot.py (20240213)
# Webスクレイピング対象のURL
TARGET_URL = os.getenv('TARGET_URL')
@tasks.loop(hours=1) # 1時間ごとに実行
async def check_website():
try:
async with aiohttp.ClientSession() as session:
async with session.get(TARGET_URL) as response:
data = await response.text()
soup = BeautifulSoup(data, 'html.parser')
# 特定のクラスを持つ要素を選択
for news_item in soup.find_all('div', class_='cf-comment'):
comment__name = news_item.find('div', class_='cf-comment__header').get_text(strip=False)
comment__body = news_item.find('p', class_='cf-comment__body').get_text(strip=False)
embed = discord.Embed(title="FF14コミュニティファインダー新着メッセージ",description="新着メッセージがありました!")
embed.add_field(name="name",value=comment__name,inline=False)
embed.add_field(name="body",value=comment__body,inline=False)
user = await bot.fetch_user(os.getenv('USER_ID')) # 特定のユーザーのIDを指定
await user.send(embed=embed) # ユーザーにDMを送信
except Exception as e:
print(f'エラーが発生しました: {e}')
# Botが準備完了したときに実行されるイベント
@bot.event
async def on_ready():
print("bot is ready")
check_website.start() # タスクを開始
7.差分送信(以下20240215追記)
新着有無がわかればいい、と思っていましたが、消してないコメントはずっとDM送信されてきてしまうのはやはり鬱陶しく、このままでは本当に新着メッセージがある時にDMを見ない、ということにもなりかねない、ということで差分の抽出に取り組みました。
なかなか思ったように動作せずいろいろ試行錯誤しましたが、うまく差分で送信できるようになりました。
import discord
from discord.ext import commands, tasks
import aiohttp
from bs4 import BeautifulSoup
import os
import pandas as pd
intents = discord.Intents.default()
intents.message_content = True
# bot = discord.Client(intents=intents)
bot = commands.Bot(command_prefix='!', intents=intents)
# Webスクレイピング対象のURL
TARGET_URL = os.getenv('TARGET_URL')
@tasks.loop(hours=1) # 1時間ごとに実行
async def check_website():
try:
async with aiohttp.ClientSession() as session:
async with session.get(TARGET_URL) as response:
com_html = await response.text()
soup = BeautifulSoup(com_html, 'html.parser')
data = []
user = await bot.fetch_user(os.getenv('USER_ID')) # 特定のユーザーのIDを指定
# 特定のクラスを持つ要素を選択
for news_item in soup.find_all('div', class_='cf-comment'):
comment__face = news_item.find('img')['src']
comment__name = news_item.find('div', class_='cf-comment__header').get_text(strip=False)
comment__body = news_item.find('p', class_='cf-comment__body').get_text(strip=False)
data.append({
'name':comment__name,
'body':comment__body,
'face':comment__face
})
new=pd.DataFrame(data)
if os.path.isfile('/tmp/scrap.pkl') == False:
old=pd.DataFrame({'name': ['a'],'body': ['a']})
else:
old=pd.read_pickle('/tmp/scrap.pkl')
merged_data = pd.merge(new,old,on=['name','body'],how='left', indicator=True)
new_entries = merged_data[merged_data['_merge'] == 'left_only']
for row in new_entries.to_dict(orient="records"):
embed = discord.Embed(title="FF14コミュニティファインダー新着メッセージ",url=TARGET_URL,description="新着メッセージがありました!")
embed.add_field(name='name',value=row['name'],inline=True)
embed.add_field(name='body',value=row['body'],inline=False)
embed.set_thumbnail(url=row['face'])
embed.set_footer(text="クロスワールドリンクシェル Holiday-AOMA メンバー募集")
await user.send(embed=embed) # ユーザーにDMを送信
new.drop(columns=['face']).to_pickle('/tmp/scrap.pkl')
except Exception as e:
print(f'エラーが発生しました: {e}')
# Botが準備完了したときに実行されるイベント
@bot.event
async def on_ready():
print("bot is ready")
check_website.start() # タスクを開始
差分苦労ポイント1:CSV入出力がそもそも使えない
PANDASではファイル入出力もあって、df.read_csv('hoge.csv')とか、df.to_csv('hoge.csv')で、csvへ読み書きできて、これまた便利なのですが、ファイル出力部分でエラーになっているような雰囲気。よくよく考えると、取得した名前部分が
コミュニティメンバー
Calocen RietiChocobo [Mana]
と改行が入っていることに気づきました。
BeautifulSoupで分割できないかと思いましたが、途中にタグが挿入してあり単純な分割が難しそうだったので、CSV以外の入出力方法をPANDAS公式のファイル入出力で確認。
pickel形式がpythonぽく、しかも応答も良さそうだったのでpickel形式にしました。
差分苦労ポイント2:PANDASデータフレームがなんか遅い
参考とした記事で、PANDASのデータフレームで新旧をマージしてLeft OUTERで差分抽出するような記述となっており、なるほどこれは直感的でわかりやすい、便利なライブラリがあるんだなーと思って下のような形で記述していたのですが、
for index, row in new_entries.iterrows():
embed = discord.Embed(title="FF14コミュニティファインダー新着メッセージ",url=TARGET_URL,description="新着メッセージがありました!")
embed.add_field(name='name',value=row['name'],inline=True)
embed.add_field(name='body',value=row['body'],inline=False)
embed.set_thumbnail(url=row['face'])
embed.set_footer(text="クロスワールドリンクシェル Holiday-AOMA メンバー募集")
await user.send(embed=embed) # ユーザーにDMを送信
このコードでは、うまくDiscordでDM送信できませんでした。
どうもembedにNullが渡されエラーとなっているような雰囲気、たぶん。
DM送信部分はawaitされ非同期処理ですが、その他の部分は同期処理となっているので、たぶんループよりDM送信が先に動こうとしてるのではないか?と予想して、調査。
Qiitaで検索してみると、iterrows() でのデータフレームの行単位のループが遅いらしいという記事が散見されました。
pandasのデータフレームを使用したfor文において脱iterrows()を試みたら実行時間が約70倍高速化した話
こちらの記事を参考に、iterrows()の代わりに、.to_dict(orient="records") として処理速度改善を試みました。
本当はループで行っているEmbedの代入処理を、gatherでの非同期処理にしたかったのですが、どのように実装すればいいのかわからず、早々に諦めてしまいました・・・できたらかっこよかったのになぁ。
差分苦労ポイント3:GAEでファイル書き出しができない?
pickelでの対応としていましたが、書き出しのところで読み取り専用というようなエラー。当初、ローカル環境で項目名だけ入った空のpickelファイルを作成しGAEにアップロードしていたので、GAEで作成するようにしてもエラー。
GAEではファイルの書き出しができないのか?と調べてみると、一時ファイルであれば/tmpで使えるとのこと。あまり深く考えずルートに作成しようとしていたのがNGだったようです。
インスタンスが消えれば消えるみたいですが、最近は安定しているのであまり影響もなさそうなのと、googleドライブなど他のストレージサービスより気軽に使えそうなので/tmp/scrap.pklを利用するようにしています。
実装での残念ポイント
いろいろ苦労して実装したのですが、結局私だけしかDMという出力結果を目の当たりにしないので、なんだかなー、とは思います。
経験値がたまったので、ヨシ!
8.GAEのインスタンスが消える対応(以下20240225追記)
差分は正しく動作していてよかったのですが、GAEのインスタンスが消えると /tmp もリセットされて全て消えてしまうことに気づきました。インスタンスは1日2度くらい切り替えが行われるので、その都度、全ての投稿がDiscordにDMされてきてしまう、という状態になっていました。
履歴を固定の決まったデータとしてどこかに保存して、そのデータをインスタンス切り替え時も読み込むべきだろう、という考えでコードの修正に取り掛かりました。
取得したデータの書き出し先ですが、google Firestore(Datastore モード)、google cloud storageを候補に。
- Datastore であればjsonのような形でデータを残しておけそうで今回のウェブスクライピングには合ってそう!データの差分抽出はPANDASのマージで実現できているので問題ではなかったのですが、Datastoreのデータを消したり、データを書き出したりが、直感的によくわからず・・・
- cloud storageなら、現在の一時ファイルの保存先をcloud storageにすればいいだけー、簡単!
と思いきや、恐らく書き出し読み出しの処理がそれなりに重いようで、その前にBOTが動こうとしてエラー、みたいな状態に。
あれこれ試行錯誤して、
- cloud storage を使う(Datastoreがよくわからなかった)
- 現在のメモリを利用している/tmp/ の一時ファイルも利用する
- BOTの動作への影響が少なくなるように、BOT動作の前後にファイルの読み込み、書き出しを行う
新たにgcs_file.pyというものを作って、cloud storageにアップロード、ダウンロードする関数を作成しました。
- dl_scrap は、GCSからscrap.pklをダウンロードして、/tmp/scrap.pkl に保存。
BOTを起動させる前に直前のインスタンスで使っていたであろう履歴ファイルを自分の一時ファイルとしてダウンロードします。 - up_scrap は、/tmp/scrap.pkl をGCSにアップロード。
一時ファイルに保存する動きの後に、こちらを呼び出しし、GCSにアップロードしています。
なので、BOTはメモリ上にある一時ファイル /tmp/scrap.pklを利用するのですが、裏でこそこそGCSにアップロードしていて、新規にインスタンスが作られた時には物理ファイルを一時ファイルに持ってくる、みたいな形になりました。
import os
from google.cloud import storage
def dl_scrap():
BUCKET_NAME = os.getenv('BUCKET_NAME')
BLOB_NAME= os.getenv('BLOB_NAME')
storage_client = storage.Client()
bucket = storage_client.bucket(BUCKET_NAME)
blob = bucket.blob(BLOB_NAME)
blob.download_to_filename('/tmp/scrap.pkl')
def up_scrap():
BUCKET_NAME = os.getenv('BUCKET_NAME')
BLOB_NAME= os.getenv('BLOB_NAME')
storage_client = storage.Client()
bucket = storage_client.bucket(BUCKET_NAME)
blob = bucket.blob(BLOB_NAME)
blob.upload_from_filename('/tmp/scrap.pkl')