5
9

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

LINE MessagingAPIとPythonのスクレイピングで記事検索botをつくってみた

Last updated at Posted at 2018-09-09

LINE MessagingAPIとPythonのスクレイピングライブラリのBeautifulSoup4を使って、対象アカウントに対して送った単語を含む記事を予め指定したURLから検索するbotをつくりました。
Pythonのスクレイピングの勉強も兼ねて、せっかくなる使い道のあるものを作りたいと思い試しにつくってみました。


前提

  • MacBook 2017モデルにて開発
  • OSは10.12(Sierra)
  • Pythonは3.6.5
  • botの実行環境はHeroku


メッセージ授受処理

ほとんどLINE社が提供しているサンプルのままです。handle_messageメソッド内で送られてきた単語を受け取り、その単語を引数にscrape.pyのgetNewsメソッドを呼び出します。

main.py
from flask import Flask, request, abort

from linebot import (
    LineBotApi, WebhookHandler
)
from linebot.exceptions import (
    InvalidSignatureError
)
from linebot.models import (
    MessageEvent, TextMessage, TextSendMessage,
)

import urllib.request
import os
import json
import scrape as sc


app = Flask(__name__)


#環境変数取得
YOUR_CHANNEL_ACCESS_TOKEN = os.environ["YOUR_CHANNEL_ACCESS_TOKEN"]
YOUR_CHANNEL_SECRET = os.environ["YOUR_CHANNEL_SECRET"]

line_bot_api = LineBotApi(YOUR_CHANNEL_ACCESS_TOKEN)
handler = WebhookHandler(YOUR_CHANNEL_SECRET)


@app.route("/callback", methods=['POST'])
def callback():
    # get X-Line-Signature header value
    signature = request.headers['X-Line-Signature']

    # get request body as text
    body = request.get_data(as_text=True)
    app.logger.info("Request body: " + body)

    # handle webhook body
    try:
        handler.handle(body, signature)
    except InvalidSignatureError:
        abort(400)

    return 'OK'


# メッセージリプライ
@handler.add(MessageEvent, message=TextMessage)
def handle_message(event):

    # ユーザからの検索ワードを取得
    word = event.message.text

    # 記事取得関数を呼び出し
    result = sc.getNews(word)

    # 応答メッセージ(記事検索結果)を送信
    line_bot_api.reply_message(
    event.reply_token,
    TextSendMessage(text=result)
    )


if __name__ == "__main__":
#    app.run()
    port = int(os.getenv("PORT", 5000))
    app.run(host="0.0.0.0", port=port)



スクレイピング処理

指定したURLから記事をスクレイピングし、取得した結果のうち引数wordのを記事件名に含むニュースのみ戻り値に格納します。
スクレイピング部分はURLによって大きく変わりますが、件名とURLはどこのサイトでも変わらないので多少は流用できるでしょう。

scrape.py
import urllib.request
from bs4 import BeautifulSoup
import json
import requests


# アクセス先URLとUAを設定
url = 'https://sports.yahoo.co.jp/news/list?id=jleague'
ua = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) '\
     'AppleWebKit/537.36 (KHTML, like Gecko) '\
     'Chrome/67.0.3396.99 Safari/537.36 '

# 記事取得関数
def getNews(word):

    # 下記はアクセス先に合わせて修正しスクレイピング
    req = urllib.request.Request(url, headers={'User-Agent': ua})
    html = urllib.request.urlopen(req)
    soup = BeautifulSoup(html, "html.parser")
    main = soup.find('div', attrs={'class': 'modBody'})
    topics = main.find_all(attrs={'class': 'linkMain'})

    # 該当記事カウント変数と結果格納リスト
    count = 0
    list = []

    # スクレイピング結果から引数wordを含む記事を結果リストに格納
    for topic in topics:
        if topic.contents[0].find(word) > -1:
            list.append(topic.contents[0])
            list.append(topic.get('href'))
            count += 1
    if count == 0:
        result.append("該当記事はありません")

    # リスト内の要素間に改行を挿入して返却
    result = '\n'.join(list)
    return result



LINE MessagingAPIは色々遊べそう

今回はスクレイピングでしたが、他のAPIと連携してみたりと色々できそうです。LINEはいろんなサービスのプラットフォームとして活用できそうですね。


参考

スクレイピング以外の部分はほぼ以下の記事を参考にさせていただきました。
PythonでLine botを作ってみた

5
9
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
9

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?