つば九郎のブログを

URLからここだけ抽出する

2896-blog

getAmeblo.py "2896-blog" 200 #URL/取得記事数

結果

おは。みなさん、しんぶんみた～むらかみくん～ごいごいす～ですね～でも、それだけのかつやくですね。みなさん、きょう、らじおＮＩＫＫＥＩ１１：３５～１２：０５『こづかあなの～ほめたいむ』きいてくださいね！radikoでもきけま
すので～ぜんこくのみなさん～よろしく～ぱちり。にん。うちあわせむしで、ありまきねんのよそうも～。 ↓くりっく～↓小塚アナの褒めタイム！ | ラジオNIKKEIwww.radionikkei.jpらじおにっけいさんの、Twitterも、ちぇけら～！です。

ではきいてください。 m.c.Ａ・Ｔで～ＢＯＭＢＡＨＥＡＤBOMB A HEADm.c.A・T · Song · 1994open.spotify.com みんなえみふる。ひょうばんよかったら、またよんでね～。おは。みなさん、しんぶんみた～むらかみくん～ごいごいす～
ですね～でも、それだけのかつやくですね。みなさん、きょう、らじおＮＩＫＫＥＩ１１：３５～１２：０５『こづかあなの～ほめたいむ』きいてくださいね！radikoでもきけますので～ぜんこくのみなさん～よろしく～ぱちり。にん。う

コード

getAmeblo.py


import requests
import re
from bs4 import BeautifulSoup
import sys

# タグの除去
def cleanhtml(raw_html):
    cleanr = re.compile("<.*?>")
    cleantext = re.sub(cleanr, "", raw_html)
    return cleantext

# 記事の取得
def scraping(html):
    html = requests.get(html).content
    soup = BeautifulSoup(html, "lxml")
    text = soup.find("div", {"class", re.compile("skin-entryBody*")})
    return cleanhtml(str(text)).strip()

# メイン処理
def main():
    getTxt = ""
    for i in range(int(sys.argv[2])):
        url = f"https://ameblo.jp/{sys.argv[1]}/page-{i}.html"
        str_list = scraping(html=url).splitlines()
        text = "".join(str_list)
        getTxt += text
    print(getTxt)


if __name__ == "__main__":
    main()

拡張オプション

あなただけのオリジンを作ってクローン作ろう

アメブロの記事をまとめて引っこ抜く

つば九郎のブログを

結果

コード

拡張オプション