More than 3 years have passed since last update.

スクレイピングしてみた

Python

Last updated at 2020-12-31Posted at 2020-10-25

はじめまして
山田長政です。
言葉を調べるプログラムをスクレイピングのやつを使って作れないかやってみました
google colaboratoryでやりました
https://colab.research.google.com/notebooks/welcome.ipynb?hl=ja
#目的
pythonを使って言葉の意味を検索するプログラムを作る
#こんなかんじの仕組み
input➡スクレイピングするやつで情報をオンライン辞書でとる➡表示する
#使うオンライン辞書

#プログラム

from bs4 import BeautifulSoup
import urllib
import urllib.parse
#うえのはにほんごをエンコードするやつ
g=input()
m= urllib.parse.quote(g)
url =f'https://dictionary.goo.ne.jp/srch/all/{m}/m0u/'
headers = {
          "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0",
          }
request = urllib.request.Request(url, headers=headers)
html = urllib.request.urlopen(request)
soup = BeautifulSoup(html, 'html.parser')
a = soup.select('div[class="example_sentence"] ul[class="content_list idiom lsize"] p[class="text"]')
for x in a:
  print(x.text)

from bs4 import BeautifulSoup
import urllib

これはスクレイピングするのに必要なやつです

import urllib.parse

これはエンコードするのに必要なやつです

g=input()
m= urllib.parse.quote(g)

これでinputしたのをエンコードしてます。
私はここを忘れててうまくいきませんでした

url =f'https://dictionary.goo.ne.jp/srch/all/{m}/m0u/'
headers = {
          "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0",
          }
request = urllib.request.Request(url, headers=headers)
html = urllib.request.urlopen(request)
soup = BeautifulSoup(html, 'html.parser')
a = soup.select('div[class="example_sentence"] ul[class="content_list idiom lsize"] p[class="text"]')
for x in a:
  print(x.text)

urlのとこにオンライン辞書のurlが入ってます
｛ｍ｝に調べたい言葉が入っています

a = soup.select('div[class="example_sentence"] ul[class="content_list idiom lsize"] p[class="text"]')

これで知りたいとこを特定してます。

for x in a:
  print(x.text)

これでaの中に入っているのをすべて取り出しています
（終わり）
はじめてかいたのでわかりにくいかもしれませんが読んでくれてありがとうございます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up