LoginSignup
0
2

More than 5 years have passed since last update.

【自分メモ(遂行中)】Webスクレイピングで経営者の言葉を見る

Last updated at Posted at 2019-02-16

データを扱う仕事をしていきたいとPythonを学び始めたのですが、仕事ではイマイチやりたいことがなくて^^;
IT系の旦那様に励まされつつ、思いつきで進めています。

とりあえず何かを作る、ということが楽しくて仕方ない。(動かないけど)
自分でものを作る、作り変えるということがしたいのです。

やってみたいこと1 「社長さんの言葉を見える化してみたい」

きっかけはトヨタイムズでした。

トヨタイムズはYoutubeで会社の新年挨拶会の状況をアップするとか、今まで聞いたことないですけど!?(私が知らないだけかも)とびっくらこきまして。

あと、日産のゴーン氏のニュースが騒がれるにあたって過去はすごい持ち上げてた記憶があったので、経営者の方はどのような言葉を普段使ってきたのだろうか、と見える化してみたいと思いました。
とりあえず可視化したいのでWord_Cloudしたい(ただあれを作ってみたい)。
そして自動車会社の経営者から「自動車」って言葉抜いたらどうなるか、調べてみたい。(word2vecというやつ使ってみたい)

Let's Start! (2/16現在未完了 )

環境

・Windows10 64bit
・Anaconda (jupyter notebookで書いてます)
・Python 3.7.1
他入れたライブラリはQiitaで先人が書かれた記事を参考にしています。
(なんかいろいろしてた気がするので環境がもう思い出せない。。。)

あとPython自体の勉強はPaizaProgateで学んでいます。

やったこと1

・トレーニングとしてまずHPの社長挨拶から本文を抜き出したい

こちらを参考にさせていただいています
https://teratail.com/questions/75241

WebScrapingTextOnly.py
# coding: UTF-8
import requests
from bs4 import BeautifulSoup, Comment

url="https://~"

response = requests.get(url)
response.encoding = response.apparent_encoding

html=response.text

soup = BeautifulSoup(html, "lxml")

# styleタグの除去
for style in soup.find_all('style', src=False):
    style.decompose()

# コメントタグの除去
for comment in soup(text=lambda x: isinstance(x, Comment)):
    comment.extract()

# scriptタグの除去
for script in soup.find_all('script', src=False):
    script.decompose()

# テキストだけの抽出
for text in soup.find_all(text=True):
    if text.rstrip():
        print(text)

urlのところは私は今回https://www.toyota.co.jp/jpn/company/message/ にしました。
※なんか出力結果の頭にhtmlがつくのですが細かいことは気にしないことにします。

年度違いとか、同業種他会社とか、月に行く方とかいろいろ取ってみたい。

やってること2「txtファイルに書き出す」

作成中。

やること3「関数化して再利用可にする」

やること4「書き込み前に/ファイルから読んで、可視化して意味がありそうな単語を抽出する」

やること5「Word Cloudで見える化する」

こちらを参考にさせて頂く予定
https://qiita.com/kenmatsu4/items/9b6ac74f831443d29074

やること6「各社の製品・サービスを表現する言葉を抜いたらどうなるか調べる」

タイミングよくAmazon Prime Videoの「本日は、お日柄もよく」を見ました。スピーチライターという職業もあるのですね。

0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2