@sutefani7863

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

企業ホームページから「会社概要」をPythonで自動取得したいが、技術的にどこまで可能か?

こんにちは。
マーケティング業務の一環として、企業ホームページから「会社概要」の情報をPythonで自動収集できないか検討しています。

🔍 取得したい情報
企業HPに記載されている以下の情報を対象としています:
・会社名
・所在地(住所)
・代表者名
・設立年
・資本金

📘 背景・経緯
求人系サイト(例:マイナビ・ハリケンナビなど)は、HTML構造が比較的統一されており、
BeautifulSoup や Playwright を使ってのスクレイピングが比較的しやすいです。
しかし、企業公式サイトは以下のように構造がバラバラで…

・div class="about" や table class="company-info" のようにクラス名に統一性がない
・一部はプレーンテキスト、もしくはPDFで掲載されているケースもある
・そもそも「会社概要」ページが存在しない場合もある
・そのため、どこまで自動で精度高く抽出できるか悩んでいます。

🧠 検討しているアプローチ
・HTMLから「会社概要」らしき要素を抽出
・キーワードベースで情報を特定(例:"会社名"、"設立"、"代表取締役"など)
・正規表現やNLPを併用して抽出精度を高める
・企業URLリスト(CSV)を使って一括処理

🤔 現在の課題・疑問
1.HTML構造がバラバラな場合でも、汎用的なロジックでの抽出は現実的か?
2.精度を担保するには、NLPやLLM的アプローチが必要?
3.そもそも、どこまで自動化可能かの目安を知りたい
4.他におすすめの代替アプローチがあれば知りたい

💡 ご相談したいこと
・類似の取り組みをされた方がいれば、工夫されたポイントを知りたいです
・使用ライブラリのおすすめ(例:BeautifulSoup、Playwright、Scrapy、GPT APIなど)
・「構造が統一されていないWebページからの情報抽出」の成功・失敗体験など

🗂 想定フロー(例)

ざっくりとしたイメージ

for url in company_urls:
html = get_html(url)
soup = BeautifulSoup(html, 'html.parser')
overview_section = find_overview_section(soup)
data = extract_info(overview_section)
save_to_csv(data)

🙇 最後に
スクレイピングは法律や利用規約への配慮が必要なことも承知しています。
その点も踏まえ、技術的な実現性や工夫の余地について知見をいただけると嬉しいです。
よろしくお願いいたします!

✍ ご協力いただける方へ
・同じような課題に挑戦された方
・自然言語処理やHTMLパターン抽出に詳しい方
・実現に向けたヒントがある方

ぜひコメント・アドバイスいただけると嬉しいです!

0 likes

アドバイスではなくすみませんが、

1.HTML構造がバラバラな場合でも、汎用的なロジックでの抽出は現実的か?

上記条件でそもそもスクレイピングしようと思いません。
何故どうしてもスクレイピングで「会社概要」の情報収集をしたいのでしょうか?

1Like

スクレイピングは、サイトの管理者に許可を得ているとか、規約に従って専用の API にアクセスしているとかでなければ、迷惑行為になるかもしれないということは認識してますか?

クローラーを作って某図書館サイトにアクセスしたら業務妨害とかで逮捕された事例もありますので、甘く見ない方がいいと思います。

逮捕までいかなくても、被害が深刻な場合は損害賠償の訴訟を受けるかもしれません。

訴訟までいかなくても、アクセス遮断なら Web サーバーの設定で管理者だけの判断で容易に可能なので、多分に可能性はあると思います。帯域ごと遮断され、多数の利用者が巻き添えを喰らうことになるかもしれません。

回答するのは迷惑行為の手助けをすることになるかもしれないということで、上記の辺りに問題がないことを示してもらえないと回答は得にくいと思います。

0Like

ウェブアプリやネイティブアプリの作成なら失敗しても最悪自分のPCのデータが壊れる程度ですが、
スクレイピングはうっかりミスで他人に多大な迷惑がかかる可能性があるので自信を持ってこれくらいなら大丈夫だろうと判断できる人以外はやめておいたほうがいいです。

0Like

Your answer might help someone💌