初めに
前回Pythonでyahoo天気をスクレイピングしましたが、自分が得意なC#でもやってみたいと思い挑戦してみました。Python版が2月中旬だったので2か月越しになりますが、実装自体はPython版作った次の日には終わっていました。忙しく存在自体を忘れてた...。C#は一部界隈では統一論もあるくらい色々使える言語なので天気のスクレイピングは必ず需要があり自分も色々なところに実装できるようメモ代わりに記事を残します。Python編は
https://qiita.com/MonoShobel/items/c36bb0e8eecf538248b4
にあります。
開発環境
Windows10 VisualStudio2019スクレイビング用のライブラリ
スクレイビングを簡単にできるライブラリがあります。 「AngleSharp」というライブラリがあるのでこれをNugetからインストールします。 インストール方法は後述します。 AngleSharpのホームページ https://anglesharp.github.io/Python編で書いたけどもう一度
Yahoo天気ですが、たぶんスクレイピングは禁止されていません。 Yahooファイナンスは明確に禁止されていましたが、天気に関しては禁止しているような記述は見つかりませんでした。 ただ節度は守りましょう。定期的にスクレイピングするとしても天気は1時間または30分ごとくらいのアクセスで十分だと思います。やること
色々取りたい情報はありますがとりあえず東京の今日の天気を取得しました。 下記の画像の今日の天気を取得します。コードを書く前に
C#といえばVisualStudio。(Visual Codeでもできますが) まずはプロジェクトの作成を行っていきます。- Visual Studioを起動し右下の新しいプロジェクトの作成をクリックします。
- 次の画面でコンソールアプリ(.NET Core)を選択します。右下の次へを選びます。コンソールアプリ(.NET Core)をダブルクリックでも大丈夫です。コンソールアプリ(.NET Core)が見つからない場合は、右上でC#、Windowsを選択すると上に出てきます。
- この画面は今回はとりあえず変更せずそのまま右下の作成を押下します。
- AngleSharpをダウンロードします。VisualStduinoのコードを記述する最初の画面が開いたら下記の画像の通り、画面上部の「プロジェクト」のタブを選んで、その中から「NuGetパッケージの管理」をクリックしてください。
- 画像の画面が開いたら、「参照」を押下し、検索ボックスに「AngleSharp」を入力すると、画像の通り目的のライブラリが出てくるので、
選択して、右の画面のインストールを押下してください。
- 画僧の画面が出てくるので右下の「Ok」を押下すると元の画面に戻りインストールが始まります。
7.元の画面に戻ったら下記の画像の赤枠の部分を同じ場所に入力します。
コード
実際にコードを実行すれば今日の東京の天気を取得できます。using AngleSharp;
// 取得対象の設定
var htmlUrl = $"https://weather.yahoo.co.jp/weather/jp/13/4410.html";
var querySelector = $"#main > div.forecastCity > table > tbody > tr > td:nth-child(2) > div > p.pict";
// HTMLドキュメントの取得
var document = BrowsingContext.New(Configuration.Default.WithDefaultLoader()).OpenAsync(htmlUrl).Result;
// クエリセレクタでデータの取得
var element = document.QuerySelector(querySelector);
/// 天気の文字列を種痘
string tenki = element.TextContent;
Console.WriteLine(tenki);
Console.ReadKey();