Rによるデータクリーニング実践――政府統計からのグラフ作成を例として
このデータは廣済堂というとこが作っているらしいが確かにひどい。
- ファイル名が様式番号で何が入っているかわからない。
- 何年のデータかわからない。
- xlsとxlsxが混在
- しかもhttps
このようにスクリプトを作れないことはないのだが…
[Net.ServicePointManager]::SecurityProtocol = [Net.SecurityProtocolType]::Tls11
[Net.ServicePointManager]::SecurityProtocol = [Net.SecurityProtocolType]::Tls12
$strURI = 'https://www.e-stat.go.jp/stat-search/file-download?statInfId=000029085316&fileKind=0'
$sfolder = 'D:\1983Excel'
If(!(Test-Path -Path $sfolder)){md $sfolder}
$cli = New-Object System.Net.WebClient
$uri = New-Object System.Uri($strURI)
$file = Split-Path $uri.AbsolutePath -Leaf
$cli.DownloadFile($uri, (Join-Path $sfolder "1983.xls"))
$file + "をダウンロード完了しました。"
ここからダウンロードする
ちなみに一括ダウンロードすると同じ名前のxlsファイルができて全く分からない。
これではまとめて抜いたとしてもいつのファイルかわからないので役に立たない。
excelのアイコンをクリックし、拡張子を確かめ、リンクのURLを取得したらPowershellのスクリプトが使える。
この作業を30回ほど繰り返さなければならない。
Scriptの参考サイト
PowerShellを使って指定したファイルをインターネットからダウンロードする
これをもとに、検索結果のExcelアイコンからURIを取得し、ファイルと拡張子を確認してフォルダ名とファイル名を決めなくてはならない。
PowerShellでサイトからファイルをダウンロードしたい
これはエラーになってしまう
"要求は中止されました: SSL/TLS のセキュリティで保護されているチャネルを作成できませんでした"