はじめに
業務でPython(JupyterLab)を使用するために
一からインストール、設定をする必要があり
ほぼテキストだけの設定手順書を渡されて ?(゜-゜)? となったので
ひとまず最低限使える環境を作るためにやったことを
できる限り簡単にまとめてみました。
※最低限動く を目標にしているので用語の解説などは省略しています
Python始めてみたいけど・・・ とか
とりあえず自分で環境作ってみたい! とか
そういう方の参考になれば幸いです。
環境
Windows 10 Pro
Python 3.9.0
やりたいこと
・Python(JupyterLab)でスプレッドシートの編集ができる環境の構築
最終的には以下
・特定のサイトからリンクのテキストとURLを取得する
・Googleスプレッドシートの操作(主に書き込み)
環境構築
Pythonのインストール
1.インストーラーをダウンロード
リンク先から、必要なバージョンのインストーラーをダウンロードしてください。
諸事情により私はバージョン3.9.0をインストールしていますが、
とくに理由がないようであれば最新のものを選べば問題ないかと思います。
2.インストール
インストールに伴う各種設定については、任意で変更してください。
今回はInstall launcher for all users と Add Python x.x to PATHにチェックを入れ、「Install Now」からお任せインストールとしました。
「Setup was successful」が表示されたらインストールは完了です。
JupyterLabのインストール
1.JupyterLab のインストール
コマンドプロンプトを立ち上げて以下のコマンドを実行します
> pip install jupyterlab
少し時間がかかると思うので、コマンドプロンプトの画面を眺めてお待ちください。
2.日本語化パッケージをインストール
JupyterLabのインストールが完了したら、引き続き
コマンドプロンプトで以下のコマンドを実行します。
> pip install jupyterlab-language-pack-ja-JP
日本語化は必須ではないので、
英語で大丈夫!という方はこの手順をスキップしてください。
3.モジュールをインストール
前述の「やりたいこと」で必要になるモジュールのみ抜粋してインストールしていきます。
ほかに必要なものがあれば任意でインストールしてください。
今回は以下のモジュールをインストールしました。
-
gspread
スプレッドシートに対して読み取り、書き込み、書式設定などができます -
oauth2client
Google APIsの認証周りの機能を取り扱います -
beautifulsoup4
HTMLやXMLファイルからデータを取得することができます
こちらもコマンドプロンプトから以下のコマンドをそれぞれ実行してください。
> pip install gspread
> pip install oauth2client
> pip install beautifulsoup4
4.JupyterLabの起動確認
ここまででインストールは完了しているはずなので、
JupyterLabの起動確認をおこないます。
コマンドプロンプトから以下を実行してください。
> Jupyter lab
既定のブラウザで以下のような画面が表示されたら問題ありません。
5.JupyterLabの終了
JupyterLabを終了するには、画面から File > Shut Down の順にクリックして、JupyterLabを終了してください
お疲れさまでした!
ここまででJupyterLabが使用できるようになりました。
スプレッドシートの操作まではいいかな・・・という方はここまでで問題ないかと思います!
ここからは、JupyterLabからスプレッドシートを操作するための設定などなどをおこなっていきますので、もうしばらくお付き合いください!
GCP(Google Cloud Platform)の設定
GCPの利用にはアカウントが必要になるので、必要に応じてご用意ください。
以降はGCPアカウント作成済みとして進めていきます。
1.プロジェクトの作成
GCPコンソールをひらいて、画面左上の点が三角形に並んでいるアイコンをクリックしてください。
以下のような画面が表示されるとおもうので、右上の 新しいプロジェクト をクリックしてください。
さらに以下の画面が表示されるので プロジェクト名 を任意で設定し 作成 をクリックしてください。
ここまでがGCPプロジェクトの作成手順となります。
2.ライブラリの追加
作成したプロジェクトにライブラリを追加していきます。
画面左上の点が三角形に並んでいるアイコンから先ほど作成したプロジェクトを選択しておいてください。
左上の ≡ のメニューから APIとサービス > ライブラリ をクリックしてください。
開いた画面で「drive」と検索し、検索結果から「Google Drive API」を選択してAPIを有効化してください。
↓↓
「Google Drive API」の有効化が完了したら、次は「sheet」で検索して「Google Sheets API」も同様に有効化してください。
3.GCPサービスアカウントの作成
左上の ≡ のメニューから APIとサービス > 認証情報 をクリックしてください。
認証情報画面から「+ CREATE CREDENTIALS」をクリック後、「サービスアカウント」をクリックしてください。
サービスアカウントの詳細設定画面で任意の「サービスアカウント名」を入力し「完了」をクリックしてください。
サービスアカウントIDはアカウント名から自動で生成されるようです。また、サービスアカウントの説明は自由に入力して問題ないようです。
4.秘密鍵の作成
PythonとGoogleアカウントを紐づけるための秘密鍵を発行します。
左上の ≡ のメニューから APIとサービス > 認証情報 をクリックして、認証情報の画面を開いておいてください
認証情報の画面から、先ほど作成したサービスアカウントのペン(編集)アイコンをクリックします。
アカウント情報の画面が表示されるので、「キー」タブから 「鍵を追加」⇒「新しい鍵を作成」の順にクリックしてください。
秘密鍵のタイプを選択する画面が表示されるので、「JSON」を選択し、「作成」をクリックします。
JSONファイルがダウンロードされるので、紛失、流出しないよう取り扱いにはご注意ください。
Googleスプレッドシートの設定
前項で作成したサービスアカウントでスプレッドシートを編集できるように、権限の設定を行います。
事前に操作したいスプレッドシートを作成しておいてください。
1.サービスアカウントのメールアドレスを取得
秘密鍵ファイルを開くと「"client_email"」 という項目があるので、そこに記載されているメールアドレスをコピーしてください。
xxxxxx@xxxxxx.iam.gserviceaccount.com
2.スプレッドシートの編集権限を付与
スプレッドシートを開いて、画面右上の「共有」から先ほど取得したメールアドレスを追加します。
今回はPythonから編集することが目的なので「編集者」権限をつけてあげてください。
おわりに
お疲れさまでした!
これで最低限動く環境が構築できたかと思います。
よいPythonライフをお過ごしください。
環境構築が完了してから、改めて初めに渡された手順書を見て
「あぁ 確かに手順通りだ・・・」となったんですが、作業者がすべて理解している前提でかかれていて、「この手順書で対応できるレベルなら、そもそもこの手順書いらないのでは・・・?」という気持ちになり、人に伝えるというのは難しいことなんだなぁと改めて実感しました。
おまけ
動作確認として、Yahooニュースの各カテゴリからトピックのみ抜き出してタイトルとURLをスプレッドシートに吐き出すプログラムを書きました。
何かの参考になれば幸いです。
import json
import gspread
import datetime
from oauth2client.service_account import ServiceAccountCredentials
import re
import requests
from bs4 import BeautifulSoup
scope = ['https://spreadsheets.google.com/feeds',
'https://www.googleapis.com/auth/drive']
# このコードと同じ階層に秘密鍵のJSONファイルを置く
credentials = ServiceAccountCredentials.from_json_keyfile_name("秘密鍵ファイル名.json", scope)
gc = gspread.authorize(credentials)
# スプレッドシートキーを設定
# https://docs.google.com/spreadsheets/d/**************/edit#gid=0
SPREADSHEET_KEY = '**************'
workbook = gc.open_by_key(SPREADSHEET_KEY)
# 追加するシート名をYYYYMMDDHHmmとする
sheet_name = datetime.datetime.now().strftime('%Y%m%d%H%M')
# ↑↑のシート名でシートを作成
worksheet = workbook.add_worksheet(sheet_name, rows=100, cols=10)
# 見にいくURLのリスト
categories_list = [
["トップ","https://www.yahoo.co.jp/"],
["国内","https://news.yahoo.co.jp/categories/domestic"],
["国際","https://news.yahoo.co.jp/categories/world"],
["経済","https://news.yahoo.co.jp/categories/business"],
["エンタメ","https://news.yahoo.co.jp/categories/entertainment"],
["スポーツ","https://news.yahoo.co.jp/categories/sports"],
["IT","https://news.yahoo.co.jp/categories/it"],
["科学","https://news.yahoo.co.jp/categories/science"]
]
# 取得したニュースタイトルとURLを格納するリスト
news_list = []
# ニュースタイトルとURLの取得処理
for n in categories_list:
header = [n[0], ""]
news_list.append(header)
URL = n[1]
rest = requests.get(URL)
soup = BeautifulSoup(rest.text, "html.parser")
data_list = soup.find_all(href=re.compile("news.yahoo.co.jp/pickup"))
for data in data_list:
temp_list = [data.text, data.attrs["href"]]
news_list.append(temp_list)
news_list.append(["", ""])
# さっき追加したシートに取得したニュースの一覧を書き出す
worksheet.append_rows(news_list, table_range='A1')
参考資料
設定を進めるにあたり先達のお力をお借りしました
ありがとうございました
Qiita:PythonでGoogleスプレッドシートを編集