More than 1 year has passed since last update.

日本語wikipedia情報(タイトル＋本文)をBigQueryに投入する

Last updated at 2023-02-15Posted at 2023-02-08

1.はじめに

「最も「ありそうで存在しない漢字」は何か？」を読んで「ありそうでない熟語」をどう作ればいいかなと実験したくなり、その中で日本語wikipediaデータをBigQueryに投入したくなった。
他の投稿を見るとMySQLデータをcsvにしてから投入するのが楽そう、と思ったけど、python（というかColaboratory）でやるとしたらどうするのかと検討して下記のような方法を思いついた。

!curl -o jawiki-latest-pages-articles.xml.bz2 https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2

でOK。

!pip install wikiextractor
!python -m wikiextractor.WikiExtractor /content/jawiki-latest-pages-articles.xml.bz2 --json

このような感じに抽出結果が適当なサイズに分かれてtextフォルダ以下に入っている

!cat text/*/* > alljson.json

#!pip install polars
import polars as pl

df = pl.read_ndjson("alljson.json")
df.write("wikidata20230113.csv")

#from google.colab import auth 
#auth.authenticate_user()

#GCSにコピー
!gsutil cp /content/wikidata20230113.csv gs://**適当な場所**/wikidata20230113.csv

あとはGCSからBigqueryに投入。220万記事くらいあった。

その後、抽出されたjsonファイルを見るとjsonlだったので、ばそのままBigQueryに投入できる？と思ったので試してみたらできた!ステップ５が不要でした。