JSONデータ
Wikipedia のダンプファイルから以下のような改行区切りJSONファイルを作成したとします。
jawiki-20230101-pages-articles-multistream_type1.jsonl (読みやすいように成形済み)
{
"id": "5",
"url": "https://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%B3%E3%83%91%E3%82%B5%E3%83%B3%E3%83%89",
"title": "アンパサンド",
"text": "アンパサンドは、並立助詞「…と…」を意味する記号である。...(以下略)"
}
{
"id": "10",
"url": "https://ja.wikipedia.org/wiki/%E8%A8%80%E8%AA%9E",
"title": "言語",
"text": "言語は、狭義には「声による記号の体系」をいう。...(以下略)"
}
Hugging Face にアップロードして公開
これをHugging Face にアップロードするためのコードは以下の通りです。
# 必要なライブラリと関数をインポート
from datasets import DatasetDict, load_dataset
from datasets import load_dataset, DatasetBuilder, BuilderConfig, Version
import datasets
# BuilderConfigクラスをconfigとしてインスタンス化
config = datasets.BuilderConfig
# configの言語設定を'ja'(日本語)に設定
config.language = 'ja'
# データセットのバージョンを定義
_VERSION = datasets.Version("2.0.0", "")
# Wikipediaデータセットの設定クラスを定義
class WikipediaConfig(datasets.BuilderConfig):
def __init__(self, language=None, date=None, version=_VERSION, **kwargs):
super().__init__(
name=f"{date}.{language}",
description=f"Wikipedia dataset for {language}, parsed from {date} dump.",
version=version,
**kwargs,
)
self.date = date
self.language = language
# WikipediaConfigを日本語と特定日付でインスタンス化
config = WikipediaConfig(date='20230101',language='ja')
# データセットのファイル名を定義
filename = 'jawiki-20230101-pages-articles-multistream_type1.jsonl'
# JSON形式のデータセットをロード
dataset1 = load_dataset('json', name='20230101.ja', data_files='/local/wiki/jawiki/20230101/'+filename, split='train')
# データセットをDatasetDictオブジェクトとして定義
dataset_dict = DatasetDict({
'train': dataset1
})
# ユーザー名とデータセットの名前を設定
username = 'nlp4j'
dataset_name = 'wikipedia'
# DatasetDictオブジェクトをHugging Face Hubにアップロード。トークンとconfig名を指定
dataset_dict.push_to_hub(f"{username}/{dataset_name}", token='【あなたのト-クン】',config_name='20230101.ja' )
結果
このコードを実行してアップロードしたものが以下になります。
何かのお役に立てばさいわいです。
以上.