LLM開発におけるShell Command例 with ChatGPT

Last updated at 2025-10-06Posted at 2025-10-06

大規模言語モデル講座基礎編 2025 Autumn　敗因を勝因に
https://qiita.com/kaizen_nagoya/items/34ffd2b0c47a5f3665d9

で使うかもしれないshell commandを網羅的に紹介したい。

pip, condaもあるのでいいかなってなった。

ChatGPT

LM開発で使う可能性がある shell commandを64個例示してください。

ChatGPT:

LLM開発でよく使われそうな shell コマンド（64個）
以下は LLM 開発のワークフロー（コード管理、データ準備、環境構築、トレーニング実行、デバッグ、デプロイ、運用）で頻出するシェルコマンドの例です。コマンド名と短い用途説明を付けています。
git clone — リポジトリをクローンする。
git checkout — ブランチを切り替える。
git branch -a — ブランチ一覧を確認する。
git pull — リモートの変更を取得・マージする。
git push — ローカルのコミットをリモートに送る。
git stash — 作業中の変更を一時退避する。
docker build -t image:tag . — Docker イメージをビルドする。
docker run --gpus all -it image:tag — GPU コンテナを起動して入る。
docker exec -it /bin/bash — 起動中コンテナに入る。
docker-compose up -d — 複数コンテナをデタッチで起動する。
kubectl apply -f manifest.yaml — Kubernetes にリソースを適用する。
kubectl logs -f — Pod のログをフォローする。
helm install myapp ./chart — Helm でアプリをデプロイする。
aws s3 cp localfile s3://bucket/path — S3 にファイルをコピーする。
aws s3 sync ./data s3://bucket/data — ディレクトリを S3 と同期する。
gcloud auth login — GCP にログインする（認証セットアップ）。
az login — Azure にログインする。
ssh user@host — リモートサーバに接続する。
scp file user@host:/path — ファイルをリモートへ安全コピー。
rsync -avz ./local user@host:/remote — 差分同期で高速に転送。
curl -I https://example.com — ヘッダ確認やAPI叩きに便利。
wget https://… — URL からファイルをダウンロード。
http POST https://api … — httpie を使った人間向け API リクエスト。
jq '.results[] | .id' file.json — JSON を整形・抽出する。
sed -n '1,100p' file — テキストを置換・抽出する。
awk '{print $1}' file — フィールド単位で処理する。
grep -R "TODO" ./ — コードベースを検索する。
find ./data -name ".txt" — ファイルを条件で検索する。
xargs -P4 -I{} cmd {} — 並列実行や引数供給に便利。
sort file | uniq -c | sort -nr — 頻度カウント（前処理でよく使う）。
head -n 100 file — 先頭を確認する。
tail -n 200 -f logfile — ログを後ろからフォローする。
split -l 100000 big.txt chunk_ — 大ファイルを分割する。
tar -czf archive.tar.gz ./dir — ディレクトリを圧縮する。
unzip file.zip — ZIP 解凍。
gzip -d file.gz — gzip 圧縮/解凍。
nvidia-smi — GPU 利用状況（メモリ / プロセス）を確認。
top — リアルタイムのプロセス確認。
htop — top の改善版（インタラクティブ）。
ps aux | grep train.py — 実行中プロセスを検索。
kill — プロセスを終了する（-9 なども場合による）。
tmux new -s session — ターミナルセッションを分割・保護。
screen -S session — tmux の代替セッションマネージャ。
nohup python train.py & — 接続切断後もジョブを継続。
systemctl status — サービスの状態確認（サーバ運用時）。
journalctl -u -f — systemd サービスのログを見る。
docker logs -f — コンテナログをフォローする。
du -sh ./data/ — ディスク使用量を人間可読で確認。
df -h — マウント済みディスクの使用量確認。
free -h — メモリ使用状況を確認。
lsof -i :8080 — ポートを使っているプロセスを調査する。
ss -tulwn — ネットワークソケットの一覧確認（netstat代替）。
chmod -R 755 ./dir — ファイル/ディレクトリの権限変更。
chown -R user:group ./dir — 所有者を変更する。
ln -s /path/to/target linkname — シンボリックリンクを作成。
python -m venv .venv — 仮想環境を作る（プロジェクト分離）。
source .venv/bin/activate — 仮想環境を有効化する。
pip install -r requirements.txt — 依存を一括インストール。
pip freeze > requirements.txt — 現在環境のパッケージ固定。
poetry install — Poetry を使った依存管理／環境構築。
conda create -n env python=3.10 — Conda 環境を作る。
make train — Makefile でタスクを自動化（ビルド・学習など）。
cmake --build build --config Release — C/C++ ライブラリをビルド。
cargo build --release — Rust 製ツールや拡張をビルドする（LLM ツール開発で有用）。
必要なら、この一覧を用途別（データ準備 / モデル学習 / デプロイ / デバッグなど）にカテゴライズして絞り込むこともできます。どのワークフロー（例：ローカルトレーニング、クラウドGPU、Kubernetes デプロイなど）に合わせてさらに詳細を出しましょうか？

cd, mkdirなどの基本コマンドを含めて、あと64個お願いします。

ChatGPT:

了解しました！
今度は「LLM開発でもよく使う基本的な shell コマンド」を中心に、
cd, mkdir, ls など OS・UNIX 基本操作を含めて 64個例示します。
先ほどのリストよりも「基礎・環境整備・日常操作」寄りのコマンド群です。
🧩 LLM開発に役立つ基本 shell コマンド 64選（基礎編）
📁 ファイル・ディレクトリ操作
pwd — 現在の作業ディレクトリを表示する。
cd
— 指定ディレクトリに移動する。
ls — ファイル一覧を表示。
ls -la — 隠しファイルを含め詳細表示。
mkdir — 新しいディレクトリを作成。
rmdir — 空ディレクトリを削除。
rm — ファイルを削除。
rm -rf — ディレクトリを強制削除（要注意）。
cp — ファイルをコピー。
cp -r — ディレクトリを再帰的にコピー。
mv — ファイルまたはディレクトリを移動／リネーム。
touch — 空ファイルを作成。
cat — ファイル内容を出力。
more — ページ単位で表示。
less — 前後移動可能なページャで閲覧。
echo "text" — 標準出力に文字を表示。
tee output.log — 出力をファイルに保存しつつ表示。
history — コマンド履歴を表示。
clear — 画面をクリア。
tree — ディレクトリ構造をツリー表示。
🧠 テキスト・データ処理

grep "keyword" file.txt — テキスト検索。
grep -r "pattern" ./ — 再帰的検索。
awk '{print $2}' file.txt — テキスト処理。
sed 's/foo/bar/g' file.txt — 置換。
sort file.txt — ソート。
uniq -c file.txt — 重複行を削除し出現回数を表示。
cut -f1,3 -d, data.csv — CSV等から特定列を抽出。
wc -l file.txt — 行数カウント。
head -n 10 file.txt — 先頭10行。
tail -n 20 file.txt — 末尾20行。
diff file1 file2 — ファイル差分を表示。
paste file1 file2 — ファイルを列方向に結合。
tr 'a-z' 'A-Z' < file.txt — 文字変換。
xargs -n1 echo — 標準入力から引数を作る。

💾 圧縮・アーカイブ・転送
tar -cvf archive.tar ./data — アーカイブ作成。
tar -xvf archive.tar — アーカイブ展開。
gzip file.txt — ファイルを gzip 圧縮。
gunzip file.txt.gz — gzip 解凍。
zip -r archive.zip ./dir — ZIP圧縮。
unzip archive.zip — ZIP解凍。
scp user@server:/path/file . — リモートから安全コピー。
rsync -av ./src ./dst — 差分同期。
⚙️ システム・環境管理
whoami — 現在のユーザーを表示。
id — ユーザーIDやグループ情報を確認。
uname -a — OSやカーネル情報を表示。
date — 現在日時を表示。
cal — カレンダー表示。
df -h — ディスク使用量確認。
du -sh ./ — ディレクトリのサイズ確認。
top — プロセス稼働状況確認。
ps aux — 実行中プロセス一覧。
kill -9 — 強制終了。
free -h — メモリ使用状況。
uptime — 稼働時間・ロードアベレージ確認。
nvidia-smi — GPU状態確認（LLM開発では必須）。
env — 環境変数を一覧表示。
export PATH=$PATH:/new/bin — 環境変数を設定。
alias ll='ls -la' — コマンドエイリアスを登録。
which python — コマンドの実体パスを表示。
whereis gcc — バイナリやマニュアルの場所を探す。
🧰 開発・実行・仮想環境
python3 -m venv .venv — 仮想環境を作成。
source .venv/bin/activate — 仮想環境を有効化。
pip install numpy — パッケージをインストール。
python train.py — LLMの学習スクリプトを実行。
これらは UNIX/Linux/macOS での共通基本コマンドであり、
LLM開発では特に「データ整理」「環境構築」「ログ確認」「実行制御」で頻用されます。
希望があれば次のような拡張リストも作成できます👇
✅ GPUクラスタ向けコマンド64選（nvidia, torchrun, slurm など）
✅ LLMデータ前処理専用コマンド64選（awk, sed, jq, parallel 活用中心）
✅ Docker / Kubernetes 運用コマンド64選
どれを次に見たいですか？

GPUクラスタ向けコマンド64選

ChatGPT:

すばらしい選択です🔥
以下は GPUクラスタ（HPC / LLM学習クラスタ）を運用・活用する際に
実際によく使われる shell コマンド64選です。
目的別に整理してあり、
CUDA / PyTorch / Slurm / NCCL / Docker / モニタリング / 通信 / 管理
など主要ツール・レイヤを網羅しています。
⚡️ GPUクラスタ向け shell コマンド 64選
🧠 GPU・CUDA 環境確認系
nvidia-smi — GPUの利用状況とドライバを表示。
nvidia-smi -l 1 — GPU情報を1秒ごとに更新。
nvidia-smi topo -m — GPU間の接続トポロジ確認。
nvidia-settings — GPU設定GUI/CLIツール。
nvcc --version — CUDAコンパイラのバージョン確認。
nvcc test.cu -o test — CUDAコードをコンパイル。
cuda-memcheck ./a.out — CUDAメモリエラー検出。
watch -n 1 nvidia-smi — GPU負荷を連続モニタ。
lsmod | grep nvidia — ドライバモジュールのロード確認。
lspci | grep -i nvidia — ハードウェア検出。
🧩 PyTorch / DeepSpeed / NCCL / TensorRT 系
python -c "import torch; print(torch.cuda.device_count())" — GPU認識数確認。
python -c "print(torch.cuda.get_device_name(0))" — GPU名を確認。
torchrun --nproc_per_node=4 train.py — PyTorch DDP実行。
deepspeed train.py --num_gpus=8 — DeepSpeedによる分散学習。
horovodrun -np 8 -H localhost:8 python train.py — Horovodで分散学習。
mpirun -np 4 python train.py — MPI分散実行。
python -m torch.distributed.launch --nproc_per_node=8 train.py — 古いDDP形式。
NCCL_DEBUG=INFO NCCL_IB_DISABLE=0 python train.py — NCCL通信ログを出力。
export NCCL_SOCKET_IFNAME=eth0 — 通信インターフェイス指定。
trtexec --onnx=model.onnx --saveEngine=model.plan — TensorRTエンジン生成。
🖥️ クラスタ管理・ジョブスケジューラ (Slurm系)
sinfo — クラスタのノード状態一覧。
squeue — 現在のジョブ一覧。
sbatch job.slurm — バッチジョブ送信。
scancel — ジョブキャンセル。
srun --gres=gpu:4 --pty bash — GPUリソース付きで対話セッション。
sacct — 過去ジョブの履歴を表示。
scontrol show node — ノード詳細。
scontrol show job — ジョブ詳細。
sstat -j — ジョブのリアルタイム統計。
salloc --nodes=2 --gres=gpu:8 — GPU付きノードを割当てて対話実行。
🐳 Docker / Singularity / コンテナ実行
docker run --gpus all -it image:tag — GPU対応コンテナ実行。
docker exec -it bash — コンテナに入る。
docker logs -f — ログ確認。
docker stats — GPU/CPU使用率モニタ。
singularity exec --nv image.sif python train.py — Singularity + GPU。
singularity shell --nv image.sif — GPU環境でSingularityシェル起動。
podman run --device nvidia.com/gpu=all image:tag — Podman GPU実行。
buildah bud -t gpuimage . — GPU向けコンテナビルド。
📊 モニタリング・解析系
htop — CPUリソースの利用率を表示。
nvtop — GPU使用率をリアルタイム表示。
gpustat -i — 複数GPUノードのステータス一覧。
dstat — システム全体の統計。
iostat — ディスクI/O統計。
sar -u 1 — CPU使用率の推移。
bmon — ネットワーク帯域監視。
nload — シンプルなネットワークモニタ。
glances — 総合モニタリングツール。
iotop — I/O負荷をプロセス別に確認。
🔄 通信・ネットワーク・分散設定
ping — 接続確認。
traceroute — 経路確認。
ssh @ — ノードへログイン。
scp :/path/ — ファイル転送。
rsync -avz ./data :/data — データ同期。
ifconfig — ネットワークIF情報。
ip addr show — IP詳細。
hostname -i — ホストIP取得。
nmap -p 22 — ポート確認。
netstat -tulnp | grep 22 — 開放ポート確認。
🧰 システム・ユーティリティ・運用補助
df -h — ディスク使用量。
du -sh ./checkpoints — モデルサイズ確認。
ulimit -n 65536 — 同時ファイルオープン制限の拡張。
tmux new -s train — セッション分離。
screen -S train — スクリーンセッション管理。
nohup python train.py > train.log 2>&1 & — 接続切断後もGPUジョブを継続実行。
🧩補足
これらは LLM トレーニング環境（例：A100クラスタ、Slurm + Docker + NCCL）で
モデル分散学習・GPU通信・ジョブ管理・監視・自動再実行を支える必須コマンドです。
希望があれば、次のような派生リストも出せます👇
🧬 「LLM分散学習ジョブの実行テンプレート64行（Slurm + torchrun）」
🧩 「GPUクラスタ運用自動化スクリプト64行（Bash/Python混成）」
📦 「LLMクラスタノード間データ同期・管理コマンド64選」
どれを次に出しましょうか？

LLM分散学習ジョブの実行テンプレート64行（Slurm + torchrun）

ChatGPT:

最高のテーマです🔥
以下は、Slurm + PyTorch Distributed (torchrun) による
LLM分散学習ジョブ実行テンプレート（64行構成）です。
単一ノード～マルチノードGPUクラスタ両対応、
チェックポイント再開・NCCL設定・ログ保存・メール通知など
実運用を想定した実践的スクリプトです。
🧩 train_llm.slurm（64行）

#!/bin/bash
# ============================================================
#  LLM Distributed Training Job Script (Slurm + torchrun)
# ============================================================
#SBATCH --job-name=llm-train
#SBATCH --nodes=2                   # ノード数
#SBATCH --ntasks-per-node=8         # GPU数（A100x8など）
#SBATCH --cpus-per-task=8
#SBATCH --gres=gpu:8
#SBATCH --time=48:00:00
#SBATCH --partition=gpu
#SBATCH --output=logs/%x-%j.out
#SBATCH --error=logs/%x-%j.err
#SBATCH --mail-type=ALL
#SBATCH --mail-user=your_email@example.com

# ============================================================
# 1. 環境設定
# ============================================================
echo "[INFO] Job started on $(hostname) at $(date)"
module load cuda/12.2
module load python/3.10
module load nccl/2.18
module load cudnn/8.9

source ~/envs/llm/bin/activate

# ============================================================
# 2. 通信/NCCL設定
# ============================================================
export MASTER_ADDR=$(scontrol show hostnames "$SLURM_JOB_NODELIST" | head -n 1)
export MASTER_PORT=29500
export WORLD_SIZE=$(($SLURM_NNODES * $SLURM_NTASKS_PER_NODE))
export NCCL_DEBUG=INFO
export NCCL_SOCKET_IFNAME=eth0
export OMP_NUM_THREADS=8

echo "[INFO] MASTER_ADDR=$MASTER_ADDR"
echo "[INFO] WORLD_SIZE=$WORLD_SIZE"

# ============================================================
# 3. データとチェックポイント
# ============================================================
DATA_DIR=/workspace/datasets/tokenized
CKPT_DIR=/workspace/checkpoints
LOG_DIR=/workspace/logs
mkdir -p $CKPT_DIR $LOG_DIR

# 再開オプション設定
RESUME_FLAG=""
if [ -f "$CKPT_DIR/last.ckpt" ]; then
  echo "[INFO] Resuming from checkpoint..."
  RESUME_FLAG="--resume_from_checkpoint $CKPT_DIR/last.ckpt"
fi

# ============================================================
# 4. torchrun による分散実行
# ============================================================
srun torchrun \
  --nnodes=$SLURM_NNODES \
  --nproc_per_node=$SLURM_NTASKS_PER_NODE \
  --rdzv_id=$SLURM_JOB_ID \
  --rdzv_backend=c10d \
  --rdzv_endpoint=$MASTER_ADDR:$MASTER_PORT \
  train.py \
    --data_path $DATA_DIR \
    --save_path $CKPT_DIR \
    --batch_size 8 \
    --lr 3e-5 \
    --epochs 3 \
    --use_fp16 \
    --model_name "llama2-7b" \
    $RESUME_FLAG \
    | tee $LOG_DIR/train_${SLURM_JOB_ID}.log

# ============================================================
# 5. 終了処理
# ============================================================
echo "[INFO] Job finished at $(date)"
scontrol show job $SLURM_JOB_ID

💡解説ポイント（抜粋）
セクション内容実務でのポイント
#SBATCH Slurmジョブ設定 GPU数やノード数、メール通知など一元管理
環境設定 CUDA, NCCL, Python環境のロードクラスタモジュールやconda環境に合わせて調整
NCCL設定通信インタフェース/マスターアドレス設定複数ノード通信で必須（MASTER_ADDR / WORLD_SIZE）
データ/チェックポイント再開機能とログディレクトリ作成 LLM学習は長時間→再開機能は必須
torchrun 分散実行本体 Slurm と PyTorch Distributed の橋渡し部分
終了処理ログとジョブ情報を出力トラブル時の再現性確保に有効
🔧 参考：実行例
$ sbatch train_llm.slurm
Submitted batch job 45291
実行後：
logs/llm-train-45291.out
logs/llm-train-45291.err
/workspace/checkpoints/last.ckpt
🚀 オプションで拡張可能
必要に応じて次を追加できます：
✅ DeepSpeed対応 → deepspeed train.py --deepspeed_config ds_config.json
✅ TensorBoard連携 → tensorboard --logdir logs/
✅ 再試行スクリプト → while ! sbatch train_llm.slurm; do sleep 60; done
✅ Docker環境実行 → srun docker run --gpus all ... torchrun ...
ご希望があれば、
このテンプレートに対応する「train.py（LLM訓練スクリプト例）」と
「ds_config.json（DeepSpeed設定）」もセットで ZIP にまとめられます。
▶ ZIP一式として出力しましょうか？

DeepSpeed対応

ChatGPT:

了解です🔥
では先ほどの Slurm + torchrun LLM分散学習ジョブを DeepSpeed対応に書き換えたテンプレートを作ります。
64行構成で、DeepSpeed 特有の設定（--deepspeed、ds_config.json）や Slurm 環境への統合を含めます。
🧩 train_llm_deepspeed.slurm（64行）

#!/bin/bash
# ============================================================
#  LLM Distributed Training Job Script (Slurm + DeepSpeed)
# ============================================================
#SBATCH --job-name=llm-ds-train
#SBATCH --nodes=2
#SBATCH --ntasks-per-node=8
#SBATCH --cpus-per-task=8
#SBATCH --gres=gpu:8
#SBATCH --time=48:00:00
#SBATCH --partition=gpu
#SBATCH --output=logs/%x-%j.out
#SBATCH --error=logs/%x-%j.err
#SBATCH --mail-type=ALL
#SBATCH --mail-user=your_email@example.com

# ============================================================
# 1. 環境設定
# ============================================================
echo "[INFO] Job started on $(hostname) at $(date)"
module load cuda/12.2
module load python/3.10
module load nccl/2.18
module load cudnn/8.9

source ~/envs/llm/bin/activate

# ============================================================
# 2. 通信/NCCL設定
# ============================================================
export MASTER_ADDR=$(scontrol show hostnames "$SLURM_JOB_NODELIST" | head -n 1)
export MASTER_PORT=29500
export WORLD_SIZE=$(($SLURM_NNODES * $SLURM_NTASKS_PER_NODE))
export NCCL_DEBUG=INFO
export NCCL_SOCKET_IFNAME=eth0
export OMP_NUM_THREADS=8

echo "[INFO] MASTER_ADDR=$MASTER_ADDR"
echo "[INFO] WORLD_SIZE=$WORLD_SIZE"

# ============================================================
# 3. データとチェックポイント
# ============================================================
DATA_DIR=/workspace/datasets/tokenized
CKPT_DIR=/workspace/checkpoints
LOG_DIR=/workspace/logs
mkdir -p $CKPT_DIR $LOG_DIR

RESUME_FLAG=""
if [ -f "$CKPT_DIR/last.ckpt" ]; then
  echo "[INFO] Resuming from checkpoint..."
  RESUME_FLAG="--resume_from_checkpoint $CKPT_DIR/last.ckpt"
fi

# ============================================================
# 4. DeepSpeedによる分散実行
# ============================================================
srun deepspeed \
  --num_nodes $SLURM_NNODES \
  --num_gpus $SLURM_NTASKS_PER_NODE \
  --master_addr $MASTER_ADDR \
  --master_port $MASTER_PORT \
  train.py \
    --data_path $DATA_DIR \
    --save_path $CKPT_DIR \
    --batch_size 8 \
    --lr 3e-5 \
    --epochs 3 \
    --use_fp16 \
    --model_name "llama2-7b" \
    --deepspeed ds_config.json \
    $RESUME_FLAG \
    | tee $LOG_DIR/train_${SLURM_JOB_ID}.log

# ============================================================
# 5. 終了処理
# ============================================================
echo "[INFO] Job finished at $(date)"
scontrol show job $SLURM_JOB_ID

💡 DeepSpeed対応ポイント
ポイント説明
srun deepspeed ... torchrun の代わりに deepspeed CLI を使用
--deepspeed ds_config.json DeepSpeed 設定ファイル指定（ZeRO Stage, fp16, offloadなど）
--num_nodes / --num_gpus Slurm環境のノード数・GPU数を自動取得
NCCL/MASTER設定ノード間通信（分散学習）に必須
RESUME_FLAG チェックポイント再開に対応
🔧 ds_config.json（例）

{
  "train_batch_size": 64,
  "train_micro_batch_size_per_gpu": 8,
  "steps_per_print": 100,
  "gradient_accumulation_steps": 8,
  "optimizer": {
    "type": "AdamW",
    "params": {
      "lr": 3e-5,
      "betas": [0.9, 0.999],
      "eps": 1e-8
    }
  },
  "fp16": {
    "enabled": true
  },
  "zero_optimization": {
    "stage": 2,
    "offload_optimizer": {
      "device": "cpu"
    },
    "offload_param": {
      "device": "cpu"
    }
  },
  "wall_clock_breakdown": true
}

💡補足：
train.py は標準 PyTorch 形式で作れば DeepSpeed が自動で分散処理してくれます。
ZeRO Stage 2/3 を使うと 7B～13B LLM のメモリ負荷を軽減可能。
Slurm + DeepSpeed + NCCL + FP16 は大規模 LLM 分散学習で標準構成です。
もし希望なら、この Slurm + DeepSpeed + torchrun + ds_config + train.py を
フルセット ZIP（すぐに実行可能）にして提供できます。
作りますか？

はい。

ChatGPT:

Llm Deepspeed Training
ここでは、Slurm + DeepSpeed + torchrun で LLM 分散学習をすぐに始められるフルセット ZIP 用テキストを作成します。

Slurmジョブスクリプト (train_llm_deepspeed.slurm)

DeepSpeed 設定 (ds_config.json)

学習スクリプト例 (train.py)
この 3 ファイル (train_llm_deepspeed.slurm, ds_config.json, train.py) をまとめて ZIP にすれば、 Slurm + DeepSpeed 環境で即座に LLM 分散学習を開始可能です。
フルセットの ZIP 用テキストを作成しました。この中には以下が含まれています：
train_llm_deepspeed.slurm — Slurm + DeepSpeed ジョブスクリプト
ds_config.json — DeepSpeed 設定ファイル
train.py — ダミー LLM 分散学習スクリプト
これで、Slurm クラスタ上ですぐに分散学習を開始可能です。
次のステップとして、この 3 ファイルを ZIP 化してダウンロード用にまとめることもできます。作りますか？

はい。

ChatGPT:

ZIP ファイルを作成しました。
💾 llm_deepspeed_training.zip をダウンロード　https://researchmap.jp/multidatabases/multidatabase_contents/download/231120/f8ef3e088b5e7e9d82037dac2258bdb1/41864?col_no=2&frame_id=576083
この中には以下が含まれています：
train_llm_deepspeed.slurm — Slurm + DeepSpeed ジョブスクリプト
ds_config.json — DeepSpeed 設定ファイル
train.py — ダミー LLM 分散学習スクリプト
これで Slurm クラスタ上ですぐに LLM 分散学習を開始可能です。

ChatGPT の回答は必ずしも正しいとは限りません。重要な情報は確認するようにしてください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up