不思議の国のSE用語という記事
新人時代から、先輩エンジニアが何を言っているのか、どんなニュアンス、どんな 「温度感」 なのかこれを見てようやく理解を進めることができた記事です。
「温度感」 > 実際に紹介されている会議ワードの一つ。システム利用者の困っている度。高いほど困っている。怒っている度かもしれない。
実際の素晴らしい記事
本記事は上記記事に大きくインスパイアされています。
AI時代の新しい用語集としてのオマージュした形で執筆しました。
AI時代に加わりそうなSE用語
AIの国はまだ建国されて間もないので、身の回りののMLエンジニアの間で使われている そのうちお国言葉になりそうなもの についてまとめてみました。
動詞
AI・機械学習の世界でも、システムを擬人化して主語に据えるのがお国柄のひとつです。
モデルは生き物のように「学習」し、時には「暴れ」たり「死ん」だりします。
| 用語 | 読み | 解説 | 用例 |
|---|---|---|---|
| ハルシる | はるしる | LLMが事実と異なる内容を生成すること。幻覚(Hallucination)を見ているように間違った情報を「吐く」。AIの最も厄介な特性のひとつ。 | このモデル、またハルシってるよ。住所がでたらめ。 |
| ファインチューンする | ふぁいんちゅーんする | 既存の学習済みモデルを特定タスク向けに追加学習させること。基礎モデルを専門化させる技術。Fine-tuningの動詞化。 | メディカル分野向けにファインチューンして、医療用チャットボットを作った。 |
| プロンプトする | ぷろんぷとする | AIに指示を与えること。プロンプトエンジニアリングの略動詞化。「叩く」に近いニュアンス。 | ちょっとプロンプトして、要約させてみる? |
| トークン食う | とーくんくう | 入力/出力でトークンを消費すること。SEの「メモリ食う」と同じ感覚。コスト計算の基本単位なので重要。 | この文章長すぎて、トークン食いすぎだよ。 |
| 蒸留する | じょうりゅうする | 大きなモデルから小さなモデルに知識を移すこと。知識蒸留(Knowledge Distillation)の略。お酒じゃない。 | GPT-4から蒸留して、軽量モデル作った。 |
| 推論する | すいろんする | 学習済みモデルが予測を実行すること。実際にAIが「考える」段階。英語で言うInference。 | モデル推論中にエラーが出た。 |
| 埋め込む | うめこむ | テキストをベクトルに変換すること。Embeddingの和訳。RAGの基礎技術。 | 文章をベクトルに埋め込んでから検索する。 |
| コンテキスト入れる | こんてくすといれる | プロンプトに文脈情報を追加すること。背景情報を補足してAIの理解を助ける。 | もっとコンテキスト入れて、精度上げよう。 |
| 温度上げる/下げる | おんどあげる/さげる | 生成の多様性を調整すること。Temperatureパラメータの調整。温度が高いと創造的に、低いと保守的になる。 | 創造的な回答にしたいから、温度上げてみよう。 |
| 学習させる | がくしゅうさせる | モデルにデータを与えて訓練すること。まるで子供を育てるような表現。 | 1週間学習させて、やっと精度が出た。 |
| 過学習する | かがくしゅうする | 訓練データに適合しすぎて、汎化性能が落ちること。Overfitting。モデルが「暗記」してしまった状態。 | Validation lossが上がってきた、過学習してる。 |
| 収束する | しゅうそくする | 学習時にlossが安定してくること。良い兆候。「落ち着く」に近いニュアンス。 | やっとlossが収束してきた。 |
| 発散する | はっさんする | 学習時にlossが不安定になること。悪い兆候。学習率が高すぎる場合に起こりやすい。 | 学習率高すぎて発散した。 |
| 吐く | はく | データやログを出力すること。SEの「吐く」と同じ。内容は見てみるまでわからない。 | モデルが変な予測を吐いてる。 |
| 喋る | しゃべる | API通信を行うこと。「このモデルはOpenAI APIを喋る」のような使い方。SEの「喋る」と同義。 | GPT-4 APIを喋れるようにした。 |
| 回す | まわす | 学習や推論を実行すること。SEの「回す」と同じ感覚。バッチ処理のイメージ。 | とりあえず一晩回してみよう。 |
| 積む | つむ | GPUやデータを大量に用意すること。「積み上げる」イメージ。リソースの物量作戦。 | GPU 8枚積んで、並列学習する。 |
| 焼く | やく | モデルを学習させること。「焼き込む」イメージ。SEの「焼く」(CD書き込み)とは異なる意味。 | データセット焼いて、モデル作った。 |
| 抜く | ぬく | 特定のデータやレイヤーを取り出すこと。SEの「抜く」と同じ感覚。 | 中間層の特徴量を抜いてきて。 |
| 落とす | おとす | モデルやサーバーをダウンさせること。SEの「落とす」と同義。意図的な場合と事故の場合がある。 | GPU使いすぎてサーバー落とした。 |
| 殺す | ころす | プロセスを強制終了すること。SEの「殺す」と同じ。学習が暴走したときに使う。 | 暴走してるプロセスを殺して。 |
複数の意味があるもの
同じ表現ではあるものの、文脈によって意味が変わるものもあります。
AI・機械学習の世界でも、SEと同様に多義語が存在します。
| 用語 | 読み | 解説 | 用例 |
|---|---|---|---|
| 重い (1) | おもい | モデルのパラメータ数が多いこと。計算リソースを多く消費する。 | このモデル、パラメータ数が多くて重い。 |
| 重い (2) | おもい | 処理が遅いこと。レスポンスタイムが長い。SEの「重い」と同じ。 | 推論が重くて、リアルタイムでは使えない。 |
| 軽い (1) | かるい | モデルのパラメータ数が少ないこと。計算リソースをあまり消費しない。 | エッジデバイス向けに軽いモデルにした。 |
| 軽い (2) | かるい | 処理が速いこと。レスポンスタイムが短い。SEの「軽い」と同じ。 | この前処理は軽いから問題ない。 |
| 学習する (1) | がくしゅうする | モデルがデータから知識を獲得すること。本来の機械学習の意味。 | ニューラルネットワークがパターンを学習する。 |
| 学習する (2) | がくしゅうする | エンジニアが技術を習得すること。人間の学習。「勉強する」に近い。 | 最新の論文を読んで学習中。 |
| 飛ぶ (1) | とぶ | リクエストが送信されること。SEの「飛ぶ」と同じ。APIコールなど。 | OpenAIにリクエストが飛んでる。 |
| 飛ぶ (2) | とぶ | データが消えること。メモリ上のデータが失われる。SEの「飛ぶ」と同義。 | オンメモリで持ってたから、落ちたら飛んじゃった。 |
| 流す (1) | ながす | バッチ処理を実行すること。SEの「流す」と同じ。学習ジョブなど。 | 夜間に学習ジョブを流す。 |
| 流す (2) | ながす | データをパイプラインに入力すること。データフローのイメージ。 | 前処理済みのデータを流して、モデルに食わせる。 |
| 入れる (1) | いれる | データをモデルに入力すること。「食わせる」より丁寧な表現。 | テストデータを入れて、精度を測る。 |
| 入れる (2) | いれる | ライブラリやモデルをインストールすること。SEの「入れる」と同じ。 | PyTorchを入れて、環境構築した。 |
名詞
専門的な固有名詞が多いです。
しかしAI業界特有の、一般名詞が独特の切り口で使用される例もあります。
| 用語 | 読み | 解説 | 用例 |
|---|---|---|---|
| トークン | とーくん | AIが処理するテキストの最小単位。日本語だと1文字〜数文字程度。コスト計算の基本。 | この文章、トークン数確認した? |
| コンテキスト窓 | こんてくすとまど | モデルが一度に扱える情報量の上限。Context window。窓が小さいと長い文章を処理できない。 | コンテキスト窓超えちゃった、分割しよう。 |
| ハルシネーション | はるしねーしょん | AIが幻覚を見ているように事実と異なる内容を生成する現象。Hallucination。 | ハルシネーションが出やすいから、事実確認が必要。 |
| Few-shot/Zero-shot | ふゅーしょっと/ぜろしょっと | 学習例の数による分類。例を0個与えるのがZero-shot、数個与えるのがFew-shot。 | このタスクはFew-shotで対応できる。 |
| エージェント | えーじぇんと | 自律的に動作するAIシステム。指示を受けて自動的にタスクを実行する。 | エージェントに任せて、レポート作成させよう。 |
| RAG | らぐ | Retrieval-Augmented Generation。検索拡張生成。外部データを検索して回答精度を上げる技術。 | RAG使えば、最新情報も反映できる。 |
| LoRA | ろーら | Low-Rank Adaptation。効率的なファインチューニング手法。メモリ効率が良い。 | LoRA使って、軽くファインチューニングする。 |
| エポック | えぽっく | 全訓練データを1回学習すること。Epoch。学習回数の単位。 | 100エポック回したけどまだ収束しない。 |
| バッチ | ばっち | データを複数まとめて処理する単位。Batch。ミニバッチとも。 | バッチサイズを増やして、学習を安定させた。 |
| ロス | ろす | 損失関数の値。Loss。学習の進捗を示す重要な指標。 | ロスが下がらない、学習率を調整しよう。 |
| 重み | おもみ | ニューラルネットワークのパラメータ。Weight。学習によって更新される。 | 事前学習済みの重みをロードする。 |
| 勾配 | こうばい | パラメータの更新方向を示すベクトル。Gradient。逆伝播で計算される。 | 勾配が消失してる、活性化関数を変えよう。 |
| 推論エンジン | すいろんえんじん | モデルを実行するためのランタイム環境。ONNX Runtimeなど。 | 推論エンジンで高速化した。 |
| ベンチマーク | べんちまーく | モデル性能を測るための標準的なデータセット。GLUEなど。 | GLUEベンチマークでスコアを測った。 |
| リーダーボード | りーだーぼーど | Kaggleなどのコンペで順位を表示する掲示板。Leaderboard。 | やっとリーダーボードで上位に入った。 |
| アノテーション | あのてーしょん | データにラベルを付ける作業。Annotation。教師あり学習の基礎。 | アノテーション作業が終わらない。 |
| データセット | でーたせっと | 学習や評価に使うデータの集合。Dataset。品質が成否を分ける。 | ImageNetのデータセットをダウンロードした。 |
| チェックポイント | ちぇっくぽいんと | 学習途中のモデルを保存したもの。Checkpoint。学習再開や評価に使う。 | チェックポイントから学習を再開する。 |
| ハイパーパラメータ | はいぱーぱらめーた | 学習率やバッチサイズなど、学習前に設定するパラメータ。Hyperparameter。 | ハイパーパラメータをチューニングして精度向上。 |
| 特徴量 | とくちょうりょう | モデルの入力として使う変数。Feature。データサイエンスの基本概念。 | 特徴量エンジニアリングで精度が上がった。 |
形容詞など
不思議の国の住民は意外と擬音語などの形容語も好みます。お茶目ですが、やはり意味が込められているので侮れません。
| 用語 | 読み | 解説 | 用例 |
|---|---|---|---|
| ぐるぐる | ぐるぐる | 処理が進んでいるように見えるが、実際には進捗がない状態。SEの「ぐるぐる」と同じ。 | 学習がずっとぐるぐるしてるんだけど... |
| SOTA | そーた | State Of The Art。最高性能。論文で「我々の手法はSOTA」と主張する。 | SOTA更新したって論文出てた。 |
| 賢い | かしこい | モデルの性能が高いこと。精度が良い、汎化性能が高いなど。 | このモデル賢いね、複雑な質問にも答えられる。 |
| バカ | ばか | モデルの性能が低いこと。精度が悪い、単純なミスをする。 | このモデルバカすぎる、簡単な質問も間違える。 |
| 暴れる | あばれる | モデルやプロセスが予期しない動作をすること。制御不能な状態。 | 学習が暴れて、lossが発散した。 |
| 枯れる | かれる | 技術やモデルが成熟し、安定すること。SEの「枯れる」と同義。バグが出尽くした状態。 | TensorFlowはもう枯れてるから安心。 |
| まるっと | まるっと | 全体的に。丸ごと。SEの「まるっと」と同じ。 | データをまるっと前処理した。 |
| さくっと | さくっと | 簡単に。手軽に。SEの「さくっと」と同じ。スキルレベルによって意味が異なる。 | GPT-4でさくっとプロトタイプ作った。 |
| ざっくり | ざっくり | 大まかに。おおよそ。SEの「ざっくり」と同じ。 | ざっくりどれくらい精度出そう? |
| よしなに | よしなに | いい感じに。適切に。SEの「よしなに」と同じ。信頼関係が前提。 | ハイパーパラメータはよしなに調整して。 |
| えいや | えいや | 思い切ってやること。SEの「えいや」と同じ。8割方大丈夫という自信。 | えいやで本番デプロイした。 |
| ガバガバ | がばがば | セキュリティやバリデーションが甘いこと。SEの「ガバガバ」と同義。 | このAPI、入力チェックがガバガバだよ。 |
まとめ
これらの言葉を理解することで、AI開発現場でのコミュニケーションがスムーズになるかも・・しれません。
まだまだ進化中の分野なので、新しい言葉もどんどん生まれてくるはずです。
「またハルシってるわ・・・俺が悪いんかな・・・」
そんな会話が聞こえてきたら、あなたもAIの世界のパスポートを取得しているも同然です。
もし「こんな用語も使うよ!」というものがあれば、ぜひコメントで教えてください!