Hugging Face➡Models➡Tasksの徹底解説 🚀

Posted at 2025-07-31

マルチモーダルAI（複数のモダリティを結合）

audio-text-to-text (音声-テキスト-テキスト)
音声（話された言葉）をテキストに変換し、さらにそのテキストを別の形式（要約、翻訳など）のテキストとして出力します。例えば、会議の音声を文字起こしして議事録を作成し、その内容を要約する、といったことが可能です。
image-text-to-text (画像-テキスト-テキスト)
画像とテキストの両方の入力を受け取り、それを元にテキストを生成するタスクです。例えば、写真の内容について質問すると、AIが画像と質問を理解してテキストで回答してくれます。
visual question answering (VQA) (画像質問応答)
画像と、その画像に関する自然言語の質問を入力として受け取り、画像の内容に基づいてテキストで回答を生成します。AIが「画像を見て質問に答える」能力を測る代表的なタスクです。
document question answering (DQA) (ドキュメント質問応答)
スキャンされた文書画像やPDFなどのドキュメントと、それに関する質問を入力として、ドキュメントの内容から回答を抽出または生成します。請求書から特定の項目を見つけたり、契約書の内容について質問したりする際に役立ちます。
video-text-to-text (動画-テキスト-テキスト)
動画データとテキストの質問や指示を入力として受け取り、動画の内容に基づいてテキスト出力を生成します。例えば、動画の中で特定のイベントがいつ発生したかをテキストで尋ねると、AIが答えてくれます。
visual document retrieval (視覚ドキュメント検索)
テキストの検索クエリに基づいて、画像形式のドキュメント（例：PDFのスクリーンショット）の中から、関連性の高いドキュメントを検索して返します。従来のOCRに依存せず、ドキュメントの視覚的なレイアウトやパターンも考慮して検索できるのが特徴です。
any-to-any (任意の入力から任意の出力へ)
音声、テキスト、画像、動画など、任意のモダリティの入力を受け取り、それを任意のモダリティの出力（例：テキストから画像、画像から音声）に変換できる汎用的なAIモデルを指します。人間のように複数の感覚で世界を理解し、表現することを目指します。

コンピュータビジョン（画像・動画の理解と生成）

depth estimation (深度推定)
2Dの単一画像から、各ピクセルがカメラからどのくらいの距離にあるか（深度）を推定し、深度マップと呼ばれるグレースケール画像として出力します。自動運転やロボットのナビゲーションに重要です。
image classification (画像分類)
画像全体が何を表しているかを、事前に定義されたカテゴリ（例：猫、犬、車）の中から分類します。最も基本的な画像認識タスクの一つです。
object detection (物体検出)
画像内の複数の物体を検出し、それぞれの物体の種類と画像内の正確な位置（バウンディングボックス）を特定します。自動運転での歩行者検出や、監視カメラでの不審者検知などに使われます。
image segmentation (画像セグメンテーション)
画像内の各ピクセルを、それが属するオブジェクトのカテゴリに分類することで、画像内のオブジェクトの正確な輪郭や領域を特定します。画像編集での背景切り抜きや、医療画像解析に応用されます。
text-to-image (テキスト-画像)
テキストの説明（プロンプト）を入力として、その説明に合致する画像を生成します。Stable DiffusionやDALL-Eなどが有名で、アート生成やコンテンツ作成に活用されます。
image-to-text (画像-テキスト)
画像を入力として、その画像の内容を説明する自然言語のテキスト（キャプション）を生成します。視覚障害者向けの画像説明や、画像アーカイブの自動タグ付けなどに使われます。
image-to-image (画像-画像)
入力画像を、与えられた条件やスタイルに基づいて別の画像に変換します。例えば、写真を水彩画風に変換したり、夜の画像を昼の画像に変換したりできます。
image-to-video (画像-動画)
静止画を入力として、その画像から短い動画を生成します。写真に動きを加えてアニメーションを作成するなどの用途があります。
unconditional image generation (無条件画像生成)
特定の入力（テキストや他の画像）なしに、完全に新しい画像をランダムに生成します。学習データセットの分布に沿った、これまでにない画像を創り出す能力です。
video classification (動画分類)
動画全体を入力として、その動画が何を表しているか（例：スポーツ、ニュース、特定の行動）を分類します。動画のコンテンツ管理やフィルタリングに役立ちます。
text-to-video (テキスト-動画)
テキストの説明（プロンプト）を入力として、その説明に合致する動画を生成します。近年発展が著しい分野で、映画制作のプレビズや広告作成への応用が期待されます。
zero-shot image classification (ゼロショット画像分類)
学習時に一度も見たことがないカテゴリの画像を分類するタスクです。新しいカテゴリの製品や生物を、事前に学習させることなく識別できる可能性があります。
mask generation (マスク生成)
画像内の特定のオブジェクトや領域のバイナリマスク（ピクセル単位で前景/背景を区別する）を生成します。画像セグメンテーションの成果物そのものや、Segment Anything Model (SAM) のように対話的にマスクを生成する能力を指します。
zero-shot object detection (ゼロショット物体検出)
学習時に見たことがないクラスの物体を画像内で検出し、位置を特定します。未知の不良品の検出や、新しい種類の物体の認識に役立ちます。
text-to-3d (テキスト-3D)
テキストの説明（プロンプト）を入力として、それに合致する3Dモデルや3Dシーンを生成します。ゲーム開発やCG制作、メタバースでのコンテンツ作成に利用されます。
image-to-3d (画像-3D)
2Dの単一画像または複数画像を入力として、その画像から3Dモデルや3Dシーンを再構築します。3Dスキャン、VR/ARコンテンツの作成、デジタルアーカイブなどに活用されます。
image feature extraction (画像特徴抽出)
画像を入力として、その画像の内容を数値ベクトル（特徴ベクトル、埋め込みベクトル）として表現します。このベクトルは画像の意味的な情報を圧縮したもので、類似画像検索や画像分類などの後続タスクに利用されます。
keypoint detection (キーポイント検出)
画像内の特定の「キーポイント」（特徴点）の位置を検出します。人間の姿勢推定（関節の位置）や顔の表情認識、特定の物体の形状理解などに不可欠です。
video-to-video (動画-動画)
入力動画を与えられた条件やスタイルに基づいて別の動画に変換します。動画のスタイル変換（例：アニメ風に変換）や、動画内のオブジェクトの入れ替えなどが可能です。

自然言語処理（テキストの理解と生成）

Natural Language Processing (NLP) (自然言語処理)
人間が日常的に使用する「自然言語」をコンピュータに理解させ、処理させるためのAI技術分野全般を指します。
- テキスト前処理
  生のテキストデータをコンピュータが扱いやすい形に整形する（例：単語に分割するトークン化、表記揺れを統一する正規化、不要な単語を削除するストップワード除去など）。
- 形態素解析
  日本語のように単語が区切られていない言語で、文を意味を持つ最小単位（形態素）に分割し、品詞などの情報を付与します。
- 構文解析
  文の文法的な構造を分析し、単語間の修飾関係や主語・述語の関係などを特定します。
- 意味解析
  単語や文が持つ意味そのものを理解しようとする（例：人名や地名などの固有表現認識、文脈に応じた単語の正しい意味を判断する単語意味曖昧性解消）。
- 発話行動認識
  言語表現の裏にある意図や感情を理解しようとする（例：感情分析で肯定的・否定的を判断、ユーザーの要求の意図認識）。
- テキスト生成
  与えられた情報に基づいて、自然なテキストを生成する（例：要約、翻訳、質問への回答、記事の自動作成）。
text classification (テキスト分類)
テキスト全体を、事前に定義されたカテゴリ（例：ニュース、スポーツ、政治、スパム、肯定的なレビュー、否定的なレビュー）の中から分類します。
token classification (トークン分類)
テキスト内の各トークン（単語や句読点）に対して、それぞれにカテゴリラベルを割り当てます。主に人名、地名、組織名などを特定する固有表現認識（NER）や、単語の品詞を特定する品詞タグ付けに用いられます。
table question answering (テーブル質問応答)
表形式のデータ（データベースやスプレッドシートのような表）と、その表に関する自然言語の質問を入力として受け取り、表内の情報から回答を生成します。
question answering (質問応答)
与えられた文書（コンテキスト）とそれに関する自然言語の質問を入力として、文書の中から質問に対する回答を抽出するか、または回答を生成します。カスタマーサポートの自動化などで利用されます。
zero-shot classification (ゼロショット分類)
モデルが学習時に一度も見たことがないカテゴリのテキストを分類するタスクです。テキストと候補カテゴリの意味的な類似性に基づいて分類を行います。
translation (翻訳)
ある言語のテキストを別の言語に自動で変換します。Google翻訳やDeepLのようなサービスで広く利用されています。
summarization (要約)
長いテキストの主要な情報を抽出し、より短いテキストを生成します。ニュース記事の速報や、長いレポートの概略把握に役立ちます。
feature extraction (特徴抽出)
テキストを入力として、そのテキストの内容を数値ベクトル（特徴ベクトル、埋め込みベクトル）として表現します。このベクトルはテキストの意味を捉えており、類似度計算や検索、他の分類タスクの前処理に利用されます。
text generation (テキスト生成)
与えられたプロンプトや先行するテキストに基づいて、自然で連続性のあるテキストを生成します。記事の自動作成、詩の生成、チャットボットの応答生成などに応用されます。
fill-mask (マスク穴埋め)
テキスト内の意図的に隠された（マスクされた）単語やフレーズを予測し、適切な単語で穴埋めします。言語モデルが単語の文脈を理解しているかを確認するタスクで、事前学習によく使われます。
sentence similarity (文類似度)
2つ以上の文（またはテキストスパン）がどの程度意味的に類似しているかを数値（スコア）で評価します。検索結果の関連性判断や、重複する質問の検出などに使われます。
text ranking (テキストランキング)
複数のテキスト候補に対して、特定のクエリや基準に基づいて関連性や重要度を評価し、順位付けします。検索エンジンの結果表示や、質問応答システムでの最適な回答選択に利用されます。

オーディオ（音声の理解と生成）

text-to-speech (TTS) (テキスト-音声合成)
テキストを入力として、そのテキストを読み上げる自然な音声を出力します。スマートフォンの音声アシスタントやカーナビゲーションでよく耳にする技術です。
text-to-audio (テキスト-オーディオ生成)
テキストプロンプト（指示）を入力として、音楽、効果音、環境音など、特定のオーディオコンテンツを生成します。TTSが話し言葉に特化しているのに対し、こちらはより広範な「音」の生成を目指します。
automatic speech recognition (ASR) (自動音声認識)
音声入力（話された言葉）をテキストに変換します。会議の文字起こしや音声入力機能の基盤技術です。
audio-to-audio (オーディオ-オーディオ変換)
音声を入力として、その音声を別の音声形式や特性を持つ音声に変換します。ノイズの多い音声から雑音を除去したり、特定の音源（例：話し声）を他の音源から分離したりするのに使われます。
audio classification (音声分類)
音声ファイルを入力として、その音声が何を表しているか（例：犬の鳴き声、音楽、話し声、アラーム音）を分類します。スマートホームでの音イベント検出や、環境モニタリングに応用されます。
voice activity detection (VAD) (音声活動検出)
音声ストリームの中から、実際に人間の声が含まれている区間と、無音またはノイズのみの区間を識別します。音声認識の前処理として無音部分をスキップしたり、電話会議システムで発話者を特定したりするのに役立ちます。

表データ

tabular classification (表データ分類)
表形式のデータ（例：顧客情報、医療記録）を入力として、そのデータがどのカテゴリ（例：顧客が商品を購入するかどうか、病気の種類）に属するかを予測します。
tabular regression (表データ回帰)
表形式のデータを入力として、そのデータに対応する連続的な数値（量）を予測します。例えば、住宅の広さや場所などの情報から住宅の価格を予測する、といったタスクです。
time series forecasting (時系列予測)
時間の経過とともに記録されたデータ（時系列データ、例：株価、売上、気温）の過去のパターンを分析し、将来の値を予測します。株価予測や電力需要予測などに利用されます。

強化学習・その他

Reinforcement Learning (強化学習)
エージェントが特定の環境の中で行動を選択し、その行動の結果として報酬を受け取りながら、最終的に報酬を最大化する最適な行動戦略を学習するAIの分野です。ゲームAIやロボットの制御に応用されます。
- Robotics (ロボティクス)
  ロボットの設計、構築、操作に関する分野で、強化学習はロボットが複雑なタスクを自律的に学習し実行するための重要なツールです。ロボットの歩行、物体操作、ナビゲーションなどに使われます。
Graph Machine Learning (GML) (グラフ機械学習)
ソーシャルネットワークや分子構造のような、グラフ構造のデータを扱うための機械学習手法の総称です。ノード（要素）とエッジ（関係性）で構成されるデータの分析に特化しており、ノードの分類、リンク予測（関係性の予測）、グラフ全体の分類などが可能です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up