最初に
AIが急速に進歩した今、
「AIについて表面的には知っているけど、仕組みはよくわからない」
「AIはデータが重要とよく聞くけど、なぜ重要なのかわからない」
そういった疑問を解消するために、超入門向けのAI解説シリーズを書いていこうと思います(続くかは不安)
また、自分が所属している会社で
AIに興味を持つエンジニアが少しでも増えたら嬉しい
という思いもあり、社内向けに噛み砕いた内容にしています
今回のテーマ
第1回目のテーマは
「AIにおけるデータの重要性」 です
「AIを作るには大量のデータが必要」
「AIはデータが命」
IT業界にいると、一度は聞いたことがある言葉だと思います。
今回は 「なぜ大量のデータが必要なのか」 を、
AIに詳しくない方でもイメージできるように解説していきます
なぜ大量のデータが必要なのか
大前提として、AIは 「学習をして自身で判断する生き物」 であり、「プログラミングシステム」ではありません
AIは人間と同じように、繰り返し学習(=勉強)することで、少しずつ賢くなっていきます
このとき
データ = 教科書
と考えると、イメージしやすいかもしれません
教科書が1冊だけだと、学べる知識には限界があります
そこでAIには、大量のデータ(=たくさんの教科書) を与えて、知識を増やしていく必要があるのです
ここからは、AIの視点で理解しやすくするために、
「猫の画像認識」を例に話を進めていきます
例
AIに猫を学習させると仮定します
まずは猫の画像を1枚覚えさせます

この画像を学習したAIはこう思います
「猫というのは、全体が黒くて尻尾があって、耳が2つ尖っていて、足が2本?」
AIに猫を覚えさせることができました、そしたらAIに次の画像が何なのかを判断してもらいましょう
![]()
この画像をみたAIはこう思うわけです
「しっぽはあるが、体全体が黒くないし、尖っている耳が1つしか見えないし、足が3本もあるからこれは自分が知っている猫ではない」
極端な例で、あくまで私が言葉にしただけですが1枚目の画像だけで学習したAIは2枚目の画像は猫と判断してくれないわけです
なぜこうなるのか?
ではなぜAIは 猫を学習したのに猫と判断してくれなくなるのか
それはAIは人間と違って、「想像」や「補完」 ができないからです
人間であれば、
・色が違っても猫だとわかる
・足が見切れていても猫だと判断できる
・耳が片方見えなくても猫だと認識できる
といったように、
「今までの経験から共通点をうまく補完」が行えます
しかしAIは、
・黒い
・耳が2つ見える
・足が2本に見える
といった、学習した情報そのもの を元にしか判断できません
つまり、1枚の画像しか学習していないAIからしたら学習した猫の画像=猫のすべてになってしまうのです
学習のデータが少ないと、この様な状況に陥ってしまいます
それを解決するために
【様々な猫の画像を大量にあつめて、AIに学習させること】
が大事になってきます
具体的には
1. 様々な体色
2. 様々な品種
3. 子猫、成猫
4. 後ろ姿や横からの姿
5. 足が見えている、隠れている
などなど他にも色々ありますが、しっかりと猫を判断させるためには最低限でもこれだけの要素が必要になってきます
AIには失敗の経験も必要
ではここで、さまざまな種類の猫の画像を100万枚集めて学習させたAI を想像してみましょう
このAIに、猫ではない画像を読み込ませたら、
果たして「これは猫ではない」と正しく判断できるでしょうか?

この画像を見た時に、猫の画像しか学習していないAIは、この画像を猫と分類することになります
それは何故か、AIは今までの学習から、猫というものしか学んでおらず、「猫では無いもの」という概念が存在しないからです
なので犬の画像を見た時には
・耳があって尖っている
・体の色が茶色い
・足がある
→猫っぽい...?
となり、結果としてどんな動物の画像を読み込んでも猫として判断してしまうことになってしまいます
これを回避するために、AIのデータセットでは目的のデータ(正解データ) いがにも、目的以外のデータ(不正解データ) が必要になってきます
AIが失敗から学ぶとはどういうことか
ここで重要なのが、AIにも「失敗の経験」が必要 だという点
例えば、
・犬の画像を入力する
・AIは「猫」と予測する
・人間が「これは犬であって猫ではない」と教える
この一連の流れが、AIにとっての失敗体験になります
このときAIは、
「猫と犬はどこが違うのか?」
を内部的に調整していきます
正解を教えることで、境界線を学習する
AIの学習では、
・入力データ(画像)
・正解ラベル(猫/犬)
のセットが非常に重要です
正解ラベルとは
学習データに対して、あらかじめ人間が振っている答え
この正解ラベルがあることで、AIは次第に、
・猫と猫の共通点
・猫と犬の違い
を学習していきます
つまりAIは、
「これは猫」
「ここから先は猫ではない」
という 境界線 を作るようになります
この境界線がはっきりするほど、AIの判断精度は高くなっていくことになります
なぜ「猫以外」のデータも重要なのか
ここまでの話からわかるように、AIにとって重要なのは 猫のデータだけではありません
・犬
・うさぎ
・人
・風景
・ぬいぐるみ
・イラスト
...etc
といった、猫ではないデータ も同じくらい重要です
なぜなら、
「何が猫で何が猫ではないのか」
を知らなければ、「何が猫なのか」も正確に定義できないからです
これは人間にも言えて、問題の答えを丸暗記でテストをウケても応用が効かず全く答えられませんが、間違いをしてそれを繰り返していくことでどんな問題にも対応できるようになります
まとめ
ここまでの話から、なぜAIの学習データが重要なのかを理解できたかと思います
AIにとってデータは単なる「量」ではなく
・どれだけ多くのパターンを学べるか
・どれだけ現実世界に近いデータか
が重要になってきます
データの量が多くて、質も高いデータで作成されたAIが実用的なAIといえます
最後に
今回からシリーズものを始めました、今まで上げてきた記事で「次は〇〇について書きたい」って言ってるのに何も書いてないのに新たに始めて震えています
純粋にAIについてなんか難しいことをやってるというイメージを払ってほしくて書き始めました、後は自社のAIエンジニアを増やそうという魂胆もあります
次のテーマも決まってませんが、次は「教師あり学習、教師なし学習」などの学習法の話でも書こうかと思っています
ネタが尽きるまでは1ヶ月に1~2本上げていきたいと思っているので今回こそは頑張ります
株式会社ONE WEDGE
【Serverlessで世の中をもっと楽しく】
ONE WEDGEはServerlessシステム開発を中核技術としてWeb系システム開発、AWS/GCPを利用した業務システム・サービス開発、PWAを用いたモバイル開発、Alexaスキル開発など、元気と技術力を武器にお客様に真摯に向き合う価値創造企業です。