Day 7

Sapeet 10th Anniversary Advent Calendar 2025

Day 12

LLM・LLM活用 Advent Calendar 2025

@Kuroyanagi96(Ryota Kuroyanagi)in

株式会社Sapeet

【検証】夜泣き対応で絶望したので、娘の泣き声を最新LLMに「翻訳」させてみた

514

Last updated at 2025-12-06Posted at 2025-12-06

はじめに

生まれたばかりの赤ちゃんは、まだ言葉を知らない。
代わりに泣くことで、世界と会話しようとする。

でも、その"言葉"を聞き取るのが、想像以上に難しい。
眠いのか、お腹がすいたのか、ただ抱きしめてほしいだけなのか。
毎回ゼロから推理ゲームが始まる。

夜中の3時。
泣き声の理由が分からず、抱っこしながらため息をついたとき、ふと頭に浮かんだ。

「この"泣き声の翻訳"、いまのAIならできたりするか？」

普段PdMとしてプロダクトの課題を見つけている私にとって、育児は未知の不便だらけで、手を入れたくなるUXの塊だった。

もし、この泣き声をAIが解析して「これはミルクだよ」「ただの寝言だよ」と教えてくれたら、どれだけ心が軽くなるだろうか？

そう思い立ち、試してみた。

自己紹介

株式会社SapeetのAI SaaS事業部でプロダクトマネージャーとして働いている畔柳です！
早速私事なのですが（笑）、ありがたいことに、最近子どもが生まれ、生後1ヶ月の育児の真っ只中です。
冒頭に記載したように、育児の課題をシステムで解決できないかと思い立ち、今回は、新生児の泣き声分析を試してみたのでその結果を記事にします。

（調べると既に似たアプリがありますが、最新モデルでどれくらいの精度で分析できるか個人的に気になったので試してみてます。）

実験方針

今回は「そもそも汎用LLMで泣き声の意図を分析できるのか？」にフォーカスして実験しました。

利用したモデル

ChatGPT5.1（Thinking）
Gemini 3 Pro（思考モード）
Claude Opus 4.5（じっくり考える）

検証データ（泣き声）

愛娘の実際の泣き声
※ サンプル収集のために泣かせ続けると妻との関係に深刻なバグが生じるため、今回は明確な正解がある以下の2パターンのみを使用しました
1. 不快
  - 状況：お風呂上がりに保湿ローションと皮膚薬を塗っている最中
  - 正解ラベル：不快（Discomfort）
2. 空腹
  - 状況：3時間おきのミルクの時間に泣いた声
  - 正解ラベル：空腹（Hungry）
使用した実際の泣き声はこちら。

使用プロンプト

各モデルで条件を揃えるため、以下のプロンプトで統一

この音声は、生後1ヶ月前後の赤ちゃんの泣き声です。
医療的な診断ではなく、育児の参考レベルで、泣きの理由を以下の形式で出力してください。

| 推定カテゴリ | hungry / sleepy / diaper / hold_me / discomfort(暑い・寒い・姿勢) / health_issue / unknown の中から1つ |
| 自信度(%) | 0〜100 |
| 推定理由 | なぜその可能性が高いと判断したか |
| おすすめの対応 | 親がすぐ試せるアクションを具体的に |
| 親へのひと言 | 育児の気持ちが楽になる前向きなメッセージ |

結果

「不快」の泣き声

モデル	推定カテゴリ	自信度	コメントの特徴（＝推定理由＋対応＋親への一言の要約）
ChatGPT5.1	unknown（不明）	35%	・生後1ヶ月は泣きの理由がまだ分化しておらず、音だけで原因特定が困難と判断・「空腹・抱っこ・暑さ寒さ・ゲップ」など基本ケアを順番に確認するスタンスを推奨・“理由が分からない泣きは普通”と、親の不安を軽減する丁寧なメッセージ
Gemini 3	hungry（空腹）	85%	・吸啜反射らしい「Neh」音が聞こえるとして空腹と高精度で推定・授乳タイミングやルーティング反射のチェックを提案・「成長したいサイン」と捉える前向きな励ましを添える
Claude Opus 4.5	hungry（空腹）	55%	・高いピッチ・強弱のゆらぎ・断続的なリズムから空腹寄りと推定・授乳間隔と吸い付き反射確認を中心とした対応を提案・「泣きの個性は徐々に分かる」とし、親をねぎらい安心感を与える

実際の出力

「空腹」の泣き声

モデル	推定カテゴリ	自信度	コメントの特徴（＝推定理由＋対応＋親への一言の要約）
ChatGPT5.1	unknown	30%	・短い強めの泣きと静寂が交互にある「小刻みな訴え」だが、空腹・眠い・不快のどれとも断定できないとして保留・決めつけず、オムツ→暑さ寒さ→抱っこ→授乳の順で“チェックリスト方式”の対応を推奨・理由が分からなくて当然という前提で、親の不安を軽減する共感的メッセージ
Gemini 3	hungry	80%	・「ワー、ワー」と強いリズムの繰り返しから空腹パターンと判断・授乳タイミング確認・ルーティング反射チェックを提案、授乳直後ならオムツとゲップも確認・強い泣き声を“元気な証拠”と捉え、落ち着いて対応できるよう励まし
Claude Opus 4.5	hungry	60%	・約0.6秒間隔の規則的なリズム・徐々に強くなる音量変化・中程度のピッチから「訴えかけ系の空腹泣き」と判断・授乳→吸啜反射確認→オムツ→抱っこ→室温の優先順で対応を提案・「泣きは会話の始まり」と、親子のコミュニケーションとして前向きに捉える励まし

実際の出力

感想

正直なところ、単発の音声分析では、実用レベルの判別は難しいという結果になりました。

「空腹」という正解に対してはGemini/Claudeが正解していますが、一方で「不快」ケースでも「空腹」と判定してしまいました。これでは、「泣いたらとりあえずミルク」という結論になってしまい、過飲症候群などのリスクを考えるとプロダクトとしては危険ですね。

ちなみに、各モデルの「人格（調整方針）」の違いが如実に出たのが面白かったです。

モデル	特徴	PdM的視点での解釈
ChatGPT5.1	安全第一・保留型	リスク回避を最優先するエンタープライズ向け仕様。「間違った診断をするくらいなら答えない」という設計思想を感じる。
Gemini 3	断定・パターン重視型	「Nehの音＝空腹」といった特定の音響特徴量に強く反応する。自信満々に答えてくれるので、当たれば頼もしいがハルシネーションのリスクも。
Claude Opus 4.5	音響分析・傾向型	物理的な特徴（ピッチ、周波数）を細かく分析するが、断定は避けるバランス型。エンジニアリングのパートナーとしては優秀そう。

追加実験

「絶対評価（この泣き声は何？）」の精度が出ないなら、「相対評価（さっきと比べてどう？）」ならどうでしょうか？
人間でも「いつもより激しく泣いている」といった変化の方が気付きやすいものです。

そこで、2つの音声を同時にアップロードし、違いを比較させてみました。

結果は、どのモデルも空腹の方が、力強く、訴求力が強いという傾向を正確に掴み取りました。

モデル	分析のアプローチ	判定結果（違いの捉え方）
ChatGPT5.1	音響特徴の定性比較（慎重・客観的）	断定は避けるが、傾向の違いを指摘・不快泣き：「様子を見ながらの断続的な訴え」・空腹泣き：「切迫感のある持続的な強い訴え」
Gemini 3	緊急度と文脈の解釈（意味付け重視）	要求の緊急度で明確に分類・不快泣き：「情緒的な不快感・甘え」（緊急度：低）・空腹泣き：「生理的な欲求・空腹」（緊急度：高）
Claude Opus4.5	定量データ分析・可視化（エンジニアリング的）	数値とグラフで物理的な差を提示・空腹泣きの方が音量が53%大きく、ピッチが高いと算出・自律的に波形・スペクトログラムを描画して根拠を示した

実際の出力（ChatGPT5.1）

まず前提として：
ここでの分析は**波形や音量・周期性などの“音の特徴”だけを見たもの**で、「どんな理由で泣いているか（痛い／お腹すいた／眠い など）」を医学的・確定的に判断することはできません。その点だけご了承くださいね。

---

## 1. 「1.mp3」の特徴

**全体的な傾向**

* 長さ：約 **14秒**
* 平均音量（RMS）は2番より **やや小さめ**
* 一番大きいところの音量（ピーク）も2番より **少し控えめ**
* 泣き声の「かたまり（バースト）」数：
  → 約 **8回** と比較的多く、
  「**短めの泣き声が何度も繰り返される**」タイプ

**リズム・抑揚**

* 「ワーン…（少し間）…ワーン…」というように、
  **一つ一つの泣き声の間に区切りや休みが比較的ある**パターン。
* フレーズごとの強さや長さにばらつきがあり、
  **強く訴えている部分と、少しおさまっている部分が交互に出る**印象。

**音の高さの傾向（粗い指標）**

* ゼロ交差率（音の波がプラスとマイナスを行き来する頻度）が
  2番より **低め** →
  ざっくり言うと、
  2番に比べて **少し低めで落ち着いた高さ**、
  またはノイズが少ない、より「声っぽい」泣き方になっています。

---

## 2. 「2.mp3」の特徴

**全体的な傾向**

* 長さ：約 **12秒**（1番より少し短い）
* 平均音量（RMS）は1番より **大きい**
  → **全体的に強く・大きく聞こえる**泣き方
* ピーク音量も1番より **高い**
  → 一番大きく泣いているときのエネルギーが強い
* 泣き声の「かたまり」数：
  → 約 **4回** と少なめで、
  「**1回1回が長く・強く続く**」タイプ

**リズム・抑揚**

* 「ワーーーーーッ」と**息継ぎ少なめで長く続く泣き声**が特徴的。
* フレーズの数は少ないのに、1回の泣きが長く強く続くので、
  **“強い訴え”や“切迫感”を感じやすいパターン**になっています。

**音の高さの傾向（粗い指標）**

* ゼロ交差率が1番より **高い** →
  ざっくり言うと、
  **1番よりも高めの音域**、あるいは多少ノイズ成分（「ギャーッ」という感じ）が多い泣き方。
* 一般的には、こうした**高め・強め・持続的**な泣きは、
  不快感やしんどさが強いときに出ることも多いとされていますが、
  それだけで原因を特定することはできません。

---

## 3. 2つを並べたときの違いのまとめ

ざっくり言うと：

* **1.mp3**

  * 長さはやや長め、でも1回1回の泣きは **比較的短く区切られている**
  * 全体の音量は **中程度〜やや控えめ**
  * 音の高さも **2番よりやや低め・落ち着き気味**
  * → 「断続的に訴えている泣き」「少し様子を見ながら泣いているような印象」

* **2.mp3**

  * 全体は少し短いが、1回1回が **長くて大きい**
  * 平均音量・ピークともに **強い**
  * 音の高さも **やや高くて切迫感がある**印象
  * → 「強く長く一気に訴える泣き」「しんどさや不快感が強そうに聞こえる泣き」

---

## 4. 注意点と活かし方

* 音声だけでは、

  * お腹がすいている
  * 抱っこしてほしい
  * オムツが気持ち悪い
  * どこか痛い
    などの**具体的な原因は判断できません**。
* ただし、

  * 「いつもより明らかに**高く激しい**泣き方になっている」
  * 「**泣き方が急に変わった**」「何をしても全くおさまらない」
    といった場合は、**体調や痛みも含めて確認するサイン**にもなります。

もしよければ、

* この2つは「同じ赤ちゃんの別の日」なのか、
* それとも「違う赤ちゃん」なのか、
* どんな状況で録音したのか（お腹すき／お風呂上がり／夜寝る前など）

を教えてもらえれば、「行動や状況とのセット」で、もう少し具体的な解釈のヒントもお伝えできます。

実際の出力（Gemini 3）

ご提示いただいた2つの音声ファイル（生後1ヶ月前後の赤ちゃんの泣き声）を聴き比べ、その特徴と印象を分析しました。

生後1ヶ月頃は、赤ちゃんが自分の要求を伝えるために泣き方にバリエーションが出始める時期ですね。2つの音声には明確な違いが感じられます。

以下に比較分析の結果をまとめます。

### 📊 泣き声の比較分析

| 特徴 | 音声ファイル 1 (1.mp3) | 音声ファイル 2 (2.mp3) |
| :--- | :--- | :--- |
| **リズム** | 断続的で、息継ぎが多い | 連続的で、一定のリズムがある |
| **強さ・高さ** | やや弱々しく、変動がある | 力強く、張りがある |
| **呼吸音** | 「ヒック」というようなしゃくり上げが混じる | 深く息を吸って吐き出す力が強い |
| **印象** | **「不快感・ぐずり・甘え」** | **「明確な要求（空腹など）」** |

---

### 1. 音声ファイル 1 (1.mp3) の詳細分析
この泣き声は、何かを強く訴えるというよりは、**「どうしていいかわからない不快感」**や**「心細さ」**を感じさせます。

* **特徴:**
    * 「ウァッ、ウァッ」と短く区切るような泣き方で、合間に「ヒッ、ヒッ」という過呼吸気味の息継ぎ（しゃくり上げ）が聞こえます。
    * 泣き声のトーンが一定ではなく、強まったり弱まったりしており、何か（おむつの不快感、暑い・寒い、眠いのに眠れないなど）に困っているような印象を受けます。
* **推測される状況:**
    * **眠ぐずり:** 眠いけれど上手く入眠できない時の、少しパニック混じりの泣き声に似ています。
    * **不快感の訴え:** お腹にガスが溜まっている、あるいは抱っこして落ち着かせてほしいという「甘え泣き」の可能性もあります。

### 2. 音声ファイル 2 (2.mp3) の詳細分析
こちらの泣き声は、1.mp3に比べて**「生命力」**と**「緊急性」**を感じさせます。

* **特徴:**
    * 声の出し出しが鋭く、お腹からしっかりと声が出ています。「オギャー」という典型的な新生児〜乳児の泣き声に近いです。
    * 一定のリズム（泣く→息を吸う→泣く）が整っており、自己主張がはっきりしています。
* **推測される状況:**
    * **空腹の訴え:** 一般的に、お腹が空いた時はリズミカルで力強い泣き方になることが多いです。
    * **強い不快感:** 今すぐに解消してほしい明確な理由（強い空腹やおむつの強い汚れなど）がある時に発せられる、アピールの強い泣き声です。

---

### 💡 総合的な考察

2つの音声を比較すると、**音声ファイル2の方が「緊急度が高い要求（生理的欲求）」**であり、**音声ファイル1の方は「情緒的な不快感や、なだめてほしい状態」**である可能性が高いと考えられます。

* **1.mp3** は、抱っこやあやしでリズムを整えてあげると落ち着くかもしれません。
* **2.mp3** は、ミルクやオムツ替えなど、具体的なケアが必要なタイミングかもしれません。

もちろん、赤ちゃんの個性によって泣き方は異なりますが、音響的な特徴からは上記のような違いが見受けられました。

---

**私はこの分析をもとに、さらに育児のサポート情報を検索したり、赤ちゃんの睡眠環境についてのアドバイスをまとめることもできます。ご希望のアクションはありますか？**

実際の出力（Claude Opus 4.5）

音声ファイルを分析するために、まず音声処理ライブラリを使って特徴を抽出します。分析が完了しました。以下に結果をまとめます。

---

## 🍼 赤ちゃんの泣き声 比較分析結果

### 基本情報

| 項目 | 音声1 | 音声2 |
|------|-------|-------|
| 長さ | 14.01秒 | 12.16秒 |

---

### 主な違い

#### 1. **音量（泣きの強さ）**
- **音声2は音声1より約53%大きい**
- 音声2の方がより力強く泣いています

#### 2. **ピッチ（声の高さ）**
- 平均：音声1 = 705Hz、音声2 = 753Hz
- **音声2の方がやや高い声**で泣いています
- 音声1の方がピッチの変動が大きい（867Hz vs 664Hz）ので、より抑揚のある泣き方です

#### 3. **泣きのパターン**
- 音声1：**テンポが速く（BPM 123）、細かく区切れた泣き方**（62回の区切り）
- 音声2：**ゆったりしたテンポ（BPM 101）で、長く持続する泣き方**（43回の区切り）

#### 4. **声の質感**
- 音声2の方がスペクトル重心が高く、**より明るく鋭い印象**の泣き声
- 音声1は比較的**落ち着いた音色**

---

### 推測される泣きの特徴

| 音声 | 特徴 |
|------|------|
| **音声1** | 細かく「ふぇ、ふぇ、ふぇ」と断続的に泣く感じ。音量は控えめで、訴えかけるような泣き方 |
| **音声2** | より力強く「うぁーーん」と持続的に泣く感じ。声量があり、明瞭で訴求力が強い泣き方 |

---

### 視覚的な比較

![image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/356592/6d60b5fe-69d1-4746-a51a-6f1af2f291de.png)


グラフでは波形、スペクトログラム（周波数分布）、音量変化、声の明るさの時間変化を並べて比較しています。

---

何か特定の観点でさらに詳しく分析したい点があれば、お知らせください！

※ Claudeは、こちらが指示していないにも関わらず、コードを実行して波形・スペクトログラムを可視化してくれました。

考察

今回の実験から、実用的な「泣き声分析システム」を作るためのヒントがいくつか見えてきました。

「点」ではなく「線」での分析が必須

泣き声単体（点）のデータでは、最新のLLMでも「空腹」と「不快」の完全な判別は困難
しかし、比較（線）にすると特徴抽出の精度が跳ね上がった
日々の泣き声をログとして蓄積し、普段の泣き声との偏差を見る」機能が必要

マルチモーダルなコンテキスト注入

LLMが迷っていた最大の理由は「文脈がないから」
人間の親は「さっきミルクを飲んでから3時間経っているから、これは空腹だ」と推論する
AIにも、音声だけでなく「最終授乳時間」「睡眠時間」「排泄ログ」「室温」などの構造化データをコンテキストとして利用することで、精度は向上するはず

ただし、LLMの役割は「正解を出すこと」だけではないと考えており、育児、特に夜泣きの孤独さに対して「理由がわからなくて当然ですよ」「頑張ってますね」と言われるだけで、UXとしての価値は成立する可能性があります。
そのため、機能的価値とUXのバランス設計が、この領域の肝になりそうです。

さいごに

LLMの進化によって、「これ、できたらいいな」というアイデアを、コードを書かずに実証できる時代になりました。今回の実験も、着想から検証完了までわずか1時間程度です。~~記事を書くのに3時間かかってるのは内緒~~

これからのプロダクト開発は、「どう作るか」以上に 「どの課題を、どういう切り口で解くか」 という着眼点と仮説検証のスピードが重要になってくると改めて感じました。

株式会社Sapeetでは、今回のようなLLMを用いた技術検証や、AI技術を実際のビジネス・プロダクトに落とし込む活動を日々行っています。
技術の力でユーザーの体験を変えていくことに興味があるエンジニア、PdMの方、ぜひ一度お話ししましょう！

もしSapeetにご興味をお持ち頂けましたら、ぜひこちらの採用サイトからご連絡ください！

514

121

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up