AI を『使うだけ』から『AI に秘書を付ける』へ — 自宅 PC で動くおせっかい AI フレームワーク llive 開発日記

Posted at 2026-05-17

AI を『使うだけ』から『AI に秘書を付ける』へ — 自宅 PC で動くおせっかい AI フレームワーク llive 開発日記

著者: 古瀬和文（ぷるやん）

はじめに — 「AI に任せる」って実は怖い

最近、ChatGPT や Claude、Gemini など、便利な AI が次々と出てきました。仕事の文章を書かせたり、コードを書かせたり、子どもの宿題のヒントを聞いたり、ちょっとした調べ物に使ったり。

でも、こんなふうに思ったことはありませんか?

「会社の機密情報を AI に投げて大丈夫?」
「家族との会話の文字起こしを Google に送って平気?」
「医療記録を AI に分析させたら個人情報はどこへ行く?」
「電気代も気になる。クラウドで動かすと月いくら?」
「ネットが切れたら何もできなくなる?」
「AI が間違ったことを言っても誰が責任を取るの?」

実は、これらの懸念にきちんと答えてくれる AI ツールは、まだ世の中にあまりありません。便利な AI は基本的にクラウド頼みで、データはどこかの大きな会社のサーバに送られて処理されます。

私が今作っている llive (リブ) という研究開発フレームワークは、この問題に正面から取り組んでいます。一言で言うと:

「AI 本体」ではなく、「AI を使いこなす秘書」を作る研究

今日 (2026 年 5 月 17 日) 1 日で、要件 32 件追加 + プログラム約 2200 行 + テスト 78 件追加 + ベンチマーク 4 種類実施 + 記事 11 本公開、という結構な分量を進めたので、その内容を 非エンジニアの方にも分かるよう に整理しました。

llive を例えるなら — 「AI に秘書を付ける」感じ

AI を「優秀だけど忘れっぽくて、計算が苦手で、嘘もつく、責任感の薄い新入社員」と想像してください。

[従来]               [llive がやろうとしていること]
新入社員 (AI) に  →  上司 (=人間) は新入社員に
直接仕事を依頼      指示書 (=Brief) を渡し、
                    秘書 (=llive) が以下を担当:
                    - 過去のやり取りを記録 (記憶)
                    - 危ない発言を止める (監査)
                    - 計算は電卓を使わせる (補完)
                    - 段取りを管理 (思考プロセス)
                    - 責任所在を残す (台帳)

つまり llive は「AI 本体を作り替える」のではなく、「AI の周りに被せて、苦手な部分を補い、危ない部分を止める仕組み」です。

中で動かす AI 本体は、Qwen (アリババの OSS LLM) や Llama (Meta の OSS LLM) を選べます。これらは大手企業が無料で公開しているもので、自宅 PC でも動かせます。

今日やったこと、5 つに絞って

1. AI に「タスク指示書 (Brief)」を渡せるようにした

これまでの llive は「ぽつん」と一言投げると一言返してくる感じだったのを、

brief_id: portal-refresh-2026-05-17
goal: |
  ホームページのトップ画像を新製品に差し替えてほしい。
constraints:
  - 既存のリンクを壊さない
  - 画像サイズは 1MB 以内
success_criteria:
  - 画像が表示される
  - リンクテストが全部通る
approval_required: true   # 危ない作業は人間の承認を必須に

のような「構造化された依頼書」で渡せるようにしました。会社で言うところの業務指示書のテンプレみたいなものです。

これにより:

AI が「何をやればいいか」を最初から正確に把握できる
「やってはいけないこと」を最初に伝えられる
「完了条件」が明確なので、AI が勝手な解釈をしにくい
全部の作業記録が後から見返せる (議事録のように)

2. AI の「思考の癖」を 10 個に整理した

YouTube チャンネル「心理の深層」を見ていて、面白いことに気付きました。人間の思考って 10 種類の癖の組み合わせ で成り立っているらしいんです:

構造化 — 問題を分解する
再構成 — アイデアを組み替える
閉ループ — 確認しながら進める
自己拡張 — 道具や記憶を使う
不確実性 — 「分からない」を持ちこたえる
探索 — 試しにやってみる
整合 — 全体の辻褄を合わせる
来歴 — 経緯を覚えておく
多視点 — 別の角度から見直す
現実接続 — 実際の物に当てはめる

これを llive に組み込むと:

5 つはもう実装済み
3 つは既存の機能で対応済み
1 つは今日新しく作った
1 つだけが「これから」

つまり llive は 「人間の思考の癖を AI に持たせる」研究 とも言えます。

3. AI に「計算をさせない」仕組みを入れた

ChatGPT に「2.5 × 7.8 ÷ 0.3 はいくつ?」と聞くと、それっぽい数字を返してきますが、結構な確率で間違えます。AI は言葉が得意だけど、計算は得意じゃないんです。

そこで、llive は AI に計算させない設計 にしました。AI が「ここで計算が必要だ」と判断したら、電卓に渡す感じで決定論的に正確な答えを取得し、それを AI に「事実」として与える。

例えば:

AI: 「速度 5 m/s で 3 秒移動したら何メートルですか?」
llive (内蔵): 「距離 = 速度 × 時間 = 5 × 3 = 15 m」 (数式エンジンで計算)
AI: 「15 m です。これは…」 (llive の計算結果を引用するだけ)

さらに 「単位の次元チェック」 も入れたので、AI が「5 m/s + 3 s = 8」みたいな単位が合わない式を出したら必ずエラーを返して止めるようになっています (5 m/s と 3 s は足せない量です。中学物理の話)。

4. ベンチマークの「変な勝ち方」を自分で見破った

AI 同士の性能比較 (ベンチマーク) を取ってみたら、最初の結果で llive が他の AI より圧倒的に速い という数字が出ました。

AI	応答時間
llive	約 0.15 秒
クラウド AI (Perplexity)	約 4 秒
ローカル AI (ollama)	約 18 秒

「やった、圧勝!」と言いたいところですが、ユーザーから「変に高速ですね、何かおかしくないですか?」と指摘を受けて、よく調べたら:

llive 側は AI を実は呼んでいなかった (テンプレートで応答していた)
速度を測っている部分が AI の処理時間ではなく、プログラム起動時間 だった
比較対象 (chars 数) も AI の返答ではなく JSON 全体の長さ で測っていた

つまり「勝った気になっていただけ」でした。

そこで設計を直して、ちゃんと AI を呼ぶようにして再測定したら:

AI	応答時間
llive (AI 内蔵)	約 40 秒
ローカル AI 直叩き	約 15 秒

llive のほうが 2-4 倍遅い。理由は llive が AI に渡すプロンプトを丁寧に組み立てるので、AI の処理時間自体が長くなるからでした。

これを「llive の付加価値は速度ではなく構造 (記憶・監査・段取り)」と書いて公開しました。「失敗した数字を消す」ではなく「失敗を honest に出す」 のが研究では大事です。

5. AI 用クイズで「平均値・分散値」を測った

10 問のクイズ (算数 / 論理 / 知識 / 推論 / 創造性) を AI に解かせて、平均正答率と速度のばらつきを統計的に測りました:

モード	正答率 (10 問中)	平均応答時間
Debug モード (詳しい記録あり)	6 問	22.3 秒
Release モード (記録最小限)	7 問	22.8 秒

観察:

詳しい記録を残す Debug モードでも、応答時間はほぼ変わらない (+1.8%) → 開発中ずっと記録を取っても性能は落ちない
正答率の差 (6 問 vs 7 問) は サンプル数 10 では誤差の範囲 (1 問の差は確率的揺らぎ)

「次は 30 問以上で、複数の AI モデルで、ちゃんと比較しよう」と決めました。

なぜこれが大事か — 業界・社会への意義

自宅 PC で完結する AI = プライバシー革命

llive はネット接続なしで完全に自宅 PC 内で動作します。これは:

家族の会話の文字起こし をクラウドに送らずに要約できる
医療情報・診療記録 を病院内に閉じたまま AI 分析できる
企業の機密文書 を社外に出さずに整理できる
災害時にネットが切れても AI が引き続き使える
電気代だけで AI が動く (クラウド月額不要)

AI の責任所在を明確に

llive は AI のすべての判断を台帳 (ledger) に記録します。後から「いつ、誰が、何を、なぜ承認したか」が全部分かるので:

医療現場: AI が出した薬剤提案を医師がなぜ承認/却下したかが記録に残る
法律事務所: AI が起案した文書のどの部分が AI 由来か追跡可能
金融機関: AI が出した投資判断の全プロセスを監督官庁に提出可能
教育現場: AI が出した解答の引用元を全部辿れる

これは ChatGPT / Claude / Gemini の単独使用では絶対にできない領域です。

計算と単位を間違えない AI

特に 製造業 / 計測 / 物理 / 工学 / 医療 の現場では、AI が「5 m/s + 3 s = 8」のような単位を間違えた式を返してくると致命的です。llive はこれを自動で止めるので、安心して業務 AI として使えます。

「AI に置き換えられる」ではなく「AI と一緒に働く」

llive の TUI 画面 (llove) では、AI が「これでいいですか?」と聞いてきて、人間が承認/却下/修正できます。完全自動ではなく、人間が判断ループに必ず入る。

これは AI 失業の不安を減らす設計でもあります。

これからの展望

短期 (~3 ヶ月) — 今日の続き

数学と単位の計算エンジンを完成
AI 思考プロセス (KJ法 / マインドマップ / 矛盾解決) の自動化
AI の出力を Z3 という形式検証ツールで検算

中期 (~1 年) — llive 専用の小型 AI を作る

大手 AI (Qwen 14B など) から「llive 専用に圧縮した小型 AI」を蒸留
自宅 PC でもサクサク動く軽量版を目指す

長期 (~3 年) — 全く新しい AI 構造へ

Transformer (今の AI の基本構造) に頼らない、llive 専用のアーキテクチャ
「AI が記憶を直接参照する」「人間の承認を必須にする」が AI 自体に組み込まれた設計

「AI を使うなら Qwen で十分」と言われない設計

ユーザーから鋭い指摘も受けました:

「差別化されていないと研究の価値がない。普及している AI を使った方がマシってなりそう」

その通りです。llive 単独では Qwen に勝てません (生成品質は Qwen そのもの)。

でも、こう考えるとどうでしょう:

「Qwen を 自宅 PC で安全に責任を持って使う なら llive が最短経路」

これは Qwen / Llama / Mistral が進化しても 変わらない価値 です。なぜなら:

記憶を保ち続けるのは llive
計算を間違えないのは llive
危ない発言を止めるのは llive
議事録を残すのは llive
Local 環境で動かすのは llive

「AI 本体 (Qwen) と AI を使いこなす秘書 (llive) は別物で、両方必要」というポジションです。

おわりに — 1 日の振り返り

今日 1 日で、

32 件の要件追加
約 2200 行のプログラム実装
78 件のテスト追加 (全 1014 件 OK、不具合ゼロ)
4 種類のベンチマーク実施
11 本の技術記事 + 本記事 1 本の公開

を達成しました。1 日でこれだけ進められるのは、AI と一緒に開発しているから です (実装中の私の相棒は Claude Opus 4.7 という AI で、コードを書いてもらいながら、設計や戦略は私が判断しています)。

llive はまだ研究開発段階 (v0.6 = 開発中バージョン) ですが、プログラマー以外の方 でも、いずれは自宅 PC で安心して AI を使える未来を目指しています。

質問・感想・「こういう使い方ができたら嬉しい」というご要望は GitHub Issues や Twitter / X (@puruyan) までお気軽にお願いします。

本記事は技術者向けの詳細版 (同日 11 本 + Qiita 統合版 1 本) と並走する一般読者向けバージョン。専門用語を可能な限り平易な比喩に置き換えました。「自宅 PC で動く、おせっかいで、責任感のある AI 秘書」を作る研究、というのが llive のいちばん簡単な説明です。

AI を『使うだけ』から『AI に秘書を付ける』へ — 自宅 PC で動くおせっかい AI フレームワーク llive 開発日記

AI を『使うだけ』から『AI に秘書を付ける』へ — 自宅 PC で動くおせっかい AI フレームワーク llive 開発日記

はじめに — 「AI に任せる」って実は怖い

llive を例えるなら — 「AI に秘書を付ける」感じ

今日やったこと、5 つに絞って

1. AI に「タスク指示書 (Brief)」を渡せるようにした

2. AI の「思考の癖」を 10 個に整理した

3. AI に「計算をさせない」仕組みを入れた

4. ベンチマークの「変な勝ち方」を自分で見破った

5. AI 用クイズで「平均値・分散値」を測った

なぜこれが大事か — 業界・社会への意義

自宅 PC で完結する AI = プライバシー革命

AI の責任所在を明確に

計算と単位を間違えない AI

「AI に置き換えられる」ではなく「AI と一緒に働く」

これからの展望

短期 (~3 ヶ月) — 今日の続き

中期 (~1 年) — llive 専用の小型 AI を作る

長期 (~3 年) — 全く新しい AI 構造へ

「AI を使うなら Qwen で十分」と言われない設計

おわりに — 1 日の振り返り

関連リンク