Claude Cowork を社内AXに使っている私の実践ログです。社内固有名・個人名は伏せています。
正直に言う。最初、私はこの作業を3週間かけてやるつもりだった。
実務試験フォーマットを10種類追加する話。1種類あたり「ブリーフィングシート」「ワークシート」「評価シート」「管理画面入力テキスト」の4本セットで、合計40ドキュメント。各フィールドには800字制限があり、業界も職種も全部バラバラ。営業、CS、PM、デザイナー、データアナリスト、事業開発、オペレーション設計——どれも実在の現場っぽい解像度で書かないと意味がない。
3週間。下手すると1ヶ月。
それを半日で終わらせた。Claudeに丸投げしたわけじゃない。私が設計と検証の枠だけ作って、量産は Claude にやらせた。今日はその話を書く。
何が一番しんどい作業だったか
実務試験って、書こうとすると「業務内容」を書くのが一番難しい。
リアリティが要る。「Webアプリの企画書を書いてください」みたいな抽象は1秒で底が割れる。架空企業の名前、扱っているサービス、想定する顧客、配布データのフォーマット、それを使って学生が90分で出すアウトプット——ここまで具体にしないと、評価する側も「何をもって合格か」を判断できない。
これを10種類、しかも業界をバラけさせて書く。普通に発狂する。
私の判断:「マトリクス」を先に作って、中身は後から埋める
最初、私は1本ずつ順番に書こうとしていた。これがダメだった。
3本目で「あれ、これさっき書いた営業の課題と構造が似てる」みたいなことが起きる。設計の重複が見えていない。
結局やり方を変えた。先に「業界 × 職種」のマトリクスをExcelで作って、空セルを Claude に渡して埋めさせる方針に切り替えた。これが正解だった。
私が決めるのはこの3つだけ。
- 補強したい職種(既存ラインアップで弱い領域)
- それぞれの業界アンカー(SaaS / 製造業 / 医療 / 物流 など)
- 評価で見たい能力の4軸
中身はClaudeに任せる。
コピペで使えるプロンプトテンプレ
私が実際に使ったプロンプトはこんな形。
あなたは新卒向けワークサンプル試験の設計者です。
# 入力
- 職種: {ROLE}
- 業界: {INDUSTRY}
- 評価軸: {AXIS_1} / {AXIS_2} / {AXIS_3} / {AXIS_4}
- 試験時間: 90分
# 出力(JSON、各フィールド800字以内)
{
"fictional_company": "(架空企業設定。社名・事業内容・顧客・規模)",
"distribution_data": "(配布データの中身・フォーマット)",
"task_description": "(学生が90分で取り組む業務内容)",
"deliverable": "(提出物の形式)",
"eval_points": "(評価で見たいこと、軸ごとに)",
"fail_patterns": "(よくある不合格パターン3つ)"
}
# 制約
- 実在の企業名・サービス名は使わない
- 業界用語は1〜2個に絞る
- 各フィールド800字を絶対に超えない
これでうまくいかなかったら、評価軸の文言を変えて再生成する。プロンプト自体は同じ。
800字制限を機械的に検証する
ここが一番効いた。
10種類×6フィールドで60セルある。目視で字数を数えるとか、もう人類のやることじゃない。最後の最後に「全部超過してました」が起きると死ぬので、Pythonで殴った。
import json
from pathlib import Path
LIMIT = 800
violations = []
for p in Path("./works").glob("*.json"):
data = json.loads(p.read_text(encoding="utf-8"))
for field, value in data.items():
if isinstance(value, str) and len(value) > LIMIT:
violations.append((p.name, field, len(value)))
if violations:
for v in violations:
print(f"NG {v[0]} {v[1]} {v[2]}字")
else:
print("OK: 全フィールド800字以内")
3行で終わる。最大値は521字に収まっていた。安心して投稿側に渡せる!
うん、800字制限のバッファはまだあった。
ハマったところ
ここからが本題。半日で終わったとはいえ、詰まったポイントはちゃんとあった。
1. 業界アンカーが「化学」「半導体」みたいに狭すぎると守秘判定で全部書き直しになった
最初、現業のクライアント業界に近い設定で書いてしまった。後で読み返したら社名が割れる粒度になっていて、全部「あるバーティカルSaaS」「ある業界特化型プラットフォーム」レベルに抽象化し直した。これ、地味に効く。最初から「一般化された業界×職種」で振った方が安全。
2. Claudeに「リアリティを上げて」と言うと、固有名詞を盛り始める
具体性を求めるとブランド名や法規制名を勝手に入れてくる。「実在の企業名・サービス名は使わない」を制約に明記したら止まった。明記が大事。
3. 評価軸を抽象にしすぎると、不合格パターンが書けない
最初「論理的思考力」とか書いていたら、Claudeも抽象でしか返してこない。「定量データを根拠に提案できる」みたいに動詞で書いたら、不合格パターンが具体になった。
4. ワークシートと評価シートのファイル名規則を最初に決めなかった
途中で気付いてリネーム地獄。私のミス。最初に {番号}_{職種}_{種別}.md のテンプレを決めておけば良かった。これは反省。
5. JSON出力を指示してもMarkdownのコードフェンスで返してくる
これあるあるだと思う。いや、というか、ほぼ毎回起きる。re.search(r"\{[\s\S]*\}", text) で正規表現抜き出しに統一した。json.loads 直叩きはやめた方がいい。
6. 「ぜんぶやって」で40本一括投入したら、途中でClaudeが息切れした
1セッションで40ドキュメントは欲張りすぎた。10本ずつ、4ラウンドに分けたら安定した。バッチサイズ重要。
7. 一括生成のあと、必ず1本だけ人間が読む
品質の抜き打ち検査。10本全部読まなくていい。1本読んで「これ素材として使えるな」と判断できれば残り9本もだいたい同じ品質で出ている、というのが経験則。
私の判断:この種の作業は「人間が枠、AIが量」が一番速い
これは賛否あると思う。
「全部AIに任せる」も「全部自分で書く」も、私は遅いと思っている。
枠(評価軸・業界アンカー・字数制限・出力スキーマ)は人間が決める。中身の量産はClaudeに振る。最後の検証だけ機械的に走らせる。この役割分担が、たぶん一番速い。
ちなみに私が日中見ている事業は N限(Ngen)インターン——新卒向けに、実務試験型のワークサンプルを企業に提供する仕組みです。今回作ったのも、そのライブラリ拡充の一環でした。実務試験の設計って、AIで一気に解像度が変わる領域だと、現場で本当にそう感じる。
まとめ
- 3週間想定の作業を半日で終わらせた話
- 1本ずつ書くのではなく「業界×職種マトリクス」を先に作るのが正解
- プロンプトはJSONスキーマで固定、字数検証はPythonで殴る
- 1セッションに40本は無理。10本×4ラウンドが安定
- 「人間が枠、AIが量、機械が検証」の3層で回す
みなさんはどう運用していますか?
ワークサンプルや評価シートみたいな「構造はあるけど中身は多種多様」なドキュメントを量産するとき、どんな工夫をしていますか? バッチサイズの決め方、字数検証のやり方、品質の抜き打ち検査の頻度——みなさんのやり方があったらコメントで教えてください。
特に「私はもう全部AIに任せる派です」みたいな極端な運用、聞いてみたい。
Claude Cowork を社内AXの相棒として毎日使っているエンジニアの実践ログです。
私が日中見ている事業は「N限(Ngen)インターン」── 新卒の実務試験型(ワークサンプル型)インターンを企業に提供しています。AI時代の新卒採用に関心がある方は、下記からどうぞ。
- サービス概要(企業向け): https://ngen-intern.jp/company
- 使い方ガイド: https://ngen-intern.jp/company/guide
- お問い合わせ: https://ngen-intern.jp/contact