はじめに
前回は、AI時代のデータ管理におけるマインドセットについて解説しました。今回は、エンジニアとして知っておくべき具体的な 「ファイル命名規則」 と 「ディレクトリ構造」 について解説します。
これらは単なる整理整頓ではありません。LLM(大規模言語モデル)の特性である「トークナイザー」や「コンテキストウィンドウ」を考慮した、一種のプロンプトエンジニアリングです。
1. 時間的明確性のエンジニアリング
AIにとって「時間」は理解が難しい概念の一つです。ファイル名に明確な時間的アンカー(Time Anchors)を埋め込むことで、AIの推論精度を高めることができます。
ISO 8601 を絶対基準にする
ファイル名の日付は必ず YYYY-MM-DD (例:2025-01-23)に統一してください。
-
理由1:ソート順と論理順の一致
文字列としての辞書順ソート(ビッグエンディアン)が、そのまま時系列順になります。RAGシステムが検索結果をリランク(再順位付け)する際、推論の負荷とエラー率を低減できます。 -
理由2:曖昧性の排除
02-03-2025という表記は、2月3日なのか3月2日なのか解釈が揺れますが、ISO 8601はこの曖昧性を完全に排除します。
区切り文字は「ハイフン」一択
ファイル名の単語区切りには、アンダースコア(_)ではなくハイフン(-)を使いましょう。
推奨例: 2025-01-23_Project-Alpha_Spec-Sheet.md
これには自然言語処理(NLP)的な理由があります。多くのトークナイザーにおいて、ハイフンは「単語の区切り」として認識されやすい一方、アンダースコアは「一続きの識別子」として処理される傾向があります。
-
marketing-strategy→[marketing],[strategy](個別の意味ベクトルを持つ) -
marketing_strategy→[marketing_strategy](1つの固有名詞として扱われる可能性)
AIにファイル名から意味を理解させたいなら、単語間はハイフンで区切るのがベストプラクティスです。
2. コンテキストを注入するフォルダ構造「PARA」
ファイルパスは、RAGにおいて強力なメタデータになります。単にファイルを放り込むのではなく、フォルダ階層自体をAIへの説明文として機能させましょう。ここで有効なのが PARAメソッド の応用です。
- Projects(進行中の案件):最も鮮度が高く、具体的なコンテキスト。
- Areas(継続的な責任範囲):経理、人事など、終わりがないドメイン知識。
- Resources(参考資料):マニュアルや外部データなどの静的知識。
- Archives(アーカイブ):過去の履歴。デフォルトの検索対象から外す。
RAGを構築する際、ファイルの中身だけでなくファイルパスもチャンク(テキストの断片)に注入することで、AIの理解度が変わります。
実装イメージ(Context Injection):
File Path: /1_Projects/2025_Marketing/Strategy.md
Content: 今期の目標は売上20%増です。
このようにパスを含めてベクトル化することで、AIは「マーケティングプロジェクトにおける戦略の話だ」と文脈を保持したまま回答を生成できます。
3. MarkdownとYAML Frontmatterの活用
PDFやWordはレイアウト情報がノイズになりやすいため、AIネイティブな形式である Markdown (.md) への移行が推奨されます。
Frontmatterでメタデータを直埋めする
Markdownファイルの冒頭に --- で囲まれたメタデータ(YAML Frontmatter)を記述しましょう。これがAIに対する最強の「名刺」になります。
---
id: "DOC-2025-001"
document_type: "Policy" # ドキュメントの種類
status: "Active" # Active, Draft, Archived
valid_until: "2026-03-31" # 有効期限
tags: ["人事", "リモートワーク"]
---
# リモートワーク規定 2025年度版
...
これをやっておくと、RAG検索時に「現在有効な(status: Active)人事規定(document_type: Policy)を教えて」といったメタデータフィルタリングが可能になります。本文の解析に頼るよりも、圧倒的に正確にハルシネーションを防げます。
まとめ:AIのためのファイル管理は「DX」そのもの
- 日付はISO 8601でソート可能にする。
- 区切り文字はハイフンでトークナイズを助ける。
- フォルダ構造(PARA) で文脈を与える。
- Markdown + Frontmatterでメタデータを構造化する。
これらは、AIのためだけでなく、私たち人間にとっても「探しやすく、理解しやすい」環境を作ります。
次回は最終回。これらを企業規模で展開する際の「社内RAG構築アーキテクチャ」について解説します。
>> 【社内RAG構築】「ハルシネーション」を殺すためのデータ前処理とアーキテクチャ (応用編)
作成日: 2026-01-23