0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【RAG精度爆上がり】AIネイティブなファイル命名規則とフォルダ構成のすべて (実践編)

0
Last updated at Posted at 2026-01-26

はじめに

前回は、AI時代のデータ管理におけるマインドセットについて解説しました。今回は、エンジニアとして知っておくべき具体的な 「ファイル命名規則」「ディレクトリ構造」 について解説します。

これらは単なる整理整頓ではありません。LLM(大規模言語モデル)の特性である「トークナイザー」や「コンテキストウィンドウ」を考慮した、一種のプロンプトエンジニアリングです。

1. 時間的明確性のエンジニアリング

AIにとって「時間」は理解が難しい概念の一つです。ファイル名に明確な時間的アンカー(Time Anchors)を埋め込むことで、AIの推論精度を高めることができます。

ISO 8601 を絶対基準にする

ファイル名の日付は必ず YYYY-MM-DD (例:2025-01-23)に統一してください。

  • 理由1:ソート順と論理順の一致
    文字列としての辞書順ソート(ビッグエンディアン)が、そのまま時系列順になります。RAGシステムが検索結果をリランク(再順位付け)する際、推論の負荷とエラー率を低減できます。
  • 理由2:曖昧性の排除
    02-03-2025 という表記は、2月3日なのか3月2日なのか解釈が揺れますが、ISO 8601はこの曖昧性を完全に排除します。

区切り文字は「ハイフン」一択

ファイル名の単語区切りには、アンダースコア(_)ではなくハイフン(-)を使いましょう。

推奨例: 2025-01-23_Project-Alpha_Spec-Sheet.md

これには自然言語処理(NLP)的な理由があります。多くのトークナイザーにおいて、ハイフンは「単語の区切り」として認識されやすい一方、アンダースコアは「一続きの識別子」として処理される傾向があります。

  • marketing-strategy[marketing], [strategy] (個別の意味ベクトルを持つ)
  • marketing_strategy[marketing_strategy] (1つの固有名詞として扱われる可能性)

AIにファイル名から意味を理解させたいなら、単語間はハイフンで区切るのがベストプラクティスです。

2. コンテキストを注入するフォルダ構造「PARA」

ファイルパスは、RAGにおいて強力なメタデータになります。単にファイルを放り込むのではなく、フォルダ階層自体をAIへの説明文として機能させましょう。ここで有効なのが PARAメソッド の応用です。

  1. Projects(進行中の案件):最も鮮度が高く、具体的なコンテキスト。
  2. Areas(継続的な責任範囲):経理、人事など、終わりがないドメイン知識。
  3. Resources(参考資料):マニュアルや外部データなどの静的知識。
  4. Archives(アーカイブ):過去の履歴。デフォルトの検索対象から外す。

RAGを構築する際、ファイルの中身だけでなくファイルパスもチャンク(テキストの断片)に注入することで、AIの理解度が変わります。

実装イメージ(Context Injection):

File Path: /1_Projects/2025_Marketing/Strategy.md
Content: 今期の目標は売上20%増です。

このようにパスを含めてベクトル化することで、AIは「マーケティングプロジェクトにおける戦略の話だ」と文脈を保持したまま回答を生成できます。

3. MarkdownとYAML Frontmatterの活用

PDFやWordはレイアウト情報がノイズになりやすいため、AIネイティブな形式である Markdown (.md) への移行が推奨されます。

Frontmatterでメタデータを直埋めする

Markdownファイルの冒頭に --- で囲まれたメタデータ(YAML Frontmatter)を記述しましょう。これがAIに対する最強の「名刺」になります。

---
id: "DOC-2025-001"
document_type: "Policy"      # ドキュメントの種類
status: "Active"             # Active, Draft, Archived
valid_until: "2026-03-31"    # 有効期限
tags: ["人事", "リモートワーク"]
---

# リモートワーク規定 2025年度版
...

これをやっておくと、RAG検索時に「現在有効な(status: Active)人事規定(document_type: Policy)を教えて」といったメタデータフィルタリングが可能になります。本文の解析に頼るよりも、圧倒的に正確にハルシネーションを防げます。

まとめ:AIのためのファイル管理は「DX」そのもの

  1. 日付はISO 8601でソート可能にする。
  2. 区切り文字はハイフンでトークナイズを助ける。
  3. フォルダ構造(PARA) で文脈を与える。
  4. Markdown + Frontmatterでメタデータを構造化する。

これらは、AIのためだけでなく、私たち人間にとっても「探しやすく、理解しやすい」環境を作ります。

次回は最終回。これらを企業規模で展開する際の「社内RAG構築アーキテクチャ」について解説します。

>> 【社内RAG構築】「ハルシネーション」を殺すためのデータ前処理とアーキテクチャ (応用編)

作成日: 2026-01-23

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?