前回の記事「セキュリティと効率を両立:Azure OpenAI Serviceを活用したWordとPDFレポート要約」では1つのファイルから要約や重要なキーワードを抽出する方法を紹介しました。
この記事では、複数のドキュメントを1つにまとめて要約する方法を紹介します。情報過多の現代社会では、効率的に情報を整理し理解することが重要です。本記事を読むことで、GPT-3.5-turbo/GPT-4を活用した複数ドキュメントの一括要約手法の基本的な使い方や、その実装方法について学び、情報を効率的に整理できるようになります。
複数ドキュメントを効率的に要約するための3つの手法と、セキュリティを考慮したAzure OpenAI Serviceの利用方法を紹介します。1つ目は、複数のファイルをループで一度に要約する方法。2つ目は、複数のファイルを1つにまとめて要約する方法。3つ目は、大きすぎるファイルをセクションごとに要約する方法です。これらの手法を学ぶことで、情報を短時間で把握し、迅速な意思決定が可能となります。また、Azure OpenAI Serviceを利用することで、セキュリティ対策を確保しながら情報整理が可能です。
- 複数のファイルを個別に要約 1つのフォルダにある全てのファイルを1つづつ要約します。
- 複数のファイルを1つに要約 1つのフォルダにある複数のファイルをまとめて1つのファイルにします。
- 大きい複数のWord/PDFファイルを1つに要約 OpenAIの制限を超えるようなサイズに対する処理をします。
特に2つ目・3つ目の複数ファイルから1つの要約を作ることで以下のようなことが実現できます。
複数のファイルを使ったGPTの活用法
-
トピックの概要:
複数の関連文書から主要なトピックやキーワードを抽出し、それらについての概要を提供します。
-
文書例 複数のレポートや記事があり、それらは同じ業界や技術に関連していますが、異なる視点や側面を扱っています。たとえば、AI業界に関する以下のような文書があるとします。
- AI技術の最新動向に関するレポート
- AI業界の主要企業と製品の分析
- AI技術がもたらす社会的影響に関する記事
- AIの倫理的問題や規制に関する論文
- プロンプト例 複数の文書が提供するAI業界に関する情報をまとめて、主要なトピックとキーワードに焦点を当てた概要を提供してください。このプロンプトでは、AI業界に関する情報をまとめ、主要なトピックとキーワードに焦点を当てることを要求しています。このプロンプトを使用して生成された要約では、AI業界の全体像や主要なトピックが抽出され、複数の文書からの情報を効果的に統合できるでしょう。
-
文書例 複数のレポートや記事があり、それらは同じ業界や技術に関連していますが、異なる視点や側面を扱っています。たとえば、AI業界に関する以下のような文書があるとします。
-
クロスリファレンス:
複数の文書で共有されている情報や、それぞれの文書が補完し合う情報を明らかにします。
-
文書例 複数の研究論文やレポートがあり、それらは同じ研究分野やプロジェクトに関連していますが、異なる視点や側面を扱っています。たとえば、気候変動に関する以下のような文書があるとします
- 温室効果ガスの排出量に関する統計データ
- 再生可能エネルギー技術の最新動向に関するレポート
- 気候変動が農業や生態系に与える影響に関する研究論文
- 国際的な気候変動対策に関する政策分析
- プロンプト例 複数の文書が提供する気候変動に関する情報を比較・照らし合わせて、共通点や相互補完する情報を明らかにしてください。このプロンプトでは、気候変動に関する情報を比較・照らし合わせることを要求しています。このプロンプトを使用して生成された要約では、複数の文書で共有されている情報やそれぞれの文書が補完し合う情報が抽出され、それらの情報を効果的に統合できるでしょう。
-
文書例 複数の研究論文やレポートがあり、それらは同じ研究分野やプロジェクトに関連していますが、異なる視点や側面を扱っています。たとえば、気候変動に関する以下のような文書があるとします
-
タイムラインの作成:
複数の文書に記載されたイベントや情報を時系列に沿ってまとめ、全体像を把握しやすくします。
-
文書例 歴史的な出来事、プロジェクトの進捗報告、または製品開発の過程に関する情報が含まれている複数の文書があるとします。例として、ある企業の製品開発プロセスに関する以下のような文書がある場合を考えます。
- 製品アイデアの提案と市場調査に関する報告書
- プロトタイプ開発の進捗状況に関する報告書
- 製品テストとフィードバックの収集に関する報告書
- 製品ローンチと初期のマーケティング活動に関する報告書
- プロンプト例 複数の文書に記載された製品開発プロセスのイベントや情報を時系列に沿ってまとめて、タイムラインを作成してください。このプロンプトでは、製品開発プロセスに関する情報を時系列に沿ってまとめることを要求しています。このプロンプトを使用して生成された要約では、各文書で述べられているイベントや情報が時系列順に整理され、タイムラインが作成されます。
-
文書例 歴史的な出来事、プロジェクトの進捗報告、または製品開発の過程に関する情報が含まれている複数の文書があるとします。例として、ある企業の製品開発プロセスに関する以下のような文書がある場合を考えます。
-
重要な報告事項やインシデントの抽出:
複数の文書に記載された内容から、特に注意が必要な事項や発生したインシデントを効率的に抽出します。
- 文書例 このタスクでは、特に注意が必要な事項やインシデントが記載されている可能性のある複数の文書を用意します。例えば、企業内の各部署からの週報、プロジェクト進捗報告、またはシステムのメンテナンスログなどが含まれる場合があります。
- プロンプト例 複数の文書に記載された内容から、特に注意が必要な報告事項や発生したインシデントを効率的に抽出してください。このプロンプトは、各文書から注意事項やインシデントに関連する情報を効率的に抽出することを求めています。
-
データの集約: 複数の文書から関連するデータや統計情報を抽出し、要約にまとめることで、効果的な分析や比較が可能になります。
-
文書例
このタスクでは、関連するデータや統計情報が含まれる複数の文書を用意します。例えば、市場調査報告書、企業の販売データ、業界レポート、または経済指標の統計データなどが含まれる場合があります。 - プロンプト例 複数の文書から関連するデータや統計情報を抽出し、効果的な分析や比較が可能になるように要約を作成してください。このプロンプトは、各文書から関連するデータや統計情報を抽出し、要約にまとめることを求めています。生成された要約を確認し、データや統計情報が適切に抽出されていることを確認することが重要です。また、関連性のあるデータや統計情報を比較・分析するために、AIによって生成された要約を適切な形式で整理することも必要です。
-
文書例
ここからは実際のスクリプトを紹介します。
複数のファイルを個別に要約
前回のスクリプトの「def main(file_path):」から下の部分を以下に変更することでfolder_path = "path/to/your/files_folder"
に指定したフォルダ内にあるword(docx)とpdfを要約することが出来ます。
import glob
import os
def process_files(folder_path, file_extension, reader_func):
file_pattern = os.path.join(folder_path, f"*.{file_extension}")
for file_path in glob.glob(file_pattern):
text = reader_func(file_path)
summary = generate_summary(text)
print(f"Summary for {file_path}:\n{summary}\n")
# ファイルが格納されたフォルダのパス
folder_path = "path/to/your/files_folder"
# フォルダ内のすべてのWordファイルを読み込む
process_files(folder_path, 'docx', read_docx)
# フォルダ内のすべてのPDFファイルを読み込む
process_files(folder_path, 'pdf', read_pdf)
続いて複数のファイルからまとめて1つの要約を作る方法です。
複数のファイルを1つに要約
上記のスクリプトの「# ファイルが格納されたフォルダのパス」から下の部分を以下のように変更することで folder_path = "path/to/your/files_folder" に指定したフォルダ内にあるword(docx)とpdfの文章から1つの要約を作成することが出来ます。「複数のファイルを使ったGPTの活用法」にあるように用意する文書、プロンプトを変えることで様々な用途に使うことが出来ます。
# ファイルが格納されたフォルダのパス
folder_path = "path/to/your/files_folder"
# フォルダ内のすべてのWordファイルのテキストを結合
combined_text = ""
for file_path in glob.glob(folder_path):
<span class="hljs-keyword"> if</span><span> file_path.endswith(</span><span class="hljs-string">".docx"</span><span>):
text = read_docx(file_path)
</span><span class="hljs-keyword">elif</span><span> file_path.endswith(</span><span class="hljs-string">".pdf"</span><span>):
text = read_pdf(file_path)</span>
combined_text += text + "\n"
# 結合されたテキストの自動要約を生成
summary = generate_summary(combined_text)
print(f"Combined summary:\n{summary}\n")
大きい複数のWord/PDFファイルを1つに要約
OpenAIはモデルごとにトークン数に制限があります。gpt-3.5-turboであれば 4k、gpt-4であれば32kまでとなっております。 正確にトークン数をカウントするには OpenAI公式が提供する tiktoken を使う必要がありますが、だいたい1文字1トークンと考えて問題ありません。A4 1枚がだいたい1500文字前後なので、gpt-3.5-turboであれば 3枚程度、gpt-4であれば 20枚程度までとなります。
これより大きい文書から要約するには工夫が必要となります。
以下の例では、一定文字数ごとに分割して処理しています。他にも、レポートから同じ章(売上高、利益、商品・サービスの売れ行き、市場動向など)を抽出して利用するといったことも可能です。
ただし、各セクションの要約が個別に生成されるため、全体的な文脈が失われることがある点に注意してください。
# 結合されたテキストをセクションに分割する関数
def split_text(text, max_length):
words = text.split()
sections = []
current_section = []
for word in words:
if len(" ".join(current_section) + " " + word) > max_length:
sections.append(" ".join(current_section))
current_section = [word]
else:
current_section.append(word)
if current_section:
sections.append(" ".join(current_section))
return sections
# セクションごとに要約を生成し、最後に結合する
max_length = 4096
sections = split_text(combined_text, max_length)
combined_summary = ""
for i, section in enumerate(sections):
summary = generate_summary(section)
combined_summary += f"Summary for section {i + 1}:\n{summary}\n"
print(f"Combined summary:\n{combined_summary}\n")