概要
先日 Microsoft から MarkItDown というライブラリの提供を開始したらしい。
何でも markdown にしてくれる君らしいので色々試してみる。
何が出来るの?
PowerPoint
Word
Excel
Images (EXIF metadata and OCR)
Audio (EXIF metadata and speech transcription)
HTML
Text-based formats (CSV, JSON, XML)
ZIP files (iterates over contents)
MarkItDown では上記を markdown 形式で出力してくれるらしい。
画像やオーディオデータはメタデータ出力の他に、文字や音声認識もしてくれるという感じかな?
とりあえずやってみよう
とりあえず README 通りに ZOZO の IR スライド資料を通してみる。
上記のうち2025年3月期 第2四半期(中間期)の決算説明会資料 pdf を使用。
from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("/content/決算.pdf")
print(result.text_content)
結果は...
# 3ページ目から抜粋
25/03期 2Qハイライト
商品取扱高
商品取扱高
(その他商品取扱高を除く)
営業利益
営業利益率
2,791
億円
(前年同期比+7.9% / 進捗率 45.8%)
2,608
億円
(前年同期比+7.9% / 進捗率 45.6%)
304
億円
(前年同期比+5.3% / 進捗率 47.5%)
11.7
%
(前年同期比-0.3ポイント)
※営業利益 率は営業利益を商品取 扱高(その 他商品取 扱高を除く)で除して算出
テキストの抽出は出来ているものの、思っていた程整ってない印象。
恐らくグラフィカルな資料だから、そもそもの markdown 形式に合ってなかったと考えられる。
PDF で試してみる
今度は2025年3月期 第2四半期(中間期)の決算短信を試してみる。
ぱっと見では頑張れば markdown で書けそうにも見えるけど...
・上昇(悪化)要因
① 平均出荷単価が前期実績を上回った一方で、2024年4月1日発送分よりヤマト運輸㈱による配送料値上げを
受け入れたことにより、荷造運賃(対商品取扱高)が0.4ポイント上昇。
② 物流拠点「ZOZOBASEつくば3」関連のマテハン機器等の償却開始により、減価償却費(対商品取扱高)が
0.3ポイント上昇。
③ 物流拠点ZOZOBASEつくば3及び「DPLつくば中央」の賃借開始に伴い、賃借料(対商品取扱高)が0.2ポイン
ト上昇。
・低下(改善)要因
① 物流拠点の自動化推進による省人化等により、物流関連費(対商品取扱高)が0.1ポイント低下。
② 決済手段の構成比の変化により、代金回収手数料(対商品取扱高)が0.1ポイント低下。
やはりテキスト抽出は出来ているものの、markdown ぽさは感じられない。
表についてもテキストだけ抽出していたので pdf は相性が難しいのかも。
PowerPoint で試してみる
以前輪読会の際に作った自前の PowerPoint スライドを通してみる。
<!-- Slide number: 19 -->
![Google Shape;212;p31](GoogleShape212p31.jpg)
# 評価指標
推薦精度
nDCG@K
F1@K
健康度
Health
公平性による比較
Unfairness (α=0, β=0)
Item fairness (α=0.5, β=0)
User fairness (α=0, β=0.5)
Two-sided fairness (α=0.5, β=0.5)
ちょっと markdown ぽくなった!
ただ pdf の際と同様に箇条書きの書式は認識されておらず、他のページでも同じ結果となっていた。
またスライドの区切りに
<!-- Slide number: 19 -->
上記スライド数を示す prefix が付いているのが特徴的。
Word で試してみる
テスト用に用意されていた docx ファイルで試してみる。
AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation
Qingyun Wu , Gagan Bansal , Jieyu Zhang, Yiran Wu, Beibin Li, Erkang Zhu, Li Jiang, Xiaoyun Zhang, Shaokun Zhang, Jiale Liu, Ahmed Awadallah, Ryen W. White, Doug Burger, Chi Wang
# Abstract
AutoGen is an open-source framework that allows developers to build LLM applications via multiple agents that can converse with each other to accomplish tasks. AutoGen agents are customizable, conversable, and can operate in various modes that employ combinations of LLMs, human inputs, and tools. Using AutoGen, developers can also flexibly define agent interaction behaviors. Both natural language and computer code can be used to program flexible conversation patterns for different applications. AutoGen serves as a generic framework for building diverse applications of various complexities and LLM capacities. Empirical studies demonstrate the effectiveness of the framework in many example applications, with domains ranging from mathematics, coding, question answering, operations research, online decision-making, entertainment, etc.
# Introduction
Large language models (LLMs) are becoming a crucial building block in developing powerful agents that utilize LLMs for reasoning, tool usage, and adapting to new observations (Yao et al., 2022; Xi et al., 2023; Wang et al., 2023b) in many real-world tasks. Given the expanding tasks that could benefit from LLMs and the growing task complexity, an intuitive approach to scale up the power of agents is to use multiple agents that cooperate. Prior work suggests that multiple agents can help encourage divergent thinking (Liang et al., 2023), improve factuality and reasoning (Du et al., 2023), and provide validation (Wu et al., 2023).
## d666f1f7-46cb-42bd-9a39-9a39cf2a509f
In light of the intuition and early evidence of promise, it is intriguing to ask the following question: how can we facilitate the development of LLM applications that could span a broad spectrum of domains and complexities based on the multi-agent approach? Our insight is to use multi-agent conversations to achieve it. There are at least three reasons confirming its general feasibility and utility thanks to recent advances in LLMs: First, because chat optimized LLMs (e.g., GPT-4) show the ability to incorporate feedback, LLM agents can cooperate through conversations with each other or human(s), e.g., a dialog where agents provide and seek reasoning, observations, critiques, and validation. Second, because a single LLM can exhibit a broad range of capabilities (especially when configured with the correct prompt and inference settings), conversations between differently configured agents can help combine these broad LLM capabilities in a modular and complementary manner. Third, LLMs have demonstrated ability to solve complex tasks when the tasks are broken into simpler subtasks. Here is a random UUID in the middle of the paragraph! 314b0a30-5b04-470b-b9f7-eed2c2bec74a Multi-agent conversations can enable this partitioning and integration in an intuitive manner. How can we leverage the above insights and support different applications with the common requirement of coordinating multiple agents, potentially backed by LLMs, humans, or tools exhibiting different capacities? We desire a multi-agent conversation framework with generic abstraction and effective implementation that has the flexibility to satisfy different application needs. Achieving this requires addressing two critical questions: (1) How can we design individual agents that are capable, reusable, customizable, and effective in multi-agent collaboration? (2) How can we develop a straightforward, unified interface that can accommodate a wide range of agent conversation patterns? In practice, applications of varying complexities may need distinct sets of agents with specific capabilities, and may require different conversation patterns, such as single- or multi-turn dialogs, different human involvement modes, and static vs. dynamic conversation. Moreover, developers may prefer the flexibility to program agent interactions in natural language or code. Failing to adequately address these two questions would limit the framework’s scope of applicability and generality.
Here is a random table for .docx parsing test purposes:
| 1 | 2 | 3 | 4 | 5 | 6 |
| --- | --- | --- | --- | --- | --- |
| 7 | 8 | 9 | 10 | 11 | 12 |
| 13 | 14 | 49e168b7-d2ae-407f-a055-2167576f39a1 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 |
流石公式!
かなり markdown で出力出来ている!
公式だけでは信用ならないので、Google ドキュメントに用意されているテンプレートのプロジェクト提案書(スペアミント)
を通してみると...
![水平線 ](data:image/png;base64...)
**会社名**
郵便番号
都道府県 市区町村 番地
(+81)000-0000
プロジェクト名
**20XX 年 9 月 4 日**
# 概要
ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入。
# 目標
1. ここにテキストを挿入 ここにテキストを挿入
2. ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入。
# 仕様
ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入。
# マイルストーン
## ここにテキストを挿入
ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入。
## ここにテキストを挿入
ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入 ここにテキストを挿入。
かなり markdown に変換されている!
ピクセルサイズへの対応は出来ていないものの、全体的に満足のいく結果。
Excel で試してみる
## Sheet1
| Alpha | Beta | Gamma | Delta |
| --- | --- | --- | --- |
| 89 | 82 | 100 | 12 |
| 76 | 89 | 33 | 42 |
| 60 | 84 | 19 | 19 |
| 7 | 69 | 10 | 17 |
| 87 | 89 | 86 | 54 |
| 23 | 4 | 89 | 25 |
| 70 | 84 | 62 | 59 |
| 83 | 37 | 43 | 21 |
| 71 | 15 | 88 | 32 |
| 20 | 62 | 20 | 67 |
| 67 | 18 | 15 | 48 |
| 42 | 5 | 15 | 67 |
| 58 | 6ff4173b-42a5-4784-9b19-f49caff4d93d | 22 | 9 |
| 49 | 93 | 6 | 38 |
| 82 | 28 | 1 | 39 |
| 95 | 55 | 18 | 82 |
| 50 | 46 | 98 | 86 |
| 31 | 46 | 47 | 82 |
| 40 | 65 | 19 | 31 |
| 95 | 65 | 29 | 62 |
| 68 | 57 | 34 | 54 |
| 96 | 66 | 63 | 14 |
| 87 | 93 | 95 | 80 |
xlsx だと表形式で出力してくれる。
markdown に表を書きたいけど書くのは面倒臭い、データを何かツールに上げるのは怖いというシーンが存在するので、これは結構ユースケース有りそう。
音声で試してみる
適当な音声ファイルで試してみると...
### Audio Transcript:
Error. Could not transcribe this audio.
あら?
同じ問題の issue が上がっていた。
X 等で検索しても音声ファイルで試行した例が見当たらないので、2024/12/20 現在はバグで使えないっぽい?
HTML で試してみる
ZOZO の広報ページを試してみる。
結果全文
[![株式会社ZOZO](/assets/svg/logo-zozo.svg)![](/assets/svg/zozo-logo-white.svg)](/)
メニューを開く
サイト内検索
![](/assets/images/search-button.png)
* ニュース
+ [ニュース トップページ](/news-top/)
+ [プレスリリース](/news-top/press/)
+ [トピックス](/news-top/topics/)
+ [IRニュース](/news-top/ir/)
* 企業情報
+ [企業情報 トップページ](/about/)
+ [会社概要](/about/profile/)
+ [企業理念](/about/philosophy/)
+ [社長メッセージ](/about/message/)
+ [取締役・執行役員](/about/officers/)
+ [会社沿革](/about/history/)
+ [サービス](/service/)
* IR
+ [IR トップページ](/ir-info/)
+ [経営方針 / ビジネスモデル](/ir-info/management-policy/business-model/)
+ [IRニュース](/ir/)
+ [IR資料室 / 直近の決算概況](/ir-info/library/result-summary/)
+ [業績ハイライト](/ir-info/financial-highlights/)
+ [株式・株主情報 / 株価情報](/ir-info/shareholders-info/stock-price/)
+ [ESG/CSR関連情報 / ESGデータ](/sustainability/data/)
+ [IRスケジュール](/ir-info/calender/)
+ [IRお問い合わせ / IRに関するお問い合わせ](/ir-info/inquiry/contact/)
* 統合報告
+ [統合報告 トップページ](/integratedreport/)
+ [Vision](/integratedreport/vision/)
+ [Strategy & Business](/integratedreport/strategy_business/)
+ [社外取締役インタビュー](/integratedreport/discussion/)
+ [サステナビリティ](/sustainability/)
* サステナビリティ
+ [サステナビリティ トップページ](/sustainability/)
+ [基本方針](/sustainability/policy/)
+ [社会](/sustainability/social/)
+ [環境](/sustainability/environment/)
+ [ガバナンス](/sustainability/governance/)
+ [ESGデータ](/sustainability/data/)
+ [外部評価](/sustainability/evaluation/)
+ [ESG/CSRニュース](/sustainability/initiative/)
+ [elove by ZOZO](https://zozo.jp/elove/)
* 採用
+ [採用 トップページ](/recruit/)
+ [採用応募者の個人情報の取扱い](/recruit/privacy/)
+ [新卒採用 Hello](/recruit/newgraduate/)
+ [中途採用](/recruit/mid-career/)
+ [アルバイト採用](/recruit/part-time/)
+ [ビジネス職 新卒採用](/recruit/business/)
+ [エンジニア職 新卒採用](/recruit/engineer-newgraduate/)
+ [障がい者採用](/recruit/challenged/)
+ [ZOZO NEXT 採用情報](https://zozonext.com/)
+ [スタッフインタビュー](/people/)
+ [社長メッセージ](/recruit/message/)
* ブログ
+ [FASHION TECH NEWS](https://fashiontechnews.zozo.com/)
+ [DEVELOPERS BLOG](https://technote.zozo.com/?gs=cd59299b43d5)
+ [TECH BLOG](https://techblog.zozo.com/)
* [社会貢献](/future-for-you/)
* [ニュース](/news-top/)
* [企業情報](/about/)
* [IR](/ir-info/)
* [統合報告](/integratedreport/)
* [サステナビリティ](/sustainability/)
* [採用](/recruit/)
* ブログ
* [社会貢献](/future-for-you/)
ニュース
* [ニュース トップページ](/news-top/)
* [プレスリリース](/news-top/press/)
* [トピックス](/news-top/topics/)
* [IRニュース](/news-top/ir/)
企業情報
* [企業情報 トップページ](/about/)
* [会社概要](/about/profile/)
* [企業理念](/about/philosophy/)
* [社長メッセージ](/about/message/)
* [取締役・執行役員](/about/officers/)
* [会社沿革](/about/history/)
* [サービス](/service/)
IR
* [IR トップページ](/ir-info/)
* [経営方針 / ビジネスモデル](/ir-info/management-policy/business-model/)
* [IRニュース](/ir/)
* [IR資料室 / 直近の決算概況](/ir-info/library/result-summary/)
* [業績ハイライト](/ir-info/financial-highlights/)
* [株式・株主情報 / 株価情報](/ir-info/shareholders-info/stock-price/)
* [ESG/CSR関連情報 / ESGデータ](/sustainability/data/)
* [IRスケジュール](/ir-info/calender/)
* [IRお問い合わせ / IRに関するお問い合わせ](/ir-info/inquiry/contact/)
統合報告
* [統合報告 トップページ](/integratedreport/)
* [Vision](/integratedreport/vision/)
* [Strategy & Business](/integratedreport/strategy_business/)
* [社外取締役インタビュー](/integratedreport/discussion/)
* [サステナビリティ](/sustainability/)
サステナビリティ
* [サステナビリティ トップページ](/sustainability/)
* [基本方針](/sustainability/policy/)
* [社会](/sustainability/social/)
* [環境](/sustainability/environment/)
* [ガバナンス](/sustainability/governance/)
* [ESGデータ](/sustainability/data/)
* [外部評価](/sustainability/evaluation/)
* [ESG/CSRニュース](/sustainability/initiative/)
* [elove by ZOZO](https://zozo.jp/elove/)
採用
* [採用 トップページ](/recruit/)
* [採用応募者の個人情報の取扱い](/recruit/privacy/)
* [新卒採用 Hello](/recruit/newgraduate/)
* [中途採用](/recruit/mid-career/)
* [アルバイト採用](/recruit/part-time/)
* [ビジネス職 新卒採用](/recruit/business/)
* [エンジニア職 新卒採用](/recruit/engineer-newgraduate/)
* [障がい者採用](/recruit/challenged/)
* [ZOZO NEXT 採用情報](https://zozonext.com/)
* [スタッフインタビュー](/people/)
* [社長メッセージ](/recruit/message/)
ブログ
* [FASHION TECH NEWS](https://fashiontechnews.zozo.com/)
* [DEVELOPERS BLOG](https://technote.zozo.com/?gs=cd59299b43d5)
* [TECH BLOG](https://techblog.zozo.com/)
JP
* JP
* [EN](/en/)
FOLLOW US
* [![Twitter](/assets/svg/i_twitter_key.svg)](https://twitter.com/ZOZOIncPR/)
* [![Facebook](/assets/svg/i_facebook_key.svg)](https://www.facebook.com/ZOZOIncPR/)
* [![YouTube](/assets/svg/i_youtube_key.svg)](https://www.youtube.com/channel/UCqQn2lDUylmjRDv1MFzsa5g)
ニュース
# ZOZO、韓国のファッション企業「MUSINSA」と戦略的パートナーシップに向けたMOUを締結
![](/topics/files/images/20241216_musinsa-mou.jpg)
2024年12月16日
NEW
トピックス
## ZOZO、韓国のファッション企業「MUSINSA」と戦略的パートナーシップに向けたMOUを締結
ファッションEC「[ZOZOTOWN](https://zozo.jp/)」を運営する株式会社ZOZO(本社:千葉県千葉市 代表取締役社長兼CEO:澤田 宏太郎)は、韓国のファッション企業「MUSINSA(ムシンサ)」と、戦略的パートナーシップに向けたMOUを締結しました。
当社は、MUSINSA代表取締役社長のチョ・マンホ様、および代表取締役のパク・ジュンモ様をお迎えし、本社にて執り行われた調印式においてMOUを締結しました。今後、戦略的パートナーシップを通じ、韓国のファッションブランドの日本市場進出および売上拡大を目指す予定です。
2024年3月27日(水)~2024年5月27日(月)の期間、ZOZOTOWNにポップアップストアとしてオープン(※)したMUSINSAは、インフルエンサーとコラボレーションしたZOZOTOWN限定商品や複数の施策を展開し、多くのユーザーの皆様にご好評いただきました。今後予定している戦略的パートナーシップによる具体的な取り組みについては、両社で協議を重ねながら検討を進めてまいります。両社の協業を通じて、幅広いファッションファンの皆様に当社サービスをご利用いただくきっかけを創出することを目指します。
※2024年3月19日付当社のニュース:[「MUSINSA」がZOZOTOWNにオンラインポップアップストアを3月27日からオープン!オープンを記念したZOZOTOWN限定アイテムも販売](https://corp.zozo.com/topics/20240319-musinsa-zozotown/)
報道関係者のみなさまへ
本件に関しては、[こちら](https://corp.zozo.com/contact/press/)までお問合せください。
* [ニュース トップページへ](/news-top/)
このページをシェアする
* ![Twitter](/assets/svg/i_twitter2.svg)
* ![Facebook](/assets/svg/i_facebook.svg)
* ![LINE](/assets/svg/i_line2.svg)
![株式会社ZOZO](/assets/svg/zozo-logo-black.svg)
ニュース
ニュース
* [ニュース トップページ](/news-top/)
* [プレスリリース](/news-top/press/)
* [トピックス](/news-top/topics/)
* [IRニュース](/news-top/ir/)
企業情報
企業情報
* [企業情報 トップページ](/about/)
* [会社概要](/about/profile/)
* [企業理念](/about/philosophy/)
* [社長メッセージ](/about/message/)
* [取締役・執行役員](/about/officers/)
* [会社沿革](/about/history/)
* [サービス](/service/)
IR
IR
* [IR トップページ](/ir-info/)
* [経営方針 / ビジネスモデル](/ir-info/management-policy/business-model/)
* [IRニュース](/ir/)
* [IR資料室 / 直近の決算概況](/ir-info/library/result-summary/)
* [業績ハイライト](/ir-info/financial-highlights/)
* [株式・株主情報 / 株価情報](/ir-info/shareholders-info/stock-price/)
* [ESG/CSR関連情報 / ESGデータ](/sustainability/data/)
* [IRスケジュール](/ir-info/calender/)
* [IRお問い合わせ / IRに関するお問い合わせ](/ir-info/inquiry/contact/)
統合報告
統合報告
* [統合報告 トップページ](/integratedreport/)
* [Vision](/integratedreport/vision/)
* [Strategy & Business](/integratedreport/strategy_business/)
* [社外取締役インタビュー](/integratedreport/discussion/)
* [サステナビリティ](/sustainability/)
サステナビリティ
サステナビリティ
* [サステナビリティ トップページ](/sustainability/)
* [基本方針](/sustainability/policy/)
* [社会](/sustainability/social/)
* [環境](/sustainability/environment/)
* [ガバナンス](/sustainability/governance/)
* [ESGデータ](/sustainability/data/)
* [外部評価](/sustainability/evaluation/)
* [ESG/CSRニュース](/sustainability/initiative/)
* [elove by ZOZO](https://zozo.jp/elove/)
採用
採用
* [採用 トップページ](/recruit/)
* [採用応募者の個人情報の取扱い](/recruit/privacy/)
* [新卒採用 Hello](/recruit/newgraduate/)
* [中途採用](/recruit/mid-career/)
* [アルバイト採用](/recruit/part-time/)
* [ビジネス職 新卒採用](/recruit/business/)
* [エンジニア職 新卒採用](/recruit/engineer-newgraduate/)
* [障がい者採用](/recruit/challenged/)
* [ZOZO NEXT 採用情報](https://zozonext.com/)
* [スタッフインタビュー](/people/)
* [社長メッセージ](/recruit/message/)
ブログ
ブログ
* [FASHION TECH NEWS](https://fashiontechnews.zozo.com/)
* [DEVELOPERS BLOG](https://technote.zozo.com/?gs=cd59299b43d5)
* [TECH BLOG](https://techblog.zozo.com/)
[セキュリティ・プライバシー](/security/)
[お問い合わせ](/contact/)
[社会貢献](/future-for-you/)
* [![ZOZOの出前授業 いつでも受付中 #費用無料 #リモートも可 詳細はこちら](/assets/images/b_bnr_future-for-you_sp.png)](/future-for-you/)
FOLLOW US
* [![Twitter](/assets/svg/i_twitter_key.svg)![](/assets/svg/i_twitter.svg)](https://twitter.com/ZOZOIncPR/)
* [![Facebook](/assets/svg/i_facebook_key.svg)![](/assets/svg/i_facebook.svg)](https://www.facebook.com/ZOZOIncPR/)
* [![YouTube](/assets/svg/i_youtube_key.svg)![](/assets/svg/i_youtube.svg)](https://www.youtube.com/channel/UCqQn2lDUylmjRDv1MFzsa5g)
© ZOZO, Inc. ALL RIGHTS RESERVED.
これはかなり良いのでは!?
HTML タグと markdown の相性による相乗効果でかなり正確に出力出来ている気がする。
終わりに
全体としてまだまだ出たてという感じはするものの、docx, HTML ではかなり良い結果が得られた気がする。
ユースケース的には社内の散逸したドキュメントを markdown 化し、LLM に食べさせる事で、社内の疑問に何でも答える君とか作れそうという印象。
追記
先達の記事が既にいくつか上がっていたのでこちら是非参照を