8
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

TDCソフトAdvent Calendar 2024

Day 13

ほぼなんでもMarkdownに変換する「MarkItDown」を試す

Last updated at Posted at 2024-12-17

巷で話題のMarkitdownを試してみます。

PDFはもちろん、wordやexcelなどのOffice系のファイルにも対応しており、生成AIを噛ませれば画像のaltを作ってくれたりするみたいです。

準備

Readmeに沿ってインストール

pip install markitdown

あとはファイルを用意して、mirkitdown.convertに入れるだけです

from markitdown import MarkItDown

markitdown = MarkItDown()
result = markitdown.convert("test.xlsx")
print(result.text_content)

検証

PDF

Markdown変換といえばでおなじみPDFからやってみます。

デジタル庁のPDFで試してみます

結果(クリックすると開く)
健康保険証は

(令和6年11月時点)

12月2日以降 新たに発行されなくなります

現行の健康保険証は、令和6年12月2日以降新たに発行されなくなります。
その後は、マイナンバーカードの健康保険証利用(マイナ保険証)を
基本とするしくみに移行します。
ただし移行後も、
お手元の健康保険証は、有効期限までの間、最長1年間使用できます。
※後期高齢者医療保険加入者の方の有効期限は2025年7月31日となりますのでご注意ください  

マイナ保険証ならではのメリット

過去のお薬・診療データに基づく、より良い医療が受けられる

突然の手術・入院でも高額支払いが不要になる

救急現場で、搬送中の適切な応急処置や病院の選定などに活用される

健康保険証として利用できるだけでなく、日常生活の中で利用できるシーンが
広がっています。ぜひ日頃からマイナンバーカードを持ち歩いて、ご活用ください!        

よくある質問

Q.

A.

Q.

A.

マイナンバーカードに大事な情報が入っていますか?

マイナンバーカードにはプライバシー性の高い情報は入っていません。

また、カード裏面のマイナンバー(12桁)を知られただけでは悪用されません。
保険証利用時、医療機関がマイナ保険証で参照できるデータは、現行の健康保険証と同じ情報と、
ご本人の同意があった場合のみ、受けている治療内容やお薬の履歴のみとなります。        

本人が顔認証付きカードリーダーを操作できない場合はどうするのですか?

顔認証のかわりにマイナンバーカード作成時に設定した
暗証番号を代理人が入力することなどで受付することができます。
待合スペース等にいるご本人のお顔とマイナンバーカードのお写真を、職員が目視で確      
認する本人確認も可能です。

それでもマイナ保険証ではなく別の方法で
受診したいときはどうすればいいの?

詳しくは裏面に


マイナ保険証をお持ちでなくても

資格確認書によりこれまで通り医療にかかれます

マイナ保険証を使わない場合の受診方法

⚫ 2024年12月2日以降は、「資格確認書」でもこれまで通り医療にかかることが

できます。

<イメージ>

※ 保険者によって様式・発行形態が

異なります。

※ 資格確認書の交付等に関する事項
は、ご自身が加入している医療保
険者からの情報をご確認ください。
ご不明点等についても、同保険者
にお問合せをお願いします。

⚫ マイナンバーカードの健康保険証利用登録をしていない方には、現行の健康保険証の     
有効期限がきれる前に「資格確認書」を無償で申請によらずお届けします。
ご自身での申請は不要です。なお、すでに利用登録されている方であっても、解除された    
方には同様にお届けします。

• マイナ保険証を持っていても、マイナンバーカードでの受診等が困難な方(高齢者、障害者等)は、申

請いただくことで、資格確認書を無償で交付します。(更新時の申請は不要)

• 病態の変化などにより、顔認証付きカードリーダーを上手く使えなくなった場合、資格確認書をご使

用ください。現行の健康保険証と同様、親族等の法定代理人や、介助者等による代理申請も可能です。

• 後期高齢者医療制度の被保険者は、2025年7月末までの暫定的な運用として、現行の健康保険証

が失効する方に資格確認書を無償で申請によらず交付します。そのため、当分の間、申請は不要です。

移行後もご安心ください

マイナンバーカードでのカードリーダーの操作が上手くいかなくても、
医療費が10割負担になることはありません。

マイナンバーカード
の保険証利用につい
てもっと知りたい方
はこちら

元のフォントサイズ自体が大きいのもありますが、OCRによる文字の誤変換はほとんどありませんでした。漢字でもちゃんと変換できています。
ただ、PDF2ページ目末尾のフリーダイヤルや厚労省のロゴは変換対象外になっていました。画像として検知されているのでしょうか?
また、AzureのDocument Intelligenceのlayoutモデルのように、ヘッダーまで勝手につけてくれる、みたいなことはできていません。

PPTX

パワポです。

Microsoftのテンプレートで試します。

結果(クリックすると開く)
<!-- Slide number: 1 -->
# 製品のロードマップ
第 1 四半期
マイルストーン
革新的な製品の完成と最終化の成功
第 2 四半期
マイルストーン
革新的な製品の市場投入の成功
第 3 四半期
マイルストーン
需要の増加を示す、大規模なユーザー基盤の達成を記念
第 4 四半期
マイルストーン
戦略的な提携の形成、市場でのプレゼンスと能力の拡大

### Notes:

<!-- Slide number: 2 -->
# 製品のロードマップ
第 1 四半期
マイルストーン
革新的な製品の完成と最終化の成功
第 2 四半期
マイルストーン
革新的な製品の市場投入の成功
第 3 四半期
マイルストーン
需要の増加を示す、大規模なユーザー基盤の達成を記念
第 4 四半期
マイルストーン
戦略的な提携の形成、市場でのプレゼンスと能力の拡大
第 1 四半期
マイルストーン
革新的な製品の完成と最終化の成功
第 2 四半期
マイルストーン
革新的な製品の市場投入の成功
第 3 四半期
マイルストーン
需要の増加を示す、大規模なユーザー基盤の達成を記念
第 4 四半期
マイルストーン
戦略的な提携の形成、市場でのプレゼンスと能力の拡大

### Notes:

<!-- Slide number: 3 -->
# 製品のロードマップ
第 1 四半期
第 2 四半期
第 3 四半期
第 4 四半期
マイルストーン

革新的な製品の完成と最終化の成功
マイルストーン

革新的な製品の市場投入の成功
マイルストーン

需要の増加を示す、大規模なユーザー基盤の達成を記念
マイルストーン

戦略的な提携の形成、市場でのプレゼンスと能力の拡大
第 1 四半期
第 2 四半期
第 3 四半期
第 4 四半期
マイルストーン

革新的な製品の完成と最終化の成功
マイルストーン

革新的な製品の市場投入の成功
マイルストーン

需要の増加を示す、大規模なユーザー基盤の達成を記念
マイルストーン

戦略的な提携の形成、市場でのプレゼンスと能力の拡大
第 1 四半期
第 2 四半期
第 3 四半期
第 4 四半期
マイルストーン

革新的な製品の完成と最終化の成功
マイルストーン

革新的な製品の市場投入の成功
マイルストーン

需要の増加を示す、大規模なユーザー基盤の達成を記念
マイルストーン

戦略的な提携の形成、市場でのプレゼンスと能力の拡大

### Notes:

パワポは見出しをちゃんとヘッダーにしてくれてます。
また、スライド毎にコメントが付きます。
読み取りは左から逆N字で見ているようです。

おわり

既存のMarkdown変換ツールと比べると単純な変換ではありますが、導入も簡単かつ対応ファイルも広いので、RAGの前処理の選択肢のひとつとして有力だと思いました。無料ですし、一応MSお墨付きですし。
とりあえずファイルをこれでMD変換して、スムーズにRAGの検証に進められるとすごいいいですね。

8
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?