More than 1 year has passed since last update.

【メモ】錠剤認識をMLで行う論文読みかけメモ

Posted at 2023-04-04

https://arxiv.org/pdf/2208.02432.pdf
概要ヘルスケア分野では、様々な条件や背景のもとで撮影された画像から錠剤を識別することが重要となっています。がますます必要になってきました。を活用するために、いくつかの取り組みがなされてきました。の錠剤認識問題に取り組むための深層学習ベースのアプローチです。の文献に記載されている。しかし、錠剤の外観は類似性が高いため、誤認識がしばしば発生し、錠剤の認識に課題が残されています。このため本論文では、錠剤の認識精度を高めるために外部知識を活用するPIKAと名付けられた新しいアプローチを紹介します。具体的にはは、患者の錠剤摂取状況の写真から錠剤を識別することを目的とした実用的なシナリオ（我々は文脈的錠剤認識と呼ぶ）である。

まず、我々は新しいがある場合の錠剤の暗黙の関連性をモデル化する方法。を、外部データソース（この場合は処方箋）に変換する。次に、グラフ空間からベクトル空間へ変換する、ウォークベースのグラフ埋め込みモデルを紹介する。空間と、凝縮された丸薬の関係性を抽出する。第三に、最後の
画像ベースのビジュアルとグラフベースの両方を活用するフレームワークが提供されています。関係性特徴を用いて、錠剤の識別タスクを達成する。このフレームワークでは、各薬剤の視覚的表現はグラフ埋め込みにマッピングされる空間があり、それを使ってグラフ表現に対する注意を実行する、その結果、最終的な分類を助ける、意味的に豊かなコンテキストベクトルを得ることができました。

私たちの知る限り、これは外部の処方箋データを使用した最初の研究です。医薬品間の関連性を確立し、これを用いて医薬品を分類すること。
を補助する情報です。PIKAのアーキテクチャは軽量で、あらゆる認識のバックボーンに組み込むことができる柔軟性を持っている。実験結果
は、外部知識グラフを活用することで、PIKAが以下のような改善効果を発揮することを示す。
認識医薬品は、病気の治療や患者さんの健康増進のために使用されます。しかし、薬の誤用は、治療効果を低下させたり、副作用を引き起こしたり、あるいは死に至るなど、深刻な結果をもたらすことがあります。

WHOの報告によると、全死亡の3分の1は、病気ではなく、薬の誤用によって引き起こされています[2]。さらに、Yanivら[20]によると、投薬ミスは毎年約6～8千人の命を奪っています

薬を正しく服用することの意義を強調するために、WHOが選んだのはは、2022年の世界患者安全デーに向けて、「Medication Without Harm（害のない投薬）」というテーマを掲げています［1］。

メディケーションエラーは多くのカテゴリーに分類されますが、そのうちの1つが誤った錠剤です。摂取する薬剤が処方と異なる場合に発生する「摂取これは錠剤の種類が多いため、手作業での判別が困難なための薬や、錠剤の色や形が似ていること。そんな中、多くのを自動的に識別することが試みられている。

近年、機械学習(ML)は、その有効な手法として登場しオブジェクトの分類問題に取り組んでいる。多くの研究が、機械錠剤認識課題[19,15,3]で学習しています。いくつかの一般的な技法畳み込みニューラルネットワーク（CNN）、グラフニューラルネットワークなど (GNN)がよく使われる。例えば、[19]では、錠剤を識別するためにDeep Convolution Networkを利用している。また、[15]では、拡張特徴ピラミッドネットワーク (EFPN）とGCN（Global Convolution Network）を組み合わせることで、より高い効果を発揮します。は、錠剤の位置決め精度を向上させることができます。さらに、著者らはXceptionネットワーク[4]を活用して錠剤認識問題を解決した。3]の著者らは、どのようには、視覚障害のある慢性期患者が薬を正しく服用することを支援することを目的としています。
そのために、彼らはAIを組み合わせた、いわゆるMedGlassesシステムを提案しました。とIoTの融合を目指します。

MedGlassesは、錠剤を認識できるスマートグラスで構成されています。
QRコードからお薬情報を読み取ることができるスマートフォンアプリです。を記憶し、ユーザに服薬を促すサーバシステムと、ユーザの情報を得ることができます。

さらに、色や形などの手作業による特徴を取り入れることで、錠剤の認識精度を向上させようとする取り組みが数多く行われています、
と刻印がある。Lingら[9]は、数撃ちゃ当たるの錠剤検出の問題を研究しました。

著者らは、4つのストリームからの情報を結合するマルチストリーム（MS）ディープラーニングモデルを提案した： RGB、テクスチャ、輪郭、およびインプリントテキストを作成した。

また、データを解決するための2段階の学習技術を提供した。第一段階はすべてのサンプルで学習し、第二段階は難しい例のみに集中する。12]では、t

医薬品は、病気の治療や患者さんの健康増進のために使用されます。しかし、薬の誤用は、治療効果を低下させたり、副作用を引き起こしたり、あるいは死に至るなど、深刻な結果をもたらすことがあります。

著者らは、4つのストリームからの情報を結合するマルチストリーム（MS）ディープラーニングモデルを提案した： RGB、テクスチャ、輪郭、刻印テキストという4つのストリームからの情報を組み合わせるマルチストリーム（MS）深層学習モデルを提案した。

また、データ不足の制約を解決するために、2段階の学習技術を提供した。第1段階ではすべてのサンプルで学習し、第2段階では難しい例のみに集中する。12]では、錠剤を識別するために、形状、色、刻印のテキストという3つの手作業による特徴を統合している。具体的には、まず錠剤のヒストグラムから統計的な測定値を用いて、錠剤に含まれる色の数を推定した。次に、錠剤に刻印されたテキストをテキスト認識ソフトを使って抽出した。

さらに、データ不足の制約を解決するために、2段階の学習技術を提供した。第1段階では、すべてのサンプルを用いて学習し、第2段階では、困難な例のみに集中することで、データ不足の制約を解決した。12]では、錠剤を識別するために、形状、色、刻印のテキストという3つの手作業による特徴を統合している。具体的には、まず錠剤のヒストグラムから統計的な測定値を用いて、錠剤の色数を推定することに成功した。次に、錠剤に刻印されたテキストをテキスト認識ツールで抽出した。

また、著者は決定木の手法を用いて、錠剤の形状を決定した。色のことである、錠剤の形状、刻印の文字情報などを入力特徴として、分類モデルを学習させます。

しかし、錠剤の認識には多くの課題が残されています。特に、錠剤の誤認識は、見た目が大きく似ているタブレット端末でよく発生します。図1は、ディープラーニングモデルによる誤判定結果の一部を示したものです。

既存のアプローチの限界を克服するために、本研究では、ディープラーニングモデルを用いた外部知識を活用し、精度を高める斬新な手法、特に、類似した錠剤の誤分類に対処するため。既存とは異なりのピルを認識する実用的なアプリケーションに焦点を当て、患者さんの錠剤摂取画像使用する外部知識は、抽出された情報ですを、与えられた処方箋のセットから作成する。私たちの主な考え方は、このような外部の知識を得ることで、薬の共起可能性など、薬の関係性を知ることができます。この知識を活用することで、より良いが、錠剤認識モデルの精度を向上させる。
要約すると、我々の主な貢献は以下の通りである：

我々は、患者の錠剤摂取状況の写真から錠剤を認識する、いわゆる文脈的錠剤認識問題に初めて取り組んだものである。
制約のない条件で撮影された錠剤画像と、それに対応する処方箋コレクションを含むデータセットを構築する。
文脈的錠剤認識問題を解決するために、新規の深層学習ベースのアプローチを提案する。具体的には、錠剤間の関係を表す処方箋ベースの知識グラフを構築する方法を設計する。

次に、錠剤の関係性特徴を抽出するためのグラフ埋め込みネットワークを提示する。最後に、グラフベースの知識を融合させるためのフレームワークを設計する。
関係情報を、画像に基づく視覚的特徴に対応させることで
最終的な分類を決定する。

我々は、分類精度を高めるための損失関数と学習戦略を設計する。
実世界で採取された薬剤のデータセットで徹底的な実験を行い、提案ソリューションの性能を既存の方法と比較する。実験結果は、我々の提案モデルがベースラインを大幅に上回ることを示す。
本論文の残りの部分は以下のように構成されている。セクション 2 で関連作品を紹介する。セクション3では、我々の提案するソリューションについて説明する。セクション 4 で提案アプローチの有効性を評価し、セクション 5 で本論文の結論を出す。

我々のコードと事前に訓練された深層学習モデルは公開される予定である
本論文の発表と同時に、プロジェクトのウェブページ（http://vaipe.io/）で公開します。

文脈的な錠剤認識は、従来の物体識別問題として扱うことができる。従来のアプローチは、2つのステージに分割することである。
第1段階は各薬剤画像の分割を担当し、第2段階は各薬剤箱を別のオブジェクトとして扱い、オブジェクト認識モデルを用いて識別する。19]では、著者らは錠剤検出のためにGCNと組み合わせたDeep Convolution Network, Feature Pyramid Networks (EFPNs)を採用しました。

そして、Xceptionネットワークを用いて錠剤を識別している。Lingら[9]は、限られたサンプル数で錠剤識別の問題を研究した。識別精度を向上させるために、著者はRGB、テクスチャ、輪郭、刻印テキストなど、多数のソースからのデータを組み込んだ。また、形状、色、刻印テキストなどの手作業による特徴も[12]で使用されました。これらのアプローチの欠点は、錠剤の相互作用を利用することなく、写真内の各薬剤を個別に扱うことである。

文脈に応じた錠剤の識別は、近年注目されているマルチラベルの分類問題に類似している。この問題では、認識精度を向上させるために外部情報を採用する研究が多く行われている。

最も一般的な戦略は、ラベルの共起関係を取得し、それを認識タスクに利用することである。ラベル共起関係は、確率モデル、ニューラルネットワーク、グラフネットワークなど、様々なアプローチで取得することができる。Liらは[8]で、ラベルの共起確率を統計的に計算するために、条件付きグラフLassoモデルを採用している。

また、計算コストを削減するために、LSTMなどのニューラルネットワークを採用して、ラベルの相互作用をシミュレートしている作品もある[16]。5]の著者は、ラベルの関連性を表現するためにオートエンコーダーGraph Isomorphism Network (GIN)を使用した。

また、ラベルのセマンティックエンコーディングとラベル固有の特徴抽出を組み込んだ協調学習フレームワークを発表している。
また、関係情報を利用する手法もいくつか存在する。特に関係情報は、[18]に示されるように、最終層で視覚的特徴と組み合わされることがある。

また、[17]にあるように、横のつながりによってCNNの中間層に注入されることもある。
一方、文脈的錠剤識別は、従来のマルチラベル分類とは異なり、マルチラベル分類タスクは、画像に特徴的な各アイテムを発見し認識するのではなく、画像が提供するグローバル情報を認識しようとするものである。第二の問題は、ラベルの関係をモデル化することにある。

実際、従来のマルチラベル分類システムは、主にラベルの名前の意味に基づいてラベルの関係を構築している。

しかし、薬の名前には意味がないことが多いため、この戦略はうまくいかない。さらに、公共データソースから薬品名間の相関関係を抽出することは困難である。

本節では、PIKA（Pill Identification with medical Knowledge grAphの略）と名付けた新しい錠剤認識フレームワークを提案する。
まず、PIKAフレームワークの主要な構成要素を紹介する（セクション3.1）。次に、処方箋に基づく医療知識グラフの構築方法を説明し（セクション3.2）、錠剤の視覚的特徴を抽出する方法を説明する（セクション3.3）。
次に、構築された医療知識グラフと抽出された視覚的特徴を組み合わせて、錠剤識別性能を向上させる（セクション3.4）。最後に、提案する学習モデルの有効性を向上させるための補助損失と学習戦略を紹介する（セクション3.5）。
3.1 概要

図2：提案フレームワークの概要まず、入力処理手順では、与えられた処方箋から非指向性の医療知識グラフ（MKG）G =< V, E, W >を生成し、入力画像を錠剤箱にクロップするために使用する。
次に、MKGをグラフ埋め込みネットワークに送り込み、錠剤の関係性特徴を抽出する。一方、切り取られた錠剤画像は、バックボーンネットワークを経由して、その視覚表現を取得する。

この段階で、グラフベースの関係性特徴は、視覚的バックボーンによって生成された擬似クラススコアと組み合わされ、凝縮されたバージョンとなる。第3に、視覚的埋め込みは、投影モジュールの助けを借りて、グラフ空間の対応するものと同じ超平面に投影される。

次に、投影された視覚的特徴量とグラフベースの視覚的特徴量とが組み合わされる。の関係情報は、コンテキストベクトルを提供するためのコンテキストアテンションモジュールの入力となる。最後に、コンテキストベクトルと視覚的特徴を組み合わせたエンリッチド・ビジュアル特徴が、錠剤を識別するための最終分類器に入力される。

図2に示すように、提案モデルは、入力処理、視覚処理、グラフ処理、情報融合の4つの主要コンポーネントから構成される。

最初のブロックである入力処理は、錠剤の画像を検索し、薬物相互作用をモデル化したグラフを作成する役割を担っている。視覚処理ブロックは錠剤の視覚的特徴を抽出するために使用され、グラフ処理モジュールは錠剤間の関係を描写することを試みる。

そして、融合層が錠剤の視覚的特徴とグラフベースの関係性特徴を組み合わせて、最終的な分類判定を行う。
全体の流れは以下の通りです。

ステップ1. 複数の錠剤を含む原画をオブジェクトローカライズモデルに通し、すべての錠剤のバウンディングボックス画像を識別して切り出す。

この段階で、グラフベースの関係性特徴は、視覚的バックボーンによって生成された擬似クラススコアと組み合わされ、凝縮されたバージョンとなる。第三に、視覚的埋め込みは、投影モジュールの助けを借りて、グラフ空間における対応するものと同じ超平面に投影される。

次に、投影された視覚的特徴は、グラフベースの関係情報と組み合わされ、コンテキストベクトルを提供するコンテキストアテンションモジュールの入力となる。最後に、文脈ベクトルと視覚的特徴を組み合わせた強化された視覚的特徴が、錠剤を識別するための最終分類器に供給されます。

図2に示すように、提案モデルは、入力処理、視覚処理、グラフ処理、情報融合の4つの主要コンポーネントから構成される。

そして、融合層が錠剤の視覚的特徴とグラフベースの関係性特徴を組み合わせて、最終的な分類判定を行う。
全体の流れは以下の通りです。

ステップ1. 複数の錠剤を含む原画をオブジェクトローカライズモデルに通し、すべての錠剤のバウンディングボックス画像を識別して切り出す。

において、オブジェクト検出の問題に焦点を当てないことに注意する。したがって、このステップでは、任意のオブジェクト検出モデルを使用することができます。

ステップ2. 与えられた処方箋の集合から、ノードは錠剤を表し、エッジは薬剤の関連を反映しているグラフを構築する。このグラフをPrescription-based Medical Knowledge Graph（略してPMKG）と名付ける。PMKGをグラフニューラルネットワーク（GNN）に通すと、埋め込みベクトルが生成される。各埋め込みベクトルは、ノードとその近傍との関係に関する情報を伝達する。詳細なアルゴリズムは3.2節で紹介する。
ステップ3. 錠剤の画像は、次に視覚処理にかけられます
モジュールで視覚的な特徴を抽出します。一方では、これらの特徴はデータフュージョンブロックに投入され、分類の決定を行う。
他方では、これらの特徴は投影モジュールに入れられる。その
プロジェクションモジュールの目的は、以下のような表現を生成することです。
をグラフ処理ブロックのものに変換する。そして、投影された特徴量は
ピル画像とPMKGの関連性を知るために利用される
のノードがあります。視覚処理モジュールの詳細については、次のとおりです。
3.3項
ステップ4. Step2で取得したGraph埋め込みベクトルとStep3で取得した投影特徴量をアテンションに通す。
層でコンテキストベクトルを生成する。最後に、コンテキストベクトルは、最終的な分類器に供給される前に、ビジュアル特徴と連結されることになる、
予測結果を出すような損失の詳細について

提案手法のキーとなる考え方は、画像ベースの錠剤認識を強化するために、対応する処方箋を介した錠剤間の関係情報を利用することである。この目的のために、処方箋に基づく医療知識グラフを構築する。我々の直感では、すべての薬は、実際の錠剤キャプチャにおいて、何らかの病気や症状を治したり緩和したりするために処方されている。したがって、錠剤と診断の間の直接的な関係を通じて、その暗黙の関係を定式化することができる。このような情報は、医師が提供する処方箋の中に含まれている。

本節では、知識グラフモデリングの詳細な方法論と、このグラフを埋め込むためのフレームワークについて説明する。

知識グラフモデリング医療知識グラフ（MKG）は、G =< V,E,W >と表記される重み付きグラフであり、頂点Vは錠剤クラスを表し、重みWは錠剤間の関係を示す。

処方箋を初期データとして、診断と投薬という2つの要素を用いてグラフの辺Eを形成することができる。処方箋には錠剤間の関係が明示されていないため、2つのノード（＝錠剤クラス）CiとCj間のエッジを表す関係を、以下の基準に基づいてモデル化する。

DeepL無料枠終わってしまったのでまた明日

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up