【機械学習】脆弱性診断ツールにおける、動的解析に関する質問
解決したいこと
機械学習で、入力されたテキストの特徴ごとにA,B,C...と分類したい。
Pythonを用いてWEBアプリの脆弱性診断ツールを作成しております。
動的解析(実際にローカル環境にSQLインジェクションのコードを送る)を行う際、WEBアプリ側で認証を行う際実行されるSQL文に対応したSQLインジェクションのコードを機械学習を用いて出力するという動作が上手く実現できず、困っています。
入力: SELECT * FROM table WHERE id='user0001'
出力: ' OR '1' = '1
入力: SELECT * FROM table WHERE id=('user0001')
出力: ') OR ('1' = '1
この二つのパターンを作りたいです。
変動するのは列名(*)、テーブル名(table)、カラム名(id)、値(user0001)です。
要するに「この傾向があったらこれを出力する」という動作を行いたいです。
ネットで調べた結果「テキスト分類」に行きつきましたが、どれもライブラリを使用していて自分のように独自でデータセットを使い、実現した例があまり見つかりませんでした。
自分は機械学習の経験がなく、pythonの経験も少ないです。
【知りたい事】
1,自作データセットの作成方法
2,具体的な実現方法(このライブラリを用いる、この関数を~など)
3,何か便利なライブラリなど
4,参考サイト
皆さんの力をお借りしたいです。