【意見交換】アンケートのコピペ回答を判別するのに最適な方法は?
アンケートの回答で質問文コピペ系を判別するのに最適だと思う方法はなんでしょうか?
アンケートの自由回答で質問文を丸々コピペした回答や一部のみコピペ(※1)したものを判別して、集計対象に入れないようにする仕組みを作ろうと思っています。
※1
質問 あなたの好きな食べ物は何ですか。
回答 食べ物は何ですか。
現在考えている方法下記です。
大量の質問と回答データを元に
PythonでMeCabを使って形態素解析→tf-idfでベクトル化→cos類似度で類似度計算→割合の閾値を決める
そもそもアンケートをコピペできないように構築するのはあると思うのですが、今回は回答済みのものから判別するというところでもっと単純で簡単な方法など意見交換できればと思います。