rty
@rty

Are you sure you want to delete the question?

Leaving a resolved question undeleted may help others!

【意見交換】アンケートのコピペ回答を判別するのに最適な方法は?

アンケートの回答で質問文コピペ系を判別するのに最適だと思う方法はなんでしょうか?

アンケートの自由回答で質問文を丸々コピペした回答や一部のみコピペ(※1)したものを判別して、集計対象に入れないようにする仕組みを作ろうと思っています。
※1
質問 あなたの好きな食べ物は何ですか。
回答 食べ物は何ですか。

現在考えている方法下記です。
大量の質問と回答データを元に
PythonでMeCabを使って形態素解析→tf-idfでベクトル化→cos類似度で類似度計算→割合の閾値を決める

そもそもアンケートをコピペできないように構築するのはあると思うのですが、今回は回答済みのものから判別するというところでもっと単純で簡単な方法など意見交換できればと思います。

0

最適かは…難しいですが一意見を述べます。
(JavaのKuromojiを利用していたので用語等、齟齬があったら申し訳ないです)

あまりに長文だと難しいですが、
予め質問文に素性IDを割り当てておいて
受け付けた回答のID連続性がどの程度、閾値に近似するかどうかで
判定するというのはいかがでしょうか。

閾値をどのように決定するかは
難しいところですが
%hの連続(若しくは間に何か文字を挟んだ繰り返し)を
予め複数パターン登録しておいて
探索するといった方法ではいかがでしょう。

ただ、原始的な方法だとは思うので
各文字数が多くなればなるほど処理量は多くなりますし
処理速度は低下すると考えられます。

何かの役に立てば幸いです。

1Like

質問 あなたの好きな食べ物は何ですか。 回答 食べ物は何ですか。

質問文の語句を辞書に登録し、
回答文の語句数を数え、
適合比率を判定するのはどうでしょうか?

文章量は 質問文 ≧ 回答文 とします。

また、全回答者の適合比率から正規分布に合わせ、上位者をコピペ者とするのはどうでしょうか?

1Like

Your answer might help someone💌