More than 5 years have passed since last update.

リストとリストを比較して、共通する要素をリストで取り出す方法

Posted at 2014-03-08

文字列を要素とする2つのリストを比較して、共通する要素をリストとして取り出したいことがありました。
まあ、出来るんですが、どうやるのが良いのかなと自分なりにアレコレ考えたり調べたりしました。

こんな、tag_listとsrc_listという2つのリストがあって、共通する要素をリストとして取り出したいとします。

tag_list=['igarashi', 'kubo', 'iguchi']
src_list=['taniguchi', 'matsushita', 'koyama', 'asama', 
          'marui', 'igarashi', 'kubo', 'kondo']

tag_listは3つの要素があります。
igarashiとkuboはsrc_listにもありますが、iguchiはないので期待値は['igarashi', 'kubo']となります。

matched_list = []
for tag in tag_list:
    for src in src_list:
        if tag == src:
            matched_list.append(tag)

私の頭で最初に思いついたのは、当然コレでした。
分かりやすいんですけど、インデントが深くてもっさりした感じだなあと…

matched_list = []
for tag in tag_list:
    matched_list+=filter(lambda str: str == tag, src_list)

リスト操作関数、filter(), map(), reduce()あたりを使ってみたくて、頑張ってみました。配列操作関数が充実してる言語に慣れた今風な方には直感的なんでしょうか？

src_set = set(src_list)
tag_set = set(tag_list)
matched_list = list(src_set & tag_set)

ググったらこんなのがいきなり出てきました。ある意味直感的です。
集合型は順序を持たないってのがポイントでしょうか？こういうときに使えるんだなと勉強になりました。

わかりやすさ、可読性、スッキリさ、pythonぽさと、一長一短あってどれでも良いのかな？と私は思いました。
もっと他にもギョギョギョ！って書き方あるんですかね？
あと、処理速度的には差が出るのかな？というのも気になりました。
今度、大きなサンプルデータ作って測ってみようと思います。