「そりゃ姓名分離できねえわ」って思った野球選手名ランキング

Last updated at 2024-12-24Posted at 2021-02-18

概要

とある事情で、スペース区切りなしで書かれた日本人野球選手のフルネームを苗字（姓）と名前（名）に分離する必要に駆られていました。このために、ある程度プログラムで自動的に分離してから目視で修正するという作業を行っていたのですが、その過程で「これはプログラムが正しく姓名分離できなくても仕方ないなあ」と感じた野球選手名を紹介したいと思います。

背景

日本人の名前を姓と名に分離することは、単語の区切りが明確な外国人名の姓名分離と比べて一般に難易度が高いです。日本人名を姓名分離する方法として

手法1. 苗字辞書と比較して姓がどこまでかを判定する
- 例：yuki_marketing様の実装
手法2. 固定の苗字辞書はもたずに統計的に姓と名の切れ目を判定する
- 例：rskmoi様のNameDivider

の大きく２つが提案されており、それぞれ一長一短があります。
今回は、両方の手法で姓名分離してみて、単体での信頼度が低いものや二者の結果が異なるものにフラグを建てることで、プログラムが姓名分離を上手くできなかった名前を見つけやすくしました。（実装コードは末尾に記載します）

以下、目視で修正作業をしているときに、プログラムが上手く姓名分離できなくても正直仕方ないと思った名前たちをランキング形式で紹介していきます。ランキングの基準は完全な主観です。

一覧

今回ランクインした選手の一覧です。もしよかったら、いくつくらい苗字を当てられるか試してみてください。

赤根谷飛雄太郎
今久留主功
南牟礼豊蔵
瀧安治
戒能朶一
万波中正
上水流洋
加賀美希昇
東新昇
東郷幸

それでは以下より、ランキング紹介兼正解発表です。

ギリギリランクインしなかった選手名

おまけとして、今回惜しくもランク外となった難姓名分離選手の方々を紹介します。姓名分離のしにくさはあくまで主観なので、こちらのほうが難しいと感じる人もいるかもしれません。

田代須恵雄選手（巨人 (1937 - 1939))
大慈彌功選手（西武ライオンズ (1976 - 1979))
日暮矢麻人選手（福岡ソフトバンクホークス (2018 - 2020) )
真栄喜正和選手（日本ハムファイターズ (1991 - 1995) )
嘉弥真新也選手（福岡ソフトバンクホークス (2018 - )
朝樹一義世選手（阪神タイガース (1960 - 1967), 広島東洋カープ (1968 - 1970))
奥浪鏡選手 (オリックス・バファローズ (2014 - 2017))
作道烝選手 (日拓ホームフライヤーズ (1964 - 1973))
谷繁元信選手 (横浜ベイスターズ (1989 - 2001), 中日ドラゴンズ (2002 - 2015))
上福元勤選手（読売ジャイアンツ (1984 - 1986))

考察

プログラム的に姓名分離しにくい名前とはどういうものかを考察しました。
ランキングを眺めていると以下のような要因がありそうです。

長い名前のとき
- 例：赤根谷飛雄太郎、今久留主功
- 長い名前はどこで区切るかの候補が多くなるので、必然的にプログラムがミスをする確率が上がります。
(辞書にない)珍しい苗字のとき
- 例：南牟礼豊蔵、今久留主功
- 辞書に存在しない苗字の場合、手法１のような辞書ベースの方法はまったく通用しなくなります。概算になりますが、今回は対象とした7000名ほどのうち、40名ほどは辞書に含まれない苗字の選手でした。
下の名前が正解より少ない文字数で作れるとき
- 例：万波中正、瀧安治、戒能朶一
- 「正」「治」「一」などはそれ単体でも下の名前として成立するため、手法２のような統計的な方法を用いたときに、その直前で区切られる確率が上がってしまいます。
苗字の一部が別の存在する苗字になるとき
- 例：東郷幸、東新昇、加賀美希昇
- 前項目の苗字バージョンです。苗字の部分文字列も存在する苗字のときは、プログラムが間違う確率がぐっと高まります。

おわりに

プログラムが姓名分離を間違えた選手の中から、特に分離が難しそうな野球選手名をランキング形式で紹介してみました。またどのような名前が姓名分離しにくいのかを考察してみました。
姓名分離を試みるときに考察で述べたような特徴を意識しておくと、自動姓名分離の間違いに気づきやすくなるかもしれません。

補足

以下、プログラムによる姓名分離に用いたコードを載せておきます。

環境

macOS Big Sur バージョン11.1
python 3.8.0

手法1. 苗字辞書と比較して姓がどこまでかを判定する

yuki_marketing様のGoogleSheetsによる実装をpythonに移植して実現しました。苗字辞書はmyoji-yurai.netの情報をもとにyuki_marketing様が作成したものをお借りしました。

family.txt

佐藤
鈴木
高橋
田中
伊藤
渡辺
山本
中村
小林
加藤
... (以下、苗字を1行に一つずつ)

UNKNOWN = "unknown"
with open("family.txt") as f:
  families = f.read().splitlines()

def divide_with_dict(name):
  family, given = UNKNOWN, UNKNOWN
  #1文字の場合、解析不可
  if len(name)<=1: return family, given, 0
  #4文字以下ならマッチした苗字のうち最も長いものを採用
  #信頼度はマッチした苗字の個数の逆数
  if len(name)<=4:
    cnt = 0
    for i in range(len(name)):
      if name[:i] in families:
        family, given = name[:i], name[i:]
        cnt += 1
    if cnt ==0: return family, given, 0
    #scoreはマッチした苗字の個数の逆数
    else: return family, given, 1/cnt

手法2. 固定の苗字辞書はもたずに統計的に姓と名の切れ目を判定する

rskmoi様のNameDividerを利用させていただきました。

pip install namedivider-python

from namedivider import NameDivider

def divide_without_dict(name):
  family, given = UNKNOWN, UNKNOWN
  if len(name)<=1: return family, given, 0
  rslt = name_divider.divide_name(name).to_dict()
  return rslt["family"], rslt["given"], rslt["score"]

手法1と手法2の出力を比較しフラグを立てる

手法1と手法2の出力結果に応じたフラグ変数を含むリストを返す関数を作りました。
フラグは、f1とf2がunknownなら1、どちらか一方がunknownなら2、f1とf2が両方unknownでなく、かつ、それぞれ異なるときは0、f1とf2が両方unknownでなく、かつ、それぞれ同じときは3としました。

def divide_name(name):
  f1,g1,s1 = divide_with_dict(name)
  f2,g2,s2 = divide_without_dict(name)
  if f1 == UNKNOWN and f2 == UNKNOWN: flag=1
  elif f1 == UNKNOWN or f2 == UNKNOWN: flag=2
  elif f1 != f2: flag=0
  else: flag=3
  
  return [f1,g1,s1,f2,g2,s2,flag]

あとは野球選手名のリストに対してdivide_nameを実行して、各手法のスコアやフラグなど任意の基準で並べ替えをすれば、出力の怪しいものから優先的にチェックすることができます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

「そりゃ姓名分離できねえわ」って思った野球選手名ランキング

概要

背景

一覧

ランキング

10位. 赤根谷飛雄太郎

9位. 今久留主功

8位. 南牟礼豊蔵

7位. 瀧安治

6位. 戒能朶一

5位. 万波中正

4位. 上水流洋

3位. 加賀美希昇

2位. 東新昇

1位. 東郷幸

ギリギリランクインしなかった選手名

考察

おわりに

補足

環境

手法1. 苗字辞書と比較して姓がどこまでかを判定する

手法2. 固定の苗字辞書はもたずに統計的に姓と名の切れ目を判定する

手法1と手法2の出力を比較しフラグを立てる