稲葉直貴さんの以下のtweetを解く記事です。
rm(list = ls())
library(tidyverse)
d <- read_csv('poke.csv')
d <- d %>% mutate(S = map(name, function(str1){ return(1:str_length(str1)) }))
d <- d %>% unnest(cols = S)
d <- d %>% mutate(katakana = str_sub(name, S, S))
d1 <- d %>% group_by(katakana) %>% count()
d <- d %>% left_join(d1, by = c('katakana'))
以下を見ると、「ソ」は「フシギソウ」にしか使われていない様子。なので「フシギソウ」が4番目から分岐することはない。
> d
# A tibble: 673 x 5
index name S katakana n
<dbl> <chr> <int> <chr> <int>
1 1 フシギダネ 1 フ 9
2 1 フシギダネ 2 シ 13
3 1 フシギダネ 3 ギ 6
4 1 フシギダネ 4 ダ 10
5 1 フシギダネ 5 ネ 2
6 2 フシギソウ 1 フ 9
7 2 フシギソウ 2 シ 13
8 2 フシギソウ 3 ギ 6
9 2 フシギソウ 4 ソ 1
10 2 フシギソウ 5 ウ 13
# ... with 663 more rows