こんばんは、乃木オタエンジニアです。先日、某メンバーのブログタイトルが長いこと人気メンバーのマネだと言われ、炎上のネタになっていて気になりました。そこで、私は以前、ブログ全記事スクレイピングし、そのデータがDBに全て残っているのでSQLでちょちょっとブログのタイトルの長さランキング取ってみました。
以前の記事 → 乃木坂46公式ブログのスクレイピング~2011年からの全ての記事をDBに収めて画像も保存してやる!~
実際に流したSQLはこんなん。
select member_name ,AVG(CHAR_LENGTH(title)) as avarage_title_length from blog_articles
group by member_name order by avarage_title_length desc
実行結果はこんな感じ
"member_name","avarage_title_length"
"齋藤飛鳥",187.0151
"掛橋沙耶香",36.0000
"金川紗耶",32.8148
"運営スタッフ",31.4010
"佐藤楓",26.5562
"和田まあや",25.1511
"向井葉月",20.5333
"早川聖来",20.1538
"筒井あやめ",20.1538
"高山一実",18.7571
"山下美月",18.6706
"研究生",18.4950
"清宮レイ",17.6538
"秋元真夏",17.3662
"柴田柚菜",17.1429
"樋口日奈",16.6295
"北川悠理",16.2963
"遠藤さくら",16.0000
"中村麗乃",15.9160
"中田花奈",15.3146
"伊藤純奈",15.1982
"与田祐希",15.0882
"松村沙友理",15.0815
"寺田蘭世",15.0077
"田村真佑",14.6923
"賀喜遥香",14.4615
"矢久保美緒",14.1538
"梅澤美波",14.0370
"伊藤理々杏",14.0282
"井上小百合",13.7735
"生田絵梨花",13.3581
"吉田綾乃クリスティー",13.2584
"岩本蓮加",13.1679
"阪口珠美",11.9316
"白石麻衣",11.5188
"久保史緒里",10.6154
"北野日奈子",10.3929
"星野みなみ",10.0398
"大園桃子",9.3818
"佐々木琴子",8.7203
"山崎怜奈",8.3864
"堀未央奈",7.3388
"新内眞衣",6.5158
"鈴木絢音",6.4566
"渡辺みり愛",6.0742
炎上していた某メンバーは確かに上位ですが、飛鳥ちゃんはダントツの長さなのです。こんなことでメンバーを叩くのは間違いですね。
ちなみにmaxを取ってみるとこんな感じ
"member_name","MAX_title_length"
"齋藤飛鳥",255
"北野日奈子",255
"中村麗乃",226
"掛橋沙耶香",140
"柴田柚菜",136
"山崎怜奈",122
"金川紗耶",119
"寺田蘭世",115
"中田花奈",112
"和田まあや",91
"梅澤美波",90
"松村沙友理",85
"佐々木琴子",83
"樋口日奈",83
"佐藤楓",76
"岩本蓮加",73
"研究生",70
"運営スタッフ",67
"向井葉月",65
"伊藤純奈",64
"高山一実",60
"渡辺みり愛",56
"井上小百合",53
"筒井あやめ",53
"与田祐希",48
"山下美月",44
"伊藤理々杏",43
"堀未央奈",42
"生田絵梨花",39
"早川聖来",39
"阪口珠美",36
"秋元真夏",35
"清宮レイ",35
"鈴木絢音",34
"北川悠理",33
"遠藤さくら",32
"新内眞衣",31
"賀喜遥香",31
"久保史緒里",28
"白石麻衣",27
"星野みなみ",27
"大園桃子",26
"吉田綾乃クリスティー",24
"矢久保美緒",22
"田村真佑",22
これは...もしかしてchar(255)の文字列がオーバーフローしている疑惑ですね。直さなきゃ。
そのうち乃木坂の音ゲーのランキングのスクレイピングをしたいなぁ。誰かサブ端末をください