まえがき
私はガジェットが好きだ。とにかくガジェットを愛している。中でもタブレットについては尋常ではないほど執着している。7, 8年ほど前にSurface RTと呼ばれる「これ一つで仕事も遊びも完璧!」というどう考えても勝ちなガジェットを購入して痛い目にあって以来、毎年数十万から100万近い価格を費やしながらも果てなきベストタブレットへの旅は今も続いている。
今のところはiPad Pro 12.9とSurface Pro Xで落ち着いているのだが、早速Galaxy Tab S7とかいう約束された勝利のタブレットは発表されるし、Surface Duoも控えているし、ちょっとお財布ポイントの危険が危ない。そもそもアークナイツとSNSしかやらないんだからAntutu旧スコアベースで20万もあれば十分なはずなのに。
こんな有様なので、ガジェットサイトはかなり頻繁にチェックしている。その他のテックメディアやリークサイト、海外で言えば9to5macなどのガジェットに関連するあらゆるサイトも含めれば毎日数時間かけて読んでいることになる。
正直なところ、ちょっと健全ではない。更新されてもいないのに同じサイトを何回も繰り返し見ていることすらある。もはやガジェットゾンビだ。じゃあどうしよう。
そうだ、面倒なことはPythonにやらせよう。
作ったもの
https://gadget-busters.com ![image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/696052/dd0a55fe-71cd-314f-b725-ce8b58a35d08.png)これ。ガジェットバスターズという名前は昔好きだったミスバスターズという番組とガジェットをがっちゃんこしただけで特に何も考えていないことが窺える。
一週間に1度、その週に話題になっているガジェットをランキング形式で掲載しているので手っ取り早く今話題のガジェットを知りたい人にはお勧めできるかと思う。
バックエンドではインターネット上の記事をクローリングし、ガジェットに関連する記事から自然言語処理と自ら学習させた予測アルゴリズムを使って商品名を抽出。その後スコアを付与してランキングを作成している。
基本的にはより多くのサイトで、より多くの回数言及されているガジェットほど今旬のガジェットという判定となっている。 ただし出現回数だけでは”もう知ってるよ”となる可能性もあるので、アルゴリズムの中でtf-idfでいうidf的に珍しい商品名も拾うようにしている。具体的にはより少ないサイトで高頻度のキーワードを重要視するような項も導入している。
上記のような処理を自動で週に1度実行し、上記サイトを更新している。
今後の展開
データが溜まってきたら月間ランキングや年間ランキング、またガジェットのトレンド変遷リストを見られるページも作ってみたい。2015年に流行ったガジェット何があったっけ?という時に2015年のサイトをクリックすればタイムラインと共にトレンドの変遷が見られるというものだ。名前は...ガジェットタイムマシン?
また、商品名の抽出部分ももう少しアルゴリズムを細かくしてノイズを拾わないようにしたい。具体的には広告などに含まれる商品名の繰り返しを無視する、といった具合に。デザインもオシャンティにしたいし、これからもどうぞガジェットバスターズをよろしくお願いします。
また、使っている技術も備忘録も兼ねて少しづつ記事にしていきたい。さほど大したことはしていないが。