LoginSignup
0
2

More than 5 years have passed since last update.

機械学習関連ブックマークなど

Last updated at Posted at 2016-11-26

機械学習関連ブックマークなど

機械学習関連情報の収集と分類(構想)のⒹに相当するブックマークなどをGitHubに置いてみました(→ https://github.com/suchowan/bookmarks )。

ショートカット・ディレクトリとプレインテキストの変換にあるスクリプトで扱う前提のプレインテキストです。

機械学習関連 - compueter.url.txt

より大きなブックマークツリーから

computer.filter.txt
Computer/トピック

でフィルターして得られたものです。

このためツリーの幹に近い“Computer/トピック”が冗長になっています。

こんなふうにして作ったもの

その他 - sig.url.txt

より大きなブックマークツリーから

sig.filter.txt
Computer/OS
Computer/ハードウェア
Entertainment/ゲーム
Entertainment/ハードウェア
Science
SIG/暦
SIG/単位・進法
Social

のようなフィルターでフィルターして得られたものです。

こちらのほうは機械学習とは直接関連していませんのであしからず。

スクリプト

下記のようなデータフローで情報を加工していくツール群です。

データフロー

機械学習関連情報の収集と分類(構想)作成時点とはかなり変わっているのでご注意ください。

・キーワードを管理するという概念が追加されています。これにより例えばサービスの名称とその提供会社を関連付けられるようにしました。

・❻ crawl が ⒺElasticsearch を参照しないのは、Fess が古いコンテンツを Expire させてしまう仕様のためです。

・❼~❾の処理が細分化されているのは、ハイパーパラメータのチューニング時に逐次中間成果物を残す方が効率が良いからです。

・❾ digest はまだうまく動きません。扱う形態素の最少出現頻度を20にしないとメモリが足りないのですが、そうすると扱う形態素を含まない文が大量に出てしまうからです。

各ツールの詳細はこちらのpdfをご覧ください。

0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2