機械学習関連ブックマークなど
機械学習関連情報の収集と分類(構想)のⒹに相当するブックマークなどをGitHubに置いてみました(→ https://github.com/suchowan/bookmarks )。
ショートカット・ディレクトリとプレインテキストの変換にあるスクリプトで扱う前提のプレインテキストです。
機械学習関連 - compueter.url.txt
より大きなブックマークツリーから
Computer/トピック
でフィルターして得られたものです。
このためツリーの幹に近い“Computer/トピック”が冗長になっています。
その他 - sig.url.txt
より大きなブックマークツリーから
Computer/OS
Computer/ハードウェア
Entertainment/ゲーム
Entertainment/ハードウェア
Science
SIG/暦
SIG/単位・進法
Social
のようなフィルターでフィルターして得られたものです。
こちらのほうは機械学習とは直接関連していませんのであしからず。
スクリプト
下記のようなデータフローで情報を加工していくツール群です。
機械学習関連情報の収集と分類(構想)作成時点とはかなり変わっているのでご注意ください。
・キーワードを管理するという概念が追加されています。これにより例えばサービスの名称とその提供会社を関連付けられるようにしました。
・❻ crawl が ⒺElasticsearch を参照しないのは、Fess が古いコンテンツを Expire させてしまう仕様のためです。
・❼~❾の処理が細分化されているのは、ハイパーパラメータのチューニング時に逐次中間成果物を残す方が効率が良いからです。
・❾ digest はまだうまく動きません。扱う形態素の最少出現頻度を20にしないとメモリが足りないのですが、そうすると扱う形態素を含まない文が大量に出てしまうからです。
各ツールの詳細はこちらのpdfをご覧ください。