pythonとEmbulkで複数データソース横断のにわかETLを作る
最近、TreasureDataと自社のDBのデータを合わせた集計をバッチ処理することが多くpythonでいったんcsvに書き出してEmbulkでアップロードしていましたが、データソースが増えると...
8 search resultsShowing 1~8 results
You need to log-in
最近、TreasureDataと自社のDBのデータを合わせた集計をバッチ処理することが多くpythonでいったんcsvに書き出してEmbulkでアップロードしていましたが、データソースが増えると...
アドテク企業に転職したら、顧客の業種分類コードが存在していませんでした。集計で関連業種を目視でピックアップしたらえらく時間がかかってしまったので、今後のためにアドテク的に自動分類する方法を考えま...
検索結果スクレイピング&doc2vecで企業の業種分類(1)の続きです。今回はDoc2vecでスクレイピングしてきたデータを学習させます。 今回の構成 Google検索結果からのサイトURLの取...
検索結果スクレイピング&doc2vecで企業の業種分類(1) 検索結果スクレイピング&doc2vecで企業の業種分類(2) の最終回です。今回は作成したモデルをクラスタリングすべく、デンドログラ...
アイテムの買い方のパターンから、この顧客がロイヤルカスタマーになりそうか判定したいというニーズがあると仮定します。 そこで、自然言語処理で単語の出現順に時系列扱いで学習させて感情判定するのを応用...
単変量の時系列はkerasでもよく見るのですが、株価や売上などを予測する時などには複数の要因が関わってきますので、今回は複数の時系列データを使って予測してみました。 ソースの紹介 コード 「MA...
作成したモデルをオンラインサービスで使う場合、新たに蓄積されるデータを使って既存のモデルを日々更新したいですが、毎日バッチで全部のデータを回すのは時間もお金もかかります。 画像の学習では、VGG...
kerasで変数の重みは学習してくれますが、いくつのニューロン数がいいのか、何層必要か、学習率の最適値など、固定で渡すパラメーターも存在します。 今回は、これらのパラメーターをチューニングするの...
8 search resultsShowing 1~8 results
Qiita is a knowledge sharing service for engineers.