計算量の多い教師なしレコメンドデータセットを作成する際の工夫
想定される状況 自然言語をBERTなど単語分散表現を用いてベクトル化 cos 類似度を計算し、文章同士の類似度を数値化 類似度の高いコンテンツ同士を似ているコンテンツとみなし、レコメンドするため...
16 search resultsShowing 1~16 results
You need to log-in
想定される状況 自然言語をBERTなど単語分散表現を用いてベクトル化 cos 類似度を計算し、文章同士の類似度を数値化 類似度の高いコンテンツ同士を似ているコンテンツとみなし、レコメンドするため...
mecabをpythonで使っていると品詞を指定して自由に分かち書きしたいときに色々と書き換えなきゃなので、その不便さを解消するために自前でクラスを書いたので公開します。 import MeCa...
BERTとLightGBM, optunaで自然言語の分類モデルをサクッと作ってみようという記事です。 データはlivedoorニュースコーパスを使用しています。 また、本記事で使用しているコー...
python 3.6.1 にて動作。 bq_runnner.py import argparse import pandas as pd def run_query(sql_file): wit...
この記事は 弁護士ドットコム Advent Calendar 2019 - Qiita の12日目の記事です。 この記事は何か? まずは自己紹介です! 私は弁護士ドットコム株式会社で働くデータサ...
概要 GCP(GCE) + Docker + Jupyter Lab を使って、GPUをゴリゴリ使うpython 3.6系の機械学習用の作業環境を作ることができたので、まとめます。 背景 日々い...
問題 GASのスクリプトを実行した際に、以下の画像のように「このスクリプトの OAuth ID は削除されました」というエラーが出る場合があります。対応方法としては、「新規でGASプロジェクトを...
概要 TL;DR 単発のデータ分析案件を想定し、1つのjupyter notebookファイル内で以下の工程を完結させます。 データをローカルで前処理して Google Cloud Storag...
概要 以前、 Keras(Tensorflow)の学習済みモデルのFine-tuningで少ない画像からごちうさのキャラクターを分類する分類モデルを作成する という記事を書いたのですが、このとき...
概要 機械学習モデルを作るときに、特徴量を増やすことでモデルの精度を向上させようと試みるタイミングがあります。例えば、学習用データを作成するときに SELECT id, COUNT(hoge) ...
機械学習などで大規模なデータを扱っていると、ごくごく自然にそれらのデータをpandasやnumpy配列に突っ込んで処理したくなるときがあります。 Pythonの場合、forループを回すよりもnu...
概要 自然言語処理で文書をベクトル化する手法として、fastText と Doc2vec のどちらが良いのかと思い、試してみることにしました、という趣旨の記事です。 ソースコード 今回の実験のた...
概要 仕事でデータ分析などを担当しているのですが、pythonで分析しているとpandasはRのDataFrameのように扱うことができて、本当に便利だなあと日々実感しています。 また、データ分...
概要 言いたいことはタイトルに書いてある通りです(笑) 実際のサービスのデータを用いてデータ分析したり様々な学習モデルを作成していると、だいたいはデータに偏りがあることがほとんどです。 例えば、...
概要 Kerasで提供されているVGG16という大規模な画像で学習済みのモデルを活用して、ご注文はうさぎですか?(略称 ごちうさ)に登場する主要キャラクター5名の画像を分類するモデルを作成します...
はじめに 本記事は、Pythonで機械学習を始めてみたいが、とりあえず手頃な例で簡単に実装し、自分の手を動かすことで機械学習のモデル作りの過程を体験してみたい人向けの内容となっています。 内容と...
16 search resultsShowing 1~16 results
Qiita is a knowledge sharing service for engineers.