BigQuery内のテーブルなどを一覧化する
概要 BigQueryでプロジェクト内のテーブルやudfなどをリストとしてまとめたかったのだが、意外と方法についてまとまっている情報がなかったのでtsvで出力するスクリプトを作成した。 やり方 ...
103 search resultsShowing 1~20 results
概要 BigQueryでプロジェクト内のテーブルやudfなどをリストとしてまとめたかったのだが、意外と方法についてまとまっている情報がなかったのでtsvで出力するスクリプトを作成した。 やり方 ...
概要 BigQueryでarray等の列をunnestする際に、その列のnullなレコードはunnestの処理時に残らない。 nullを含む列のunnest例 with test as ( se...
概要 date_diff関数は、2つの日付型に対して、指定した粒度での差を返す。 ただし、その際、指定した粒度より細かい要素は切り捨てる形で評価する。 そのため、日付間の月数を取りたいが日数が加...
概要 string_aggを利用した際に集計の再現性が取れずに詰まってしまったので、備忘のため掲載。 本題 string_aggは文字列値を結合して返す集計関数である。 グループ集計で利用する場...
概要 3月より公開されたPythonZen & PEP 8 検定試験を受験したので、それについて所感をまとめます。 PythonZen & PEP 8 検定試験とは おおまかには...
概要 ユニークユーザ数の集計など、count distinctを実行する場合、BigQueryでも処理時間が膨大になってしまうほどのレコード数を扱いたい時、近似集計が有用である。 BigQuer...
概要 不幸な事故によって無駄なBigQueryのジョブが大量に流れてしまった際に、一斉にジョブをキャンセルしたい時の手順を備忘のために掲載する。 やり方 bqコマンドで以下を実行する。 bq l...
概要 BigQueryのデータ加工時に、グループ集計時に特定の条件でソートした際の最初の行の値を取得したいといったことがある。 分析関数としてfirst_valueが用意されているが、処理の目的...
概要 Pythonで作った自作関数を使用する時に、意図しない利用や挙動を検出するために、引数と返り値の型をチェックするデコレータを作ってみた。 型アノテーションを利用するため、Python3が前...
sphereclusterに至った経緯 コサイン距離でクラスタリングしようと思ったら、球面クラスタリングに辿り着いた。 大きな次元のノイジーなデータを扱う際に、距離尺度としてコサイン距離の方のク...
概要 スプレッドシートのデータをBigQueryに連携してTableauで分析する時に詰まったので、備忘のためまとめる。 ケース BigQuery連携したTableauデータソースに対して、スプ...
はじめに 社内向けにビジネス職向けの分析依頼時の注意事項を整理する上で、分析者が意識している観点をまとめたので、再編集した上でここで展開してみます。 関連:データ分析の設計・コミュニケーションの...
概要 count distinct集計にwindowを使うことはできないが、それに対する代替手段を備忘のためまとめる。 やり方 count(distinct X) over (order by ...
概要 BigQueryのStandardSQLだとrand()関数にseedを指定することができないので、再現性を担保した上で任意の件数のランダムサンプリングの実装が面倒。 簡易的な代替手段を備...
はじめに 色々なデータ分析系の職業を見た中で、その分類を自分なりにまとめることが趣旨の記事です。 こちらの記事(機械学習・AI関連の職業をざっくりとまとめてみた)のアップデート版です。 自分用な...
はじめに 色々なやることがあるこの界隈の仕事を「データサイエンティスト」で一緒くたにされるのもなんだかなぁ・・・と思ったので、採用市場でどんな求人があるのかを調べて傾向をまとめてみました。 内容...
概要 SQLでトランザクションデータを扱うとき、特定のルールに沿ったまとまりごとに処理を行いたい時がある。 自分で1から加工するのが結構大変だったので、備忘のために記事として残す。 やり方 1....
こんな感じでぬくぬくできる 結構、模様のパターンは多い 設定方法は、ツールバーの「ツール」「設定」から「コーギーモード」と「猫モード」にチェックを入れるだけ
はじめに 効果検証入門 ~正しい比較のための因果推論/計量経済学の基礎内のソースコードをPythonで再現します。 既に素晴らしい先人の実装例がありますが、自分の勉強用のメモとして残しておきます...
はじめに 効果検証入門 ~正しい比較のための因果推論/計量経済学の基礎内のソースコードをPythonで再現します。 既に素晴らしい先人の実装例がありますが、自分の勉強用のメモとして残しておきます...
103 search resultsShowing 1~20 results
Qiita is a knowledge sharing service for engineers.