【トリビアのDelta Lake】#11 Pysparkで増分データ内の重複を削除する
データハンドリングにおいて、データの品質を高める意味でも「重複データの削除」は重要だと思います。 Deltaテーブルを更新する際、元データ側から取得する増分データは、理想的には重複のない、真の増...
13 search resultsShowing 1~13 results
You need to log-in
データハンドリングにおいて、データの品質を高める意味でも「重複データの削除」は重要だと思います。 Deltaテーブルを更新する際、元データ側から取得する増分データは、理想的には重複のない、真の増...
だいぶ、小ネタなのですが… PySparkを使ってデータ操作していたとき、カラム名に「:」が入ってて困った話を今回はしてみます。 サンプルデータフレームを用意 今日の晩御飯はすき焼きだったので、...
Spark DataFrameにTimestampデータ型のカラムがあり、それらの値の差を計算する機会がありました。 以下のように、サンプルデータで再現。startカラムとendカラムで、10秒...
最初に 機械学習やデータ分析で、特定の期間にデータを絞りたいなという時があると思います。 アドホックに絞る場合はPySparkや素のSQLで簡単に絞れますが、これを自動で、動的に絞りたいときはど...
Google ColabなどでPysparkを動かし、Dataframeの中身を確認したいとき。 show_dataframe.py <dataframeの変数名>.show() で...
Sparkはさまざまなフォーマットのデータに対応しており、jsonデータも勿論readし、Databframeにすることができます。 {"a": 123,"b":"hello"}, {"a": ...
Pysparkで、同じ値だけを各行に入れた列を新設したい 今回は少しマイナーなTipsかもしれませんが、意外と「あれどうやるんだっけ?」となることが多いので書いてみます。 今回も例によってサンプ...
「シャ!S3に生データ入れたぜ!あとはspark.read.csvで楽勝やな!って、あれ??」 …CSVが存在するはずだったそのS3プレフィックスには、謎のZipファイルが置かれていました。 Z...
リモートワークの普及により、社内コミュニケーションにはメールではなくチャットツールを使っている会社も多いと思います。 Teams,Chatwork,LINE Works…数あるチャットツールのな...
Pysparkで破産? Databricksでは、Clusterという有償のコンピューティングリソースを用いてデータソースにアクセスしたり、プログラムを動かしたりします。 Clusterは従量課...
Spark DataFrameはいろいろな形に化ける DatabricksやPysparkを使っていると必ず扱うことになる、Spark DataFrame。 これはいろいろな形に化けるし、その化...
Pysparkで、邪魔なゼロを消したい ゼロパディングというのをご存知でしょうか。桁数が違うデータを、任意の数までゼロで埋めて桁数を揃えてやる、アレです。 サンプルのデータはこんな感じ。 sam...
Pysparkで、特定のカラムの特定の文字列を削除したい Pysparkを使って、sparkデータフレーム内の特定のカラムの特定の文字列を削除する方法です。 「Pyspark 特定の文字列 削除...
13 search resultsShowing 1~13 results
Qiita is a knowledge sharing service for engineers.