LoginSignup
2
2

More than 5 years have passed since last update.

sparkで改行の入ったcsvを集計したいときはoption("multiLine", "true")をつければいいよ

Last updated at Posted at 2019-04-29

こういうcsvを読み込みたい時はこうする

sample.csv
1,"改行入り
とても長いタイトル1","body1"
2,"改行入り
とても長いタイトル2","body2"
val df = spark.read.option("multiLine", "true").csv("sample.csv")
df.show
+---+----------------------------+-----+
|_c0|                         _c1|  _c2|
+---+----------------------------+-----+
|  1|改行入り
とても長いタイトル1|body1|
|  2|改行入り
とても長いタイトル2|body2|
+---+----------------------------+-----+

ちなみにoptionをつけないと下記のように改行で分けられちゃいます。
よくやらかしがちなので気をつけましょう。

val df = spark.read.csv("sample.csv")
df.show
+--------------------+--------+
|                 _c0|     _c1|
+--------------------+--------+
|                   1|改行入り|
|とても長いタイトル1"|   body1|
|                   2|改行入り|
|とても長いタイトル2"|   body2|
+--------------------+--------+
2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2