More than 5 years have passed since last update.

sparkで改行の入ったcsvを集計したいときはoption("multiLine", "true")をつければいいよ

Last updated at 2019-04-29Posted at 2019-04-29

こういうcsvを読み込みたい時はこうする

sample.csv

1,"改行入り
とても長いタイトル1","body1"
2,"改行入り
とても長いタイトル2","body2"

val df = spark.read.option("multiLine", "true").csv("sample.csv")
df.show
+---+----------------------------+-----+
|_c0|                         _c1|  _c2|
+---+----------------------------+-----+
|  1|改行入り
とても長いタイトル1|body1|
|  2|改行入り
とても長いタイトル2|body2|
+---+----------------------------+-----+

ちなみにoptionをつけないと下記のように改行で分けられちゃいます。
よくやらかしがちなので気をつけましょう。

val df = spark.read.csv("sample.csv")
df.show
+--------------------+--------+
|                 _c0|     _c1|
+--------------------+--------+
|                   1|改行入り|
|とても長いタイトル1"|   body1|
|                   2|改行入り|
|とても長いタイトル2"|   body2|
+--------------------+--------+

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up