こういうcsvを読み込みたい時はこうする
sample.csv
1,"改行入り
とても長いタイトル1","body1"
2,"改行入り
とても長いタイトル2","body2"
val df = spark.read.option("multiLine", "true").csv("sample.csv")
df.show
+---+----------------------------+-----+
|_c0| _c1| _c2|
+---+----------------------------+-----+
| 1|改行入り
とても長いタイトル1|body1|
| 2|改行入り
とても長いタイトル2|body2|
+---+----------------------------+-----+
ちなみにoptionをつけないと下記のように改行で分けられちゃいます。
よくやらかしがちなので気をつけましょう。
val df = spark.read.csv("sample.csv")
df.show
+--------------------+--------+
| _c0| _c1|
+--------------------+--------+
| 1|改行入り|
|とても長いタイトル1"| body1|
| 2|改行入り|
|とても長いタイトル2"| body2|
+--------------------+--------+