LoginSignup
3
1

More than 3 years have passed since last update.

TypeScript(Node.js)でテキストファイルを指定行数ごとに分割する

Last updated at Posted at 2021-03-01

テキストファイルを分割したいときってありますよね。
例えばSQLのINSERT INTO hoge VALUESに続く行が数万行ある時とか (そんなにない)

個人的に上記をやりたいタイミングがあって、npmでいい感じのモジュールを探したんですが
意外とテキストファイルを「指定した行数で」区切ってくれるやつが無かったので泣く泣く自分で作りました。

あ、Nodeです。

Streamで順次処理してるので、でっかいファイルでもヒープアウトしないはず!

Usage

hoge.ts
import { FileSplitter } from "path/to/file-splitter"

// your-file.txtを100行ごとに分割する
const fileSplitter = new FileSplitter("/path/to/your-file.txt", 100)

// 分割開始!
fileSplitter.start()

御託は良いからコードを見せろ

file-splitter.ts
import fs from "fs"
import path from "path"
import readline from "readline"

export class FileSplitter {
  private maxLines: number
  private identifier = 0
  private curLine = 0
  private lineReader: readline.Interface
  private currentWriteStream: fs.WriteStream
  private outputPath: string

  constructor(readFrom: string, maxLines = 500) {
    // 分割したファイル群を保存する先のディレクトリを作り、そのpathを保存
    this.setOutputDir(readFrom)

    this.maxLines = maxLines

    // 最初のWriteStreamを作っておく
    this.replaceWriteStream()

    // readlineに指定ファイルのReadStreamを食わせて行リーダーを作る
    this.lineReader = readline.createInterface({
      input: fs.createReadStream(readFrom)
    })
  }

  start() {
    this.lineReader
      .on("line", (line) => {
        // 現在の行数を保持 (1 ~ 指定行数 + 1までの値を取る)
        this.curLine++

        // ここ、もう少しうまくやりたかった人生だった
        const isOn = this.curLine === this.maxLines
        const isOver = this.curLine > this.maxLines

        if (isOver) {
          // 指定行数を超えたら新しいファイル向けのWriteStreamに切り替え、行数を1にリセットする
          this.replaceWriteStream()
          this.curLine = 1
        }

        if (isOn) {
          // そのファイル最後の行は改行無しにしている (が、例えば100行のファイルを30行とかで区切られると、最後のファイルには改行が入っちゃう。めんどくさくてこれ以上考えなかった)
          this.currentWriteStream.write(line)
        } else {
          this.currentWriteStream.write(`${line}\n`)
        }
      })
      .on("close", () => {
        // 一応掃除する
        this.closeWriteStreamIfExists()

        console.info("Done!")
      })
  }

  private setOutputDir(readFrom: string) {
    const extension = path.extname(readFrom)
    const fileName = path.basename(readFrom, extension)

    const splitFileBaseDir = `${path.dirname(readFrom)}/split-files`

    this.outputPath = `${splitFileBaseDir}/${fileName}`

    if (!fs.existsSync(splitFileBaseDir)) {
      fs.mkdirSync(splitFileBaseDir)
    }

    if (!fs.existsSync(this.outputPath)) {
      fs.mkdirSync(this.outputPath)
    }
  }

  private replaceWriteStream(): void {
    this.identifier++

    this.closeWriteStreamIfExists()

    const writeTo = `${this.outputPath}/file_${this.identifier}.txt`

    console.info(`Start writing to ${writeTo}.\n`)

    this.currentWriteStream = fs
      .createWriteStream(writeTo)
  }

  private closeWriteStreamIfExists() {
    if (this.currentWriteStream) {
      this.currentWriteStream.close()
    }
  }
}

まとめ

readline標準モジュールにたどり着くまでの人生を無駄にした。

Streamをちゃんと考えて使ったことあんまりなかったのでちょっと楽しかった。

3
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1