More than 5 years have passed since last update.

EXT4 vs XFS vs Btrfs vs ZFSをfioでベンチマークを取ってみました。

Last updated at 2014-08-15Posted at 2014-08-13

概要

CentOS7のデフォルトのファイルシステムがXFSとなりました。
mkfsコマンドでも、minix, xfs, btrfsが使えるようになりました。
そこで気になるファイルシステムを色々調べ、ベンチマークを自分なり取ってみました。
多少なりともご参考になればと思います。

色々なファイルシステム

こちらをご参考ください。
http://qiita.com/sion_cojp/items/c8e015db39ddbf43012e

それぞれファイルシステムを作ってみる

今回の環境は
- CentOS6（ホスト）
  - 4Core, MEM:32G, HDD:300G
- CentOS7（ゲスト。こちらで計測しております。）
  - vCPU *1, MEM:4G, HDD:40G
容量が少なかったため、btrfsのベンチマークが終わった後、zfsにファイルシステムを変更し検証をしております。

### zfsのインストール
$ sudo yum localinstall --nogpgcheck http://download.fedoraproject.org/pub/epel/beta/7/x86_64/epel-release-7-0.2.noarch.rpm
$ sudo yum localinstall --nogpgcheck http://archive.zfsonlinux.org/epel/zfs-release.el7.noarch.rpm
$ sudo yum install kernel-devel zfs
 
# spl zfsをカーネルモジュールにビルド
$ dkms status
spl, 0.6.3: added
zfs, 0.6.3: added
$ dkms install -m spl -v 0.6.3
Error! echo
Your kernel headers for kernel 3.10.0-123.el7.x86_64 cannot be found at
/lib/modules/3.10.0-123.el7.x86_64/build or /lib/modules/3.10.0-123.el7.x86_64/source.

# バージョンが違うと言われたので、入れ変えましょう
$ rpm -qa | grep kernel-devel
kernel-devel-3.10.0-123.6.3.el7.x86_64
$ rpm -e --nodeps kernel-devel-3.10.0-123.6.3.el7.x86_64
$ wget ftp://mirror.switch.ch/pool/4/mirror/scientificlinux/7rolling/x86_64/os/Packages/kernel-devel-3.10.0-123.el7.x86_64.rpm
$ rpm -ivh kernel-devel-3.10.0-123.el7.x86_64.rpm
 
# 再度ビルド
$ dkms install -m spl -v 0.6.3
DKMS: install completed.
$ dkms install -m zfs -v 0.6.3
DKMS: install completed.

# うまくいきました。念のため確認しましょう。
$dkms status
spl, 0.6.3, 3.10.0-123.el7.x86_64, x86_64: installed
zfs, 0.6.3, 3.10.0-123.el7.x86_64, x86_64: installed
 
### パーティション作成。雑に書いてます。。
$ sudo fdisk /dev/vda
n
e
enter enter
p
 
n
l
enter +5G
p
*3回
 
コマンド (m でヘルプ): p
/dev/vda1   *        2048      411647      204800   83  Linux
/dev/vda2          411648    45475839    22532096   8e  Linux LVM
/dev/vda3        45475840    83886079    19205120    5  Extended
/dev/vda5        45477888    55963647     5242880   83  Linux
/dev/vda6        55965696    66451455     5242880   83  Linux
 
コマンド (m でヘルプ): w
パーティションテーブルは変更されました！

# サーバ再起動
$ reboot

### ext4のファイルシステムを作成します
$ sudo mkfs.ext4 /dev/vda5
mke2fs 1.42.9 (28-Dec-2013)
Filesystem label=
OS type: Linux
Block size=4096 (log=2)
Fragment size=4096 (log=2)
Stride=0 blocks, Stripe width=0 blocks
327680 inodes, 1310720 blocks
65536 blocks (5.00%) reserved for the super user
First data block=0
Maximum filesystem blocks=1342177280
40 block groups
32768 blocks per group, 32768 fragments per group
8192 inodes per group
Superblock backups stored on blocks:
    32768, 98304, 163840, 229376, 294912, 819200, 884736
Allocating group tables: done
Writing inode tables: done
Creating journal (32768 blocks): done
Writing superblocks and filesystem accounting information: done

### xfsのファイルシステムを作成します 
$ sudo mkfs.xfs /dev/vda6
meta-data=/dev/vda6              isize=256    agcount=4, agsize=327680 blks
         =                       sectsz=512   attr=2, projid32bit=1
         =                       crc=0
data     =                       bsize=4096   blocks=1310720, imaxpct=25
         =                       sunit=0      swidth=0 blks
naming   =version 2              bsize=4096   ascii-ci=0 ftype=0
log      =internal log           bsize=4096   blocks=2560, version=2
         =                       sectsz=512   sunit=0 blks, lazy-count=1
realtime =none                   extsz=4096   blocks=0, rtextents=0

### btrfsのファイルシステムを作成します。
$ sudo  mkfs.btrfs /dev/vda7
WARNING! - Btrfs v3.12 IS EXPERIMENTAL
WARNING! - see http://btrfs.wiki.kernel.org before using
Turning ON incompat feature 'extref': increased hardlink limit per file to 65536
fs created label (null) on /dev/vda7
    nodesize 16384 leafsize 16384 sectorsize 4096 size 5.00GiB
Btrfs v3.12

### （btrfsの検証が終わったら）zfsのファイルシステムを作成します。
# zfsのストレージプール作成
$ zpool create zfs /dev/vda7
$ df | grep zfs
zfs                         5128576       0  5128576    0% /zfs
 
# zfsのファイルシステム作成
$ zfs create zfs/test
$ zfs listcd
NAME       USED  AVAIL  REFER  MOUNTPOINT
zfs        148K  4.89G  32.5K  /zfs
zfs/test    30K  4.89G    30K  /zfs/test
 
### ちなみに削除するときは
$ umount zfs/test
$ zfs destroy zfs/test

$ umount zfs
$ zpool destroy zfs

### マウントしていきます。
$ mkdir -p {ext4, xfs, brtfs}
$ blkid | grep vda[5-7]
/dev/vda5: UUID="○○○" TYPE="ext4"
/dev/vda6: UUID="×××" TYPE="xfs"
/dev/vda7: UUID="△△△" UUID_SUB="□□□" TYPE="btrfs"
 
 
### ３行追加しましょう
$ sudo vi /etc/fstab
UUID="○○○"     /ext4   ext4    defaults        1 2
UUID="×××"     /xfs    xfs     defaults        1 2
UUID="△△△"     /btrfs  btrfs   defaults        1 2
 
$ df -Tmh | grep "vda[5,6,7]\|ファイル"
ファイルシス            タイプ   サイズ  使用  残り 使用% マウント位置
/dev/vda5               ext4       4.8G   20M  4.6G    1% /ext4
/dev/vda6               xfs        5.0G   33M  5.0G    1% /xfs
/dev/vda7               btrfs      5.0G  320K  4.5G    1% /btrfs

1.2Gのファイルをコピー & 削除してみる（timeコマンドを用いて測定）

	cp real time	rm real time
ext4	0m9.723s (124MB/s)	0m1.905s(631MB/s)
xfs	0m7.013s (171MB/s)	0m1.258s(960MB/s)
btrfs	0m8.505s (141MB/s)	0m1.329s(863MB/s)
zfs	1m40.611s(12MB/s)	0m2.589s(480MB/s)

削除が遅いと言われたxfsだけど、全然速い。
基本的なseq/read,writeが圧倒的に早いのだろう。
zfsはメモリが少ないのかめちゃくちゃ遅い。

fioでベンチマーク測定する

### fioのインストール
$ sudo yum install -y libaio-devel
$ wget http://pkgs.repoforge.org/fio/fio-2.1.7-1.el7.rf.x86_64.rpm
$ rpm -ivh fio-2.1.7-1.el7.rf.x86_64.rpm
 
### fioコマンドを打つ時は、各ファイルシステムのディレクトリに移動してください。
cd {/ext4, /xfs, /brtfs, /zfs/test}
 
### 実行コマンド。seq,random/read,write を図ります。
### bs=4K
$ fio -rw=read -bs=4k -size=100m -numjobs=40 -runtime=60 -direct=1 -invalidate=1 -ioengine=libaio -iodepth=32 -iodepth_batch=32 -group_reporting -name=seqread
$ fio -rw=write -bs=4k -size=100m -numjobs=40 -runtime=60 -direct=1 -invalidate=1 -ioengine=libaio -iodepth=32 -iodepth_batch=32 -group_reporting -name=seqwrite
$ fio -rw=randread -bs=4k -size=100m -numjobs=40 -runtime=60 -direct=1 -invalidate=1 -ioengine=libaio -iodepth=32 -iodepth_batch=32 -group_reporting -name=randread
$ fio -rw=randwrite -bs=4k -size=100m -numjobs=40 -runtime=60 -direct=1 -invalidate=1 -ioengine=libaio -iodepth=32 -iodepth_batch=32 -group_reporting -name=randwrite
 
### bs=16K
### 実行コマンド。seq,random/read,write を図ります。
$ fio -rw=read -bs=16k -size=100m -numjobs=40 -runtime=60 -direct=1 -invalidate=1 -ioengine=libaio -iodepth=32 -iodepth_batch=32 -group_reporting -name=seqread
$ fio -rw=write -bs=16k -size=100m -numjobs=40 -runtime=60 -direct=1 -invalidate=1 -ioengine=libaio -iodepth=32 -iodepth_batch=32 -group_reporting -name=seqwrite
$ fio -rw=randread -bs=16k -size=100m -numjobs=40 -runtime=60 -direct=1 -invalidate=1 -ioengine=libaio -iodepth=32 -iodepth_batch=32 -group_reporting -name=randread
$ fio -rw=randwrite -bs=16k -size=100m -numjobs=40 -runtime=60 -direct=1 -invalidate=1 -ioengine=libaio -iodepth=32 -iodepth_batch=32 -group_reporting -name=randwrite

fioの詳細はこちら

オプション	詳細
bs	ブロックサイズの指定。今回はlinuxのデフォルトブロックサイズとMySQLを想定して4Kと16K
size	この測定で読み書きするファイルサイズ
numjobs	ジョブのクローン数。同時にいくつIOを発生させるか。
rutime	測定時間（秒）
direct	ダイレクト転送。1は有効にする
invalidate	バッファキャッシュ。1は無効（デフォルト）
ioengine	利用するIOエンジン。liabaioはLinuxカーネル内で実装されてる非同期IO
iodepth	queue depthともいう。どれくらい平行して非同期読み書きを行うか。一度に受け取れるコマンドの数。
ipdepth_batch	IO数をどれだけ出すか。基本はiodepthと同じ値にする。
ipdepth_batch_complete	どれだけのIOをすぐに回収するか。デフォルトは1で、理由はカーネルから回収するプロセスの最小IO=1を求めるから。
group_reporting	結果をjob単位でなく、グループ単位で出力

測定結果（IOPS）

3G(size)のファイル1個（numjobs）でベンチマークしても大差は全然ないので、100Mのファイル40個でいってみます。
皆さんが運用してるMySQLのページサイズを設定して測っても良いでしょう
$ mysql -uroot -e 'show status' | grep page_size

bs=4K

※単位はIOPSです。

	ext4(4K)	xfs(4K)	btrfs(4K)	zfs(4K)
seq-read	6155	17434	10631	測定不能
seq-write	639	1192	759	測定不能
random-read	1609	1438	1532	測定不能
random-write	188	188	191	測定不能

bs=16K