Linux的文件系统有点像MySQL的存储引擎,它支持各种各样的文件系统。它最上层是通过 virtual files system虚拟文件系统作为一个抽象接口层来对外提供调用的。然后下层的各种文件系统实现这些调用接口就行了。
1. Linux 中的 日志文件系统和非日志文件系统
文件内容的修改涉及到两部分:实际文件内容的修改 和 文件元(metadata)信息的修改。所以在修改一个成功之后,修改另一个之前,此时系统崩溃,就会导致两者的不一致。所以提出了日志文件系统的概念。
所谓的日志文件系统(Journaling file system),就是在实际修改文件内容和文件元信息之前,将他们的修改先写到一个日志中(journal log)。这样的话,如果发生系统崩溃,就可以使用日志进行恢复。当然,写日志会对文件系统的性能有一定的影响。除了ext2之外,其它文件系统几乎都是日志文件系统。
日志文件系统的处理过程是:1)先写日志;2)然后写实际的文件系统;3)删除日志;
日志文件系统又可以分成三种类型:
1)日志模式(journal): 将所有的元数据和数据改变均写入日志,对性能影响最大;
2)预定模式(ordered): 只记录元数据的变化, 在数据写入磁盘后再修改元数据,对性能影响中等;
3)写回模式(writeback): 只记录元数据的修改变化,对数据修改顺序无要求,对性能影响最小;
我们可以在/etc/fstab 文件中修改文件系统的日志模式。
/dev/sdb1 /testfs ext3 defaults,data=writeback 0 0
Linux 常用文件系统:
ext4, ext4, XFS, ReiserFS, JFS
其中最常用的是 ext4, XFS. 其中redhat7/centos7将XFS作为默认的文件系统。在最新内核的测试中XFS性能也明显超过ext4。所以对于mysql服务器,最好选择使用 XFS 文件系统。
关于 ssd上的ext4和xfs有一个比较:
在rhel6.4之前ext4性能比xfs好,因为xfs有lock争用的bug。但是6.4开始,xfs的bug被fix了。所以xfs性能比ext4好。
在xfs的锁争用bug没有解决时:
sync asyncthreads throughput throughput XFS ext4 XFS ext41 1.90/124k 1.41/92k 1.72/112k 1.41/92k2 1.01/64k 1.65/108k 0.97/62k 1.65/108k4 0.27/17k 1.55/102k 0.21/13k 1.55/102k8 0.13/8k 1.45/95k 0.15/9k 1.45/95k16 0.12/7k 1.45/95k 0.12/7k 1.45/95k
It’s pretty clear from these results that lock contention is killing XFS as the thread count grows. ext4 performance shows that it uses exclusive locking as well, but it is not degrading like XFS is due to different lock types being used.
但是当xfs的锁争用bug解决之后:
sync asyncthreads throughput throughput vanilla patched vanilla patched1 1.90/124k 1.83/120k 1.72/112k 1.69/111k2 1.01/64k 2.85/185k 0.97/62k 2.57/168k4 0.27/17k 3.68/241k 0.21/13k 3.41/223k8 0.13/8k 4.42/290k 0.15/9k 4.16/273k16 0.12/7k 4.95/325k 0.12/7k 4.86/319k
Throughput scales with thread count – each thread runs at 100% CPU utilsation, and XFS gets up to 3x as much throughput as ext4 does. So, basically, XFS is still the file system you want for direct IO。
挂在文件时的优化(noatime,nodiratime):
mount –t ext4 –o rw,noatime,nodiratime /dev/sda6 /data
noatime 会有0-10%的性能提升,一般平均会有3%的性能提升。
noatime:
Do not update inode access times on this filesystem (e.g, for faster access on the news spool to speed up news servers).
nodiratime:
Do not update directory inode access times on this filesystem.
noatime,nodiratime的配置也可以在/etc/fstab中进行。
注意:XFS挂载超过1T分区时,需要加入挂载参数inode64:
大意就是xfs文件系统会把inode存储在磁盘最开始的这1T空间里,如果这部分空间被完全填满了,那么就会出现磁盘空间不足的错误提示了。解决办法就是在挂载时,指定 inode64 选项:
mount -o remount -o noatime,nodiratime,inode64,nobarrier /dev/sdb1 /backup
参考:http://imysql.cn/2013/02/21/using-xfs-with-large-partition-for-backup.html