[OSDI'2021]-ZNS+: Advanced Zoned

作者: 1哥 | 来源:发表于2021-10-03 00:38 被阅读0次

[OSDI'2021]-ZNS+: Advanced Zoned
计算机系统研究顶级会议列表
七天挑战一本书
分布式存储领域相关论文
拜占庭共识算法PBFT：Practical Byzantine
[转]Facebook F4架构解读：千亿级图片存储Haysta
[雪峰磁针石博客]搜索引擎工具技巧2-google高级搜索技巧
Advanced
Gandiva：Introspective Cluster Sc
Swift语法总结2.25(高级运算符)

ZNS+: Advanced Zoned Namespace Interface for Supporting In-Storage Zone Compaction

1.总体思想

传统SSD到ZNS SSD 的转变，ZNS SSD 需要上层软件负责的适配。本文针对ZNS SSD + LFS 的方案进行优化。由于ZNS 接口简化了SSD内部实现，传统SSD 的GC overhead 向上LFS 转移，LFS 需要承担segment compaction 的开销。
本文提出一种新的感知LFS aware ZNS 接口（ZNS+）：（1）LFS 将Host 数据拷贝操作offload 给SSD ，以加速segment compaction；（2）ZNS+ 采用简朴的顺序写请求的方式允许覆盖写，以使LFS 能使用thread logging 来回收空间，而不是只能通过segment compaction。
另外提出ZNS+ aware LFS：（1）考虑SSD 内部不同的copy 路径开销，采用copyback aware block 分配方式，（2）采用混合segment recycle 机制：segment compaction 和 threaded logging，根据开销选择合适的策略。
实验测试结果显示，ZNS+ 存储系统（ZNS+ SSD + ZNS+ aware LFS）比正常的ZNS 存储系统优于1.3-2.9 倍。

2.背景

2.1 SSD 基本架构

传统的SSD 一般包含处理器，NVME控制器，DRAM，多个Flash controller，每个Flash controller 挂接着多个NAND Flash 颗粒，如图。

image.png

NAND 基本特性是：write 最小单位是16kB，erase 最小单位是block（MB），一个block 内部的所有page必须按照page大小顺序写，复写之前需要把整个block 擦出掉。因此一般SSD 采用异地更新（Out-of-place update）的方法，异地更新需要SSD 内部实现FTL 以实现Flash address translation 功能，并且需要Garbage Collection（GC）机制以回收异地更新导致无效的数据。

2.2 ZNS

传统SSD 的实现将整个逻辑地址空间给host 以一个原地更新（in-place update）的假象，ZNS SSD 将整个逻辑地址空间划分固定大小的zone，将zone 的管理权交由host，每个zone 必须顺序写，使用之前必须reset zone。
ZNS 优势：
（1）冷热数据分离
传统SSD ，基于数据流的请求顺序放置数据，多个应用数据流同时下发时，数据混合在一起落盘；而ZNS SSD是基于ZONE 放置数据，多个应用数据流下发，host 可以给不同应用分配不同zone，这样不同应用的数据得到很好的分离。

image.png

（2）使用size 更小的L2P
传统的SSD 使用基于logical block 的L2P table，每个logical block 大小是4KB，L2P table size 是density的1/1024，举例1TB density的SSD，需要1GB的DRAM容纳L2P table；而ZNS SSD 使用基于Zone，每个logical zone size 是几MB 级别的，所以使用更小的DRAM 容纳L2P table。

image.png
（3）更少的GC
传统SSD，由于GC，会引入写放大，而由于ZNS 整个ZONE 被invalidate，写放大WAF 几乎为1。

image.png

2.3 F2FS

当前基于ZNS SSD的软件生态有多种Solution，本文主要基于POSIX 接口的 legacy Application + F2FS + ZNS SSD 方案进行优化。

image.png

F2FS 特点是：
一种Log-Structured File System（LFS）
六种类型的segment：data 和node 各有分为hot,warm,cold三种；
采用multi-head logging 策略；
支持threaded-logging（TL）和Append-logging（AL）；
为了支持ZNS ，关掉了threaded-logging。

image.png

F2FS segment compaction步骤
（1）根据GC策略，挑选victim segment ；
（2）目的block 分配；
（3）有效数据拷贝：host 发起读写请将victim segment中的有效数据拷贝到目的segment中；
（4）metadata 更新

image.png

3.动机

尽管ZNS SSD内部无GC overhead，host side 需要GC ，并且host side GC
开销远大于 device side GC。host side GC 需要额外开销，包括read，write 请求处理，Host-To-Device 数据拷贝，memory分配，metadata update等。另外对于ZNS SSD，F2FS关掉了threaded- logging功能， host side GC 只能进行segment compaction。当前host side GC 巨大开销，会使Foreground GC影响host write 的latency。

image.png

本paper针对现有FG GC的开销比较大，做几点优化。
对于ZNS SSD，提出ZNS+ SSD
（1）加速compaction-Internal zone compaction（IZC）
实现zone_compaction command，这样F2FS offload 数据拷贝到SSD中实现，可以减小zone compaction 开销；并且SSD 内部可以高效的调度Flash read 和write 操作，以实现Flash chip的最大利用率

image.png
（2）避免compaction - sparse sequential write
实现TL_open command, 以使能threaded-logging，这样能避免zone compaction；
为了充分利用ZNS+ SSD 特性，针对F2FS segment compaction，提出ZNS+ aware F2FS

image.png

（1）混合segment回收策略
ZNS+ SSD支持threaded- logging和segment compaction，根据两者的开销和收益，从中选择合适的策略
（2）copyback aware block 分配
由于数据拷贝过程中On-chip copyback操作明显快于off-chip 操作，针对SSD 内部数据拷贝采用不同copy 路径，最大化on-chip 数据copy。

image.png

4.结果

（1）IZC
相较于ZNS，IZC segment compaction 时间减少了28.2%-51.7%
相较于ZNS，IZC throughput 是ZNS的1.28 ～1.89倍
（2）ZNS+
相较于ZNS，ZNS+ throughput是ZNS 的1.33～2.91 倍；
超过86% 的回收segment 是通过thread-logging；
metadata update 减少了48%；