来源:中国网 2018-07-25 12:56
导语:SSD(固态硬盘)的寿命问题是用户使用全闪阵列时关注的焦点。如何能够让用户放心使用全闪阵列,保障在5年内存储系统不会因为SSD寿命耗尽而出现问题,是全闪阵列厂商面临的挑战。浪潮通过优化浪潮智能全闪G2-F的软件栈,实现了SSD介质的磨损均衡,使得浪潮智能全闪G2-F可以在长达5-10年的全生命周期内,给闪存介质上的数据提供安全保障。
HDD和SSD 可靠性上存在天然差异
两种存储介质
HDD(硬盘驱动器)是通过机械旋转加磁介质记录数据的,而SSD则通过硅晶半导体记录数据。二者记录数据方式的差异决定了两种类型的盘在存取速度和可靠性方面具有本质差异。
NAND 闪存的存储原理是利用了量子力学的隧道效应。经典物理学认为物体越过势垒,需要有一定的阈值能量,物理能量小于此阈值能量则不能越过,大于此阈值能量则可以越过。就像骑车爬坡一样,车必须要有一定的能量才能越过山坡。而在微观的量子力学里,即使粒子能量小于阈值能量,但是当很多粒子冲向势垒,会有一部分粒子反弹,也会有一些粒子能过去,就像是穿过一个隧道,这就是量子力学里的隧道效应。在通常的情况下,隧道效应并不影响经典的宏观效应,因为穿越隧道的几率极小。但是在人为制造的特定条件下,宏观的隧道效应也会出现。
NAND的存储单元为三端器件,与场效应管有相同的名称:源极、漏极和栅极。如下图所示,浮栅极是用来保存电荷的的,浮栅极与硅衬底之间是隧道氧化层,与控制栅极间也有一层绝缘层,上下两层绝缘层保护浮栅极中的电荷不会泄漏。采用这种结构,使得存储单元具有了电荷保持能力,通过让绝缘浮置栅极捕获不同数量的电子以实现bit值定义。就像是装进瓶子里的水,当你倒入水后,水位就一直保持在那里,直到你再次倒入或倒出,所以闪存具有记忆能力。
NAND Flash原理示意图
而对浮栅极的充放电,是利用量子隧道效应实现的。当我们要对FLASH进行写入操作的时候,在控制栅极上加高电压,源极和漏极接地,使电子穿越隧道氧化层到达浮栅极,并聚集在浮栅上保持,形成电压,用来存储信息。进行擦除时仍利用隧道效应,把电压反过来加,从而消除浮栅上的电子,达到清除信息的结果。
由于在写入和擦除的操作过程中,电子反复来回穿越隧道氧化层会损坏隧道氧化层,当绝缘氧化层破坏到一定程度,浮栅极中的电荷便不能再有效保持,导致存储单元物理损坏。这就是NAND Flash会有写入次数限制的原因。
HDD的实现原理和Flash完全不一样,HDD由磁头和盘片组成,数据存放在盘片上的某个位置,当对数据进行读写,需要将磁头移动到磁道上,盘片转动到指定的位置。所以HDD是一个机械设备,只要加电,磁盘就处于高速旋转工作状态。磁介质本身的寿命是非常长的,所以磁盘的寿命并不取决于读写的数据量,而取决于磁盘的上电时间。不过,磁盘的寿命跟工作环境有很大的关系,比如震动对磁盘的寿命影响就非常大。
通过对比SSD和HDD的工作原理,你会发现二者的故障模式有非常大的差异。传统的磁盘软寿命限制,因此需要对SSD的寿命管理进行精细设计,以此实现全闪存储介质的生命周期管理。
浪潮智能全闪:六招实现SSD介质全生命周期管理
在上一篇关于如何减少SSD磨损的文章《写放大<1:浪潮智能全闪G2-F闪存阵列是如何做到的》中,已经详细介绍了浪潮智能全闪G2-F全闪存储多项全闪存储的专有黑科技如何通过减少对SSD的写入量,从源头上提高SSD的使用寿命。但减少写入只是保障可靠性的一个方面,对于各种原因导致的部分SSD出现坏块,还需要及时的检测、预测和处理。下面让我们来看看浪潮智能全闪G2-F都有哪些大招,来实现SSD全生命周期精细管理以应对SSD的寿命挑战。
【浪潮智能全闪G2-F】
招数1:T10 DIF 杜绝静默数据损坏
出了问题,首先要检测到,防止静默数据损坏。未被检测到的静默数据损坏会导致业务系统的严重后果。
T10 DIF(Data Integrity Field,数据完整性域)是用户数据的一种端到端的保护机制,写入数据的时候在数据块末尾加入PI(Protection Information,保护信息)字段,存放数据的校验信息。当存储端接收到带有PI的数据之后,会将PI信息保存起来,这样在读取的时候会重新计算,使得掉电,硬重启,卷重启,链路丢失等都不会导致PI数据的丢失。浪潮智能全闪G2-F全系列通过支持T10 DIF检测,杜绝了静默数据损坏。
招数2:SSD寿命预测提供事先警告
既然SSD寿命有限,SSD什么时候临近寿命终点、什么时候需要更换,就成为用户和存储系统管理员最关心的事情。全闪存储系统需要在SSD临近寿命极限时对用户进行预警,给用户预留更换乃至采购替代品的时间。同时,如果用户的业务模型、业务流量和初始设计时发生了巨大变化,存储系统也需要给出预警信息,让用户采取措施调整业务模型或者数据布局,将大流量的数据写入业务迁移到其他存储上。这些必要的功能在浪潮智能全闪G2-F系列产品上进行了全面配备,其中包括:
监测寿命衰减速度:浪潮智能全闪G2-F定时检查SSD使用寿命百分比,寿命衰减速度过快时会上报并告警,提醒用户SSD盘异常,建议更换或者改变业务模型。
实时监测使用寿命:当SSD盘使用寿命达到97%,系统会建议用户更换SSD盘;达到99%,会警告用户及时更换SSD盘
智能剩余生命周期预测:浪潮智能全闪G2-F会根据用户业务历史流量及模型,对SSD可使用时间进行预测,并根据用户业务模型的变化,实时调整预测周期。当预测到SSD剩余寿命大概为6个月时,会产生告警,提醒用户关注SSD寿命。
招数3:RAID寿命预测与自动化功能凸显神通
当RAID(磁盘阵列)成员盘的寿命临近极限时,系统会发出告警,使用CLI命令或GUI界面,检查每个成员盘的“更换日期”字段,来确定需要更换的成员盘。如果RAID个别成员盘临近寿命极限,只需更换个别成员盘,利用RAID冗余数据重建,更换盘后,RAID自动重建该成员盘。
当RAID多个成员盘临近寿命时,系统自动更换RAID Group。浪潮智能全闪G2-F可以利用数据迁移功能自动将该RAID中的数据在线迁移出来,方法是直接删除该RAID——数据迁移功能会先将该RAID上的数据迁移到存储池的其他RAID上,然后再删除。如果存储池其他RAID上没有足够的空间,删除会失败,需要先向存储池添加新RAID后再删除。
招数4:健康检查防患未然
浪潮智能全闪G2-F支持自动风扇调速,SSD自动降速等功能,从而使SSD保持在恒定的温度下运行。温度调整软件提供温度检测功能,当温度过高时提高风扇转速,超过阈值温度时,则上报、告警,并降低IO速率。同时,浪潮智能全闪G2-F还会监测SSD的擦写次数、擦写错误次数、SMART信息、SSD性能统计、降级状态DWPD、TBW等参数,检测健康状态并作为寿命预测的依据。
招数5:坏块扫描、坏块标记主动进行
相对于HDD,SSD的整盘失效概率很低,但是发生坏块的概率还是较高的。除了被动的故障检测外,浪潮智能全闪G2-F还支持主动的故障检测,以提早发现坏块。 RAID后台程序定时对SSD做扫描工作,如果发现SSD出现medium error(介质错误),则会自动通过rewrite(重写)的方式修复。对于空闲盘、热备盘,使用SCSI verify命令检查LBA(逻辑区块地址是否可读,不可读时通过写0修复,从而有效避免候选盘和热备盘由于长期没有读写而可能存在的潜在坏块,热备盘、候选盘巡检可通过定义时间周期性地完成一次全盘检测。
招数6:闪存分层实现数据流动和精细化管理
浪潮智能全闪G2-F的闪存分层功能示意图
SSD根据应用场景的不同,可以分为RI(读取密集型)和WI(写入密集型)类型。 RI SSD价格便宜,写寿命低;WI SSD价格昂贵,但是可以支撑更多的数据写入。浪潮智能全闪G2-F通过提供闪存分层功能将二者结合起来,在有效降低用户使用成本的同时,保障了数据的可靠性。
浪潮智能全闪G2-F还提供比SSD具有更好性能和使用寿命3D xPoint 存储,用于热点高密数据存储。此外,冷数据、冰数据还可以推送到云端存储,因而具有更低成本。
浪潮智能全闪G2-F通过上述1+2+1的四层分层,将不同热度的数据进行精细化存储。随着时间变化,数据热度逐渐减弱,浪潮智能全闪G2-F的自动迁移策略,可以让数据根据自身热度在不同存储层之间自由流动。
浪潮智能全闪G2-F的闪存分层技术针对全闪重新设计,采用ADR(auto data reallocate,自动数据重新分配)算法,充分考虑用户IO的读写频度和存储介质的使用寿命,在同一个层级自动进行磨损均衡,实现了数据在全闪存储内全生命周期的流动和管理。
五大智能全闪,根据企业应用灵活选用
浪潮智能全闪G2-F,通过全闪存盘和闪存算法优化实现了数据存储的极致性能,又具备企业级数据平台的高可靠性和高级功能,满足IO密集型企业关键业务的数据存储需求。目前G2-F系列包含五款智能全闪产品,分别是入门级AS2600G2-F、中端AS5300G2-F、AS5500G2-F和中高端AS5600G2-F、AS5800G2-F,可根据企业的应用模式和数据量级灵活选用。
当今社会,云计算、大数据、物联网、人工智能等越来越多的实时交互应用不仅带来了数据的海量增长,更对数据中心的存储性能提出了苛刻要求。毫无疑问,闪存阵列将成为未来数据中心的主流存储系统。浪潮智能全闪G2-F可帮助企业给业务提速,推动企业级存储的闪存化进程。