你将学习:
- 导致SSD盘故障的两个主要因素。
- NAND闪存问题的五大供应商是什么?
在过去的十年中,NAND闪存已经成为存储和访问各种数据的最受欢迎的设备,从视频记录和流媒体,个人存储,操作系统提供到数据日志,应用程序加速,等等。创新速度通过多种因素提高了速度和存储容量。
唯一下降的方面,至少一般来说,是可靠性。由于新产品的引入周期很短,只有几个月,因此完全测试和验证复杂功能的时间就不再花了。因此,不成熟的产品进入市场后,需要在该领域进行多次固件更新,以消除客户测试发现的问题。
在大多数情况下,这是不公开的,NAND存储的问题不会在受影响的公司之外共享,除非损害影响到更广泛的公众。例如,特斯拉(Tesla)最近不得不召回13.4万辆汽车,原因是一款尺寸不足的嵌入式多媒体卡(MultiMediaCard, eMMC)出现早期故障。
关于固态硬盘(SSD)故障,我们需要考虑两个主要方面:硬件和固件。
硬件定义了原始误码率(在通过纠错单元之前,读取带有误码率的块的百分比)、单元的数据保留率和支持的温度范围。固件需要管理均匀磨损的闪存,执行误码校正,并减轻温度数据影响和功耗问题。
以下是NAND闪存存储问题的五大诱因。
1.错误的NAND质量。
NAND闪存是一种商品,需要保持低成本每千兆字节。许多开发(3D NAND, QLC)主要是由这个目标驱动的。对于手机和个人电脑/笔记本来说,消费者质量的NAND就足够了。但对于要求更高的应用程序,如企业存储或工业/网络和通信应用程序,情况就不同了。
JEDEC标准化联盟定义了两个主要的使用案例及其各自的质量要求:
- 客户端用例:PC用户类型工作量,8小时/天,40°C,不可纠正错误率(UBER) < 10-15年
- 企业用例:数据库类型工作量,24小时/天,55°C,不可纠正错误率(UBER) < 10-16年
两个十-15年和10-16年看起来是非常低的数字,但差异意味着客户端驱动器的故障频率是企业驱动器的10倍。随着现代SSD的高吞吐量,SSD故障的概率不再是可以忽略的。
目前NAND闪存的原始误码率在10左右-2对于低年级和10级-3高品位的技术。各种级别的纠错将优步率降低到要求的优步级别。闪光质量等级和错误处理水平直接影响销售价格。一般规则是:不要在需要低错误率的应用程序中使用廉价的商业级SSD。
2.错误的NAND设计。
3D NAND细胞是一个高度复杂的多层堆叠。目前,一些设备的层数超过140层。这种制造需要在一个由数百个多晶硅和硅氧化物沉积物组成的夹层层上刻蚀非常薄但又非常深的孔。由于蚀刻的性质,孔的下部比上部窄得多,导致了不同的电特性的晶体管。这使得可靠地读取不同的细胞非常具有挑战性。添加读和写之间的温度变化增加了方差的维度。
当读写之间的温度变化时,并不是每一种NAND设计都能提供足够好的数据。只要SSD产品驻留在一个热控制良好的系统中——例如,在个人电脑、笔记本电脑、服务器或手持设备中——温度变化太小,不会引起问题。
对于工业或网通应用程序,对NAND的要求显著增加,NAND设计和支持固件都需要支持宽的温度波动。一旦系统必须在波动的温度条件下运行,错误的闪速产品会导致多个问题。
3.错误的机械稳定性。
听说过热机械应力吗?当温度波动影响到结合了不同热膨胀因子的元素的结构时,即,在相同的温度变化下,某些部分比其他部分延伸得更多时,这种情况就会发生。
SSD盘由一块PCB板、一个控制器、一个连接器和一个小的无源器件组成。它们都随着温度的变化而变化。由于封装是焊接到PCB上的,不同的膨胀会导致机械应力,最终导致互连断裂(图一、图二).
这种破坏发生在数百到数千次温度循环之后,甚至可能需要数年时间。但当涉及到在这个领域已经存在很长时间的工业系统时,这就很重要了。
4.停电的鲁棒性。
对于总是优雅地关闭的笔记本电脑,电源故障的稳健性不是问题。对于简单拔掉插头的医疗设备,或者在供电不稳定的环境下使用的网通路由器,不允许突然断电导致系统崩溃。
突然断电可能在任何时候发生——在外部写入SSD时,在内部垃圾收集时,在固件更新时,甚至在从上一次断电恢复时。如果固件不能正确管理电源丢失将影响数据丢失的严重程度。最好的情况是,它只是最后写入的数据(动态数据);最坏的情况是固件损坏,SSD不再工作。在许多关键任务应用程序中,即使丢失少量数据也是不可接受的。
Swissbit测试了市场上常用的ssd,并看到了在断电测试下发生的所有类型的故障。
5.错误的固件架构。
速度很重要,至少对消费者来说是这样。此外,速度测试通常在驱动器是新的、空的和新格式化的情况下执行。通常没有考虑到的是,当驱动器100%满、多次覆盖或可能在高温下运行时,还能保持多少性能。许多现有的固件架构关注的是性能规格,而不是最高的耐久性或保留或在整个操作范围内的持续性能。
选择一个没有为长期使用而优化的SSD可能会导致糟糕的意外,一旦驱动器的早期寿命过去(图3).
结论
选择正确的SSD或NAND闪存产品取决于许多标准。特别是当涉及到工业使用或苛刻的应用时,决策过程中应该包括以下方面:选择正确的组件、机械结构、固件架构和电力故障的鲁棒性。这样做是找到可靠的数据存储设备以长时间存储和检索数据的最佳方法。