为什么OceanStor Dorado V6是最快,最可靠的存储

请不要因为标题而急于下结论!我们有支持它的重要论点,并且将它们尽可能紧凑地打包。我们提请您注意我们于2020年1月发布的有关新数据存储系统的概念和操作原理的帖子。




我们认为,Dorado V6存储系列的主要竞争优势由标题中提到的性能和可靠性提供。是的,它是如此简单,但是由于一些棘手而不是非常棘手的决定,我们设法实现了这一“公正”,今天我们将进行讨论。

为了更好地揭示新一代系统的潜力,我们将讨论模型范围(模型8000、18000)的高级代表。除非另有说明,否则暗示它们。



关于市场的几句话


为了更好地了解华为解决方案在市场上的地位,我们转向行之有效的措施-Gartner的“ 魔力象限 ”。两年前,在通用磁盘阵列领域,我们公司充满信心地进入了领导者的行列,仅次于NetApp和Hewlett Packard Enterprise。 2018年,华为在固态存储市场上的地位以“申请者”身份为特征,但要想获得领导地位还缺少一些东西。

Gartner在2019年的研究中将上述两个领域合并为一个“主存储”。结果,华为再次跻身领导者之列,仅次于IBM,日立Vantara和Infinidat等供应商。

为了使情况更完整,我们注意到Gartner收集了80%的数据用于美国市场进行分析,这导致明显偏向于那些在美国有代表性的公司。同时,针对欧洲和亚洲市场的供应商发现自己处于不利的地位。尽管如此,去年,华为产品在右上象限中占据了应有的位置,根据Gartner的判决,“可以推荐使用”。



Dorado V6的新增功能


特别是Dorado V6产品线,以3000系列的入门级系统为代表,它们最初配备了两个控制器,可以水平扩展到16个控制器,1200个磁盘和192 GB的缓存。此外,系统还将配备外部光纤通道(8/16/32 Gb / s)和以太网(1/10/25/40/100 Gb / s)端口。

请注意,已经淘汰了没有商业成功的协议,因此一开始我们决定放弃对以太网光纤通道(FCoE)和Infiniband(IB)的支持。它们将在更高的固件版本中添加。光纤通道顶部提供开箱即用的对光纤网NVMe(NVMe-oF)的支持。下一个固件计划于6月发布,该固件计划支持基于以太网的NVMe。我们认为,以上设置将满足大多数华为客户的需求。

当前固件版本中没有文件访问权限,它将在年底之前出现在以下更新之一中。期望控制器本身具有以太网端口,而无需使用其他设备,即可在本机级别上实现。

Dorado V6 3000系列和较旧型号之间的主要区别在于,后端支持一种协议SAS 3.0。因此,那里的驱动器只能与命名接口一起使用。从我们的角度来看,这种设备提供的性能已经足够。

Dorado V6 5000和6000系列系统是中端解决方案。它们也以2U尺寸制造,并配备了两个控制器。它们在性能,处理器数量,最大磁盘数量和缓存大小方面彼此不同。但是,就建筑和工程而言,Dorado V6 5000和6000相同,外观相同。

高端产品包括8000和18000系列的Dorado V6系统,它们的机架尺寸为4U,默认情况下具有独立的体系结构,其中控制器和驱动器是分开的。在最低配置下,它们通常也只能配备两个控制器,尽管通常要求客户安装四个或更多。

Dorado V6 8000水平扩展到16个控制器,Dorado V6 18000水平扩展到32。这些系统具有不同的处理器,这些处理器具有不同的内核数量和缓存大小。尽管如此,与中端模型一样,工程解决方案的身份得以保留。

带驱动器的2U机架通过RDMA连接,带宽为100 Gb / s。较旧的Dorado V6后端也支持SAS 3.0,但如果具有此类接口的SSD的价格下降,则更是如此。然后,即使考虑到较低的生产率,使用它们也将具有经济可行性。目前,具有SAS和NVMe接口的SSD之间的成本差异非常小,因此我们不准备推荐这种解决方案。



控制器内部


Dorado V6控制器是在我们自己的元素基础上制造的。没有英特尔处理器,没有Broadcom ASIC。因此,主板的每个组件及其本身都完全摆脱了与来自美国公司的制裁压力相关的风险的影响。那些用肉眼看到我们任何设备的人必须注意徽标下方带有红色条纹的防护罩。这意味着该产品缺少美国成分。这是华为的官方路线-向其自己的生产部件过渡,或者无论如何,在不遵循美国政策的国家/地区进行制造。

这是您在控制器板上可以看到的内容。

  • 通用网络接口(Hisilicon 1822芯片),用于连接到光纤通道或以太网。
  • BMC-, Hisilicon 1710, . .
  • , ARM Kunpeng 920 Huawei. , , . . . , Dorado V6 .
  • SSD ( Hisilicon 1812e), SAS-, NVMe-. , Huawei SSD, NAND, . , Huawei , .
  • — Ascend 310. , , . , . , .



Kunpeng


Kunpeng处理器是一种片上系统(SoC),其中除计算单元外,还有一些硬件模块可以加速各种过程,例如计算校验和或执行“擦除编码”。它还实现了对SAS,以太网,DDR4(从六到八个通道)等的硬件支持。所有这些使华为能够创建性能不逊于传统英特尔解决方案的存储控制器。

此外,基于ARM体系结构的自身解决方案使华为有机会创建完善的服务器解决方案,并将其作为x86的替代产品提供给客户。



Dorado V6的新架构...


较旧的Dorado V6存储系统的内部体系结构由四个主要子域(工厂)表示。

第一个工厂是一个公共前端(负责与SAN工厂或主机进行通信的网络接口)。

第二个是一组控制器,每个控制器都可以使用RDMA协议到达前端网卡以及相邻的“引擎”,该引擎是一个包含四个控制器以及它们共同的电源和冷却单元的盒子。现在,Dorado V6高端模型可以配备两个这样的“引擎”(分别是八个控制器)。

第三工厂负责后端,由RDMA 100G网卡组成。

最后,第四家“铁工厂”以带有驱动器的插入式智能货架为代表。

这种对称的结构释放了NVMe技术的全部潜力,并保证了高性能和可靠性。I / O进程在处理器和内核之间最大程度地并行化,可以同时对多个线程进行读写。



...以及她给我们的


Dorado V6解决方案的最大性能大约是上一代系统(同类)的三倍,并且可以达到2,000万IOPS。

这是由于以下事实:在上一代设备中,NVMe支持仅扩展到带有驱动器的机架。现在从主机到SSD的各个阶段都存在。后端网络也发生了变化:SAS / PCIe被带宽为100 Gb / s的RoCEv2所取代。

SSD尺寸也发生了变化。如果以前在2U机架上有25个驱动器,那么现在它已被带到36个掌上大小的物理磁盘上。此外,货架“更明智”。现在,它们每个都具有两个基于ARM芯片的控制器的容错系统,类似于安装在中央控制器中的控制器。



到目前为止,他们仅从事数据重组,但是随着新固件的发布,将向其中添加压缩和擦除编码,这会将主控制器的负载从15%降低到5%。同时将部分任务传输到机架可以释放内部网络的带宽。所有这些都大大提高了系统的可扩展性潜力。

上一代存储系统中的压缩和重复数据删除使用固定长度的块执行。现在,添加了使用可变长度块的模式,到目前为止,需要强制启用该模式。后续固件可能会更改此事实。

还简要介绍了容错能力。如果两者之一失败,Dorado V3仍可运行。即使八个控制器中的七个或一个“引擎”中的四个连续发生故障,Dorado V6也将确保数据可用性。



经济可靠性


最近,在华为的客户中,对公司认为可以接受的IT基础架构的哪些简单元素进行了调查。在大多数情况下,受访者可以忍受这种假设情况,即应用程序在数百秒内没有响应。对于操作系统或主机总线适配器,关键的停机时间为数十秒(实际上是重新启动时间)。客户对网络提出了更高的要求:其带宽消失的时间不应超过10-20秒。您可能会猜到,受访者认为存储故障是最关键的。从业务代表的角度来看,简单的存储系统不应超过...每年几秒钟!

换句话说,如果银行的客户应用程序在100秒内没有响应,则很可能不会造成灾难性后果。但是,如果相同数量的存储系统无法正常工作,则可能会导致业务中断和重大财务损失。



上图显示了十家最大银行的一小时工作成本(《福布斯》 2017年数据)。同意,如果您的公司正接近中资银行的规模,那么证明有必要以数百万美元的价格购买存储就不会那么困难。反之亦然:如果企业在停机期间不会造成重大损失,那么就不太可能购买高端存储系统。无论如何,在系统管理员处理拒绝工作的数据存储系统时,重要的是要知道钱包中可能会形成多大的漏洞。




故障转移第二


在上图中的解决方案A中,您可以识别我们的上一代Dorado V3系统。它的四个控制器成对工作,只有两个控制器包含缓存的副本。一对中的控制器可以重新分配负载。如您所见,同时,前端和后端没有“工厂”,因此每个带有驱动器的机箱都连接到特定的控制器对。

解决方案B图显示了其他供应商当前在市场上可用的解决方案(您是否找到了?)。已经有前端和后端工厂,并且驱动器直接连接到四个控制器。的确,在内部系统算法的工作中,细微差别在第一次近似中并不明显。

右边是我们当前的Dorado V6存储架构及其所有内部元素。考虑一下这些系统在典型情况下如何生存-一个控制器的故障。

在包括Dorado V3的经典系统中,发生故障时重新分配负载所需的时间达到4秒。这时,I / O完全停止。在解决方案B中,尽管我们的同事采用了更现代的体系结构,但在解决方案B中,故障期间的停机时间甚至更长-六秒钟。

Dorado V6存储在发生故障后仅一秒钟即可恢复其操作。由于同类的内部RDMA环境,可以实现此结果,从而允许控制器访问“外部”存储器。第二个重要情况是前端工厂的存在,因此主机的路径不会改变。端口保持不变,并且负载通过多路驱动程序简单地发送到可维护的控制器。

根据相同的方案,在一秒钟内就能解决Dorado V6中第二个控制器的故障。 Dorado V3大约需要六秒钟,而另一家供应商的解决方案则需要九秒钟。对于许多DBMS,这样的间隔不再被认为是可以接受的,因为在此期间,系统进入待机模式并停止工作。这是涉及DBMS(由许多部分组成)的第一件事。

第三个解决方案A控制器的故障无法幸免。仅由于丢失对部分数据磁盘的访问这一事实。反过来,在这种情况下,解决方案B恢复了可操作性,与以前的情况一样,这需要9秒钟。

Dorado V6有什么?一秒。



一秒钟可以做什么


几乎没有,但是我们不需要这个。同样,在Dorado V6高端级别中,前端工厂与控制器工厂无关。这意味着不存在属于特定控制器的硬编码端口。故障转移重建并不意味着找到替代路径或重新初始化多路径。系统继续正常工作。



多重故障抵抗


没有任何问题的较旧的Dorado V6机型在任何“引擎”中的任何两个(!)控制器同时发生故障的情况下仍可幸免。之所以可以这样做,是因为该解决方案现在存储了三个缓存副本。因此,即使出现双重故障,也始终会有一个完整的副本。

“引擎”之一中所有四个控制器的同时故障也不会造成致命的后果,因为高速缓存的所有三个副本在每个时刻都分布在“引擎”之间。系统本身监视对这种工作逻辑的遵守情况。

最后,极不可能的情况是八个控制器中有七个发生顺序故障。此外,在各个故障之间保持可操作性的最小可接受间隔为15分钟。在这段时间内,存储系统设法执行高速缓存迁移所需的操作。

最后一个幸存的控制器将提供数据仓库操作,并将高速缓存保持五天(默认值,可以轻松更改设置)。之后,缓存将被禁用,但存储将继续。



不打扰更新


新的Dorado V6 OS使您无需重新启动控制器即可更新存储系统的存储。

与以前的解决方案一样,该操作系统也是基于Linux的,但是,许多操作过程已从内核转移到用户模式。现在,大多数功能(例如负责重复数据删除和压缩的功能)都是在后台运行的常规守护程序。因此,无需更新单个模块,就无需更改整个操作系统。假设,要添加对新协议的支持,您只需要关闭相应的软件模块并启动一个新协议即可。

显然,整个系统的更新问题仍然存在,毕竟内核中可能还需要更新一些元素。但是,根据我们的观察,这种情况还不到总数的6%。这使您可以比以前少几十次重启控制器。



灾难性和高可用性解决方案(高可用性/灾难恢复)


Dorado V6开箱即用,可以集成到地理分布的解决方案,城市级集群(地铁)和“三重”数据中心中。

上图的左侧是许多人都已经熟悉的地铁集群。两个存储系统以主动/主动模式运行,彼此之间的最大距离为100 km。包括我们的云操作系统FusionSphere在内的不同公司的解决方案可以支持具有一台或多台仲裁服务器的类似基础架构。在此类项目中特别重要的是站点之间的通道特性,在本例中,所有其他任务都由HyperMetro功能接管,该功能再次可用。如果需要,可以在IP网络中进行光纤通道集成以及iSCSI集成。由于该系统能够通过现有渠道进行通信,因此不再需要专用的“深色”光学器件。

构建此类系统时,存储的唯一硬件要求是复制的端口分配。足以获得许可证,运行法定服务器(物理或虚拟)并提供到控制器的IP连接(10 Mbps,50 ms)。

这种体系结构很容易转移到具有三个数据中心的系统中(请参见图的右侧)。例如,当两个数据中心以都市集群模式运行时,而第三个站点的距离超过100 km,则使用异步复制。

该系统从技术上支持在大规模过量情况下将要实施的各种业务方案。



都市圈集群存在多个故障


上方和下方还显示了经典的城域群集,该群集由两个存储系统和一个仲裁服务器组成。如您所见,在多种故障的九种可能情况中的六种中,我们的基础架构将保持运行状态。

例如,在第二种情况下,如果仲裁服务器发生故障,并且站点之间发生了同步,则由于第二个站点停止工作,因此系统仍然保持生产效率。内置算法中已经嵌入了类似的行为。

即使在三个故障之后,如果它们之间的间隔至少为15秒,也可以保持对信息的访问。



袖子上的惯用王牌


回想一下,华为不仅生产存储系统,而且还生产全套网络设备。无论您选择哪种存储提供商,如果在站点之间使用WDM网络,在90%的情况下,它将基于我们公司的解决方案。出现一个逻辑问题:为什么可以从一个供应商那里获得所有相互兼容的有保证的硬件,然后组装一个系统动物园?



对于性能问题


也许,没有人会相信向全闪存存储的过渡可以大大降低基础架构的维护成本,因为所有常规操作的执行速度都快了很多倍。所有此类设备的供应商都证明了这一点。同时,当您打开各种存储模式时,由于性能下降,许多供应商开始感到不解。

在我们的行业中,发行存储系统以进行一到两天的测试操作已得到广泛实践。该提供程序在空系统上运行20分钟的测试,并接收基于空间的性能指标。在实际操作中,“水下耙子”很快问世。一天之后,美丽的IOPS值减半或三倍,并且如果存储系统已满80%,结果甚至更少。如果打开RAID 5,则将丢失10-15%的数据,而不是RAID 10,并且在城域集群模式下,性能会进一步降低一半。

以上所有都不是关于Dorado V6的信息。我们的客户有机会在周末或至少晚上进行性能测试。然后,垃圾收集就会显现出来,并且也很清楚,各种选项(例如快照和复制)的激活如何影响所实现的IOPS数量。

在Dorado V6中,具有奇偶校验的快照和RAID对性能几乎没有影响(3-5%,而不是10-15%)。垃圾收集(用零填充驱动器单元),压缩,在80%充满的存储系统上进行重复数据删除将始终影响请求处理的整体速度。但是,有趣的是Dorado V6,无论您激活的功能和保护机制是什么组合,存储系统的总体性能都不会低于无负载获得的数字的80%。



负载均衡


高性能Dorado V6通过每个阶段的平衡来实现,即:

  • 多程
  • 使用一台主机的多个连接;
  • 前端工厂的存在;
  • 并行化存储控制器的操作;
  • RAID 2.0+上所有驱动器的负载平衡。

原则上,这是一种常见的做法。如今,很少有人将所有数据保存在一个LUN上:每个人都试图拥有八个,甚至四十个甚至更多的数据。这是我们共享的显而易见且正确的方法。但是,如果您的任务仅需要一个易于维护的LUN,则我们的体系结构解决方案可以在使用多个LUN的情况下在其上实现80%的性能。



动态处理器负载调度


使用一个LUN时,处理器上的负载分配实现如下:LUN级别上的任务被拆分为单独的小“碎片”,每个碎片都被严格分配给“引擎”中的特定控制器。这样做是为了避免系统在跳到不同控制器上的这些数据时丢失性能。

保持高性能的另一种机制是动态分配,其中可以将处理器核心分配给不同的任务池。例如,如果现在系统在重复数据删除和压缩级别处于空闲状态,则某些内核可能包含在为I / O服务的过程中。或相反亦然。所有这些都是对用户自动透明地完成的。

每个Dorado V6内核当前负载的数据不会显示在图形界面中,但是可以通过命令行访问控制器OS并使用通常的Linux top命令



支持NVMe和RoCE


如前所述,目前,Dorado V6完全支持光纤通道上的NVMe开箱即用,不需要任何许可证。对以太网NVMe的年中支持。为了充分利用它,您将需要从存储系统本身以及交换机和网络适配器的侧面获得以太网支持,以及直接内存访问(DMA)版本v2.0。例如,例如Mellanox ConnectX-4或ConnectX-5。您可以使用基于我们的微电路制造的网卡。RoCE支持也应在操作系统级别实现。

通常,我们将Dorado V6视为面向NVMe的系统。尽管现有对光纤通道和iSCSI的支持,但计划在将来切换到具有RDMA的高速以太网。




捏营销


由于Dorado V6系统具有很高的抗故障能力,良好的伸缩性,支持各种迁移技术等事实,因此,随着存储系统密集运行的开始,其购置的经济效果得以体现。我们将继续尝试使系统的所有权尽可能地有利可图,即使它在第一阶段并不引人注目。

特别是,我们已经形成了与延长存储生命周期有关的FLASH EVER程序,并旨在在升级过程中尽可能多地卸载客户。



该程序包括许多措施:

  • ( Dorado V6 hi-end);
  • ( Dorado );
  • ( Dorado).



仍然需要指出的是,世界上的困境对新系统的商业前景影响不大。尽管Dorado V6的正式发布仅在1月进行,但我们看到它在中国有大量需求,并且来自金融部门和政府机构的俄罗斯和国际合作伙伴也对它充满了兴趣。

在大流行中,无论持续多长时间,为远程员工提供虚拟桌面的问题尤为突出。在此过程中,Dorado V6还可以消除许多问题。为此,我们将做出所有必要的努力,包括实际上同意将新系统包括在VMware兼容性列表中。

***


顺便说一句,不要忘了我们不仅在俄语领域而且在全球范围内举办的许多网络研讨会。在此处获得四月份的网络研讨会列表

All Articles