什么是Azure Stack HCI及其工作方式

哈Ha!今天,我们想谈谈Azure Stack HCI平台的全部意义。包括一般内容,组装什么硬件,包含什么软件,如何工作等等。立即加入!



这是来自AltaStor的来宾的来宾帖子。AltaStor是一家系统集成商,专门为可靠的数据存储构建解决方案。凭借在构建故障转移群集和HCI方面积累的专业知识,可以为每个客户端选择最适合其任务的单独解决方案。

什么是Azure Stack HCI?


这是一个结合了以下产品的超融合解决方案:

  • 来自Microsoft认证OEM合作伙伴的硬件。
  • Windows Server 2019数据中心操作系统。
  • Windows管理中心软件。
  • Microsoft Azure服务(如有必要)。

该解决方案已经在市场上存在了很长时间,并且我们的一些客户已经长期使用并成功使用了它。但是,他们不会发布其安装的性能测试结果。我们决定填补这一空白,并通过一个具体示例来谈谈我们使用Azure Stack HCI的经验。
 
有关Azure Stack HCI的文档和常规信息,请单击此处
 

展位布置

 

 

设备


构建解决方案需要Microsoft推荐的硬件平台。服务器硬件的领先制造商-HPE,Dell EMC,Fujitsu,Hitachi,Lenovo等-开发了​​它们的配置,对其进行了测试,以进行兼容性测试并通过了Azure Stack HCI认证。
 
有关兼容设备的完整列表,请访问
 
根据所用驱动器的类型,平台组件将有所不同。
 
我们更喜欢在具有预装Windows Server 2019 Datacenter操作系统的Fujitsu服务器的基础上构建此类解决方案。出售后的制造商不仅支持其硬件,而且还支持整个软件和硬件组合作为一个完整的解决方案。对于我们,作为合作伙伴以及对于最终客户而言,这一点都很重要。
 
目前,富士通拥有五种经过认证的配置,可用于不同类型的驱动器,服务器型号和节点数。 Azure Stack HCI的最大节点数为16,最小为2,但某些配置限制为4。
 
所有兼容的Fujitsu配置都可以在此处查看
 
对于安装,我们从当前已认证的设备中选择了最高效的配置-富士通Primergy,带有用于存储数据的SSD驱动器,以及通过NVMe接口连接的Intel Optane超快速存储模块作为系统缓存。我们希望获得一个软件定义的全闪存阵列,其性能可与具有SSD驱动器和NVMe缓存的经典存储相媲美。
 
行业领导者的全闪存存储系统具有类似的介质类型配置。我们知道实际上可以从类似的系统中获得哪些IOPS和延迟指标,并期待基于选定的Fujitsu配置从Azure Stack HCI获得类似的性能。此处


 
提供的文档中详细描述了此Fujitsu解决方案的体系结构 我们建议您在安装之前先熟悉一下它。 该文档描述了体系结构的局限性,典型的连接方案以及在实现阶段有用的许多其他信息。
 

 

 

 


开关

 
富士通的解决方案使用其自己的PSWITCH以太网交换机。对于我们自己,我们注意到以下优点: 
 
  • 该系列的开关生产率高,成本低。
  • 这些开关的配置和使用类似CISCO的界面非常简单。工程师在安装过程中没有遇到任何困难。
  • 在管理方面没有专有的多余内容,并且提供了有效的文档。

富士通交换设备是日本行业的领导者之一。它最近已在俄罗斯市场上出售,但已经由我们的建筑师和其他Fujitsu合作伙伴定期用于项目中。当前提供有限数量的模型。 
 
官方网站上了解有关Fujitsu交换机的更多信息
 

服务器


在服务器内部,Intel Optane存储卡占据了很大一部分空间。 
 



 
英特尔非常关注高热量需求下的性能。一方面,为了最大程度地冷却,使用了大型散热器。另一方面,这限制了整个服务器内部的冷却气流。 
 
这是认证配置时要考虑的关键点之一-必须考虑所有可能的情况,在这些情况下,由于散热不足,服务器会使Optane模块过热,反之亦然。
 
当移动服务器机房时,我们的客户不止一次面临着空调系统尚未投入运行的情况。因此,我们决定检查此安装对冷却系统的要求,并测量在冷却的服务器机房外部负载下平台的寿命。  
 
测试是在室温下进行的,但我们没有遇到任何热限制,也没有因过热而导致性能下降或出现错误。从我们自己的经验中我们已经看到,经过测试的服务器在高达+45摄氏度的环境温度下支持声明的工作能力。 
 
注意。不建议将此实验作为放弃使用具有高质量通风的特殊服务器机房的建议。选择硬件解决方案提供商时,请务必注意最高温度封装。
 

硬件平台组装

 
前视图:
 

 
后视图:测试中
 

 
仅使用了一个开关。对于商业用途,我们始终建议您至少使用两个交换机来保留访问路径。根据我们的统计,群集中最常见的硬件故障是电缆意外断开或连接器中的触点断开。 
 
富士通RX1330用作带有控制软件的服务器。还为他分配了仲裁程序和仲裁服务器的功能。
 

集群部署

 
第一阶段包括硬件组件的物理安装,接口电缆的连接等。接下来是软件设置,如 操作系统已预先安装。我们在每台服务器上部署了Storage Space Direct,并构建了一个由2个节点和一个仲裁器组成的集群。
 
然后,我们使用了Fujitsu Infrastructure Manager实用程序,它是Windows Admin Center扩展,它与Fujitsu服务器硬件紧密集成,并包含来自Azure的所有管理工具,例如:

  • Azure Site Recovery提供高可用性和灾难恢复即服务(DRaaS)。
  • Azure Monitor是一个集中式站点,可通过基于AI的深入分析来监视应用程序,网络和基础结构的运行。
  • «-» Azure .
  • Azure Backup , -.
  • « Azure» Windows, Azure .
  • Azure Azure VPN- « — ».
  • « Azure» . 

该扩展程序使您可以自动化许多任务,这些任务也可以直接在管理中心中执行。

收集存储池,在其中创建卷。这些卷随后位于我们进行了性能测试的虚拟机中。卷和虚拟机都可以从一个窗口方便地进行管理。
 

 
通过Fujitsu Infrastructure Manager,还可以方便地执行许多有关计划维护和微代码更新的事情。所有设备的状态都清晰显示,很多可以自动化。
 

 
Fujitsu Infrastructure Manager实用程序有两个版本-付费和免费:
 
  • 自由。可以从制造商的网站下载,对于服务器管理来说已经足够了。
  • . Microsoft Azure HCI — Windows Server .

为了与Microsoft Azure Stack HCI进行深入的Primergy集成,您需要Windows Server的服务器管理插件,该插件仅在付费版本中可用。因此,用于Microsoft Azure Stack HCI解决方案的FUJITSU集成系统PRIMEFLEX是其中的一部分。 
 
安装的数量越多,该实用程序提供的自动化就越有价值。
我们的展位只有2个节点,我们可以手动完成所有工作。如果您有4个或更多节点,该软件将大大减少您的安装和管理工作。公用事业成本不到项目的1%,但大大加快了设备的调试速度。
 
对于Windows管理中心,Fujitsu Infrastructure Manager Orchestra是一个扩展包:
 

 
相同的屏幕快照显示了服务器磁盘子系统的组成:两个Optane模块用作缓存扩展,五个SSD磁盘用作Tier-1存储池。
 

重要事项


构建解决方案时,必须牢记一些细微差别:有
 
两种方法可以通过Windows Admin Center或Fujitsu Infrastructure Manager管理Microsoft Azure Stack HCI。 
 
管理中心也有其优势-您可以将其部署在任何设备上,甚至可以部署在笔记本电脑上。可以从命令行进行控制。有了它,管理员几乎可以做任何事情。 
 
还有一个Cluster Manager(集群管理器)-解决集群问题的必不可少的工具。 
 
部署见证服务器(仲裁服务器)时,将其添加到Active Directory并检查其对所有节点的可用性非常重要。此任务的要求最低,可以放在任何基本服务器上。

 
从Windows Server的角度来看,有三种类型的磁盘设备-NVMe,SSD和HDD。工作逻辑如下:NVMe设备是读/写缓存,SSD是Tier-1存储级别; HDD-第2层存储级别。接下来,您可以配置在池之间移动数据的策略。 NVDIMM也可以用作缓存。
 
撕裂的默认块大小为4K,但可能会有所不同,具体取决于虚拟机中文件系统的类型。随后将影响性能。
 
我们使用NVMe模块作为缓存,因此读写数据的速度将有很大的不同-在性能测试中可以清楚地看到:
 
  • ( ), SSD (Tier-1, ).
  • NVMe , , . .

在创建群集之前,必须完成故障转移群集管理器中的验证和所有测试。该报告需要保存,因为如果没有该报告,将无法在Microsoft支持中打开服务呼叫。
 
将新节点添加到现有群集时,这些节点将自动添加到存储池。15分钟后,群集将自动重建,重建和平衡存储池。这可能会影响重建期间的性能。
 

性能测试


现在,让我们继续进行最有趣的部分-负载测试。
 
测试配置:
 
  • 群集中组装了两个富士通PRIMERGY RX2540服务器;
  • 每台服务器都安装了两个Intel Optane存储类内存模块,用于扩展读/写缓存;
  • SSD, ,
  • erasure coding ( RAID-5).

实际上,这是一个运行Windows Server 2019 Azure Stack HCI的软件定义的存储系统。
 
我们使用两个节点上都运行的12个虚拟机来开始第一个测试。读/写负载配置文件为70:30,块大小= 8k。选择数据块大小是基于以下事实:大多数现代事务数据库和OLTP负载都使用这样的数据块大小和大约相同的读/写比率。
 

 
稳态群集性能为428k IOPS,延迟为0.487 ms。这是一个非常值得的结果,可以与许多制造商提供的专用全闪存存储系统相比。 
 
在spcresults.org资源上提供了具有类似负载配置文件的独立测试-这是SPC-1测试。我们配置的区别仅在于块大小-它是4k。
 
如果我们显着简化了用于比较结果的方法,则可以将为全闪存存储系统获得的两个IOPS指标划分为两个指标,并将其与我们在相同响应时间收到的数量进行比较。在我们的两个中级服务器集群上获得的结果与大多数存储系统相当。 

当然,这样的比较不是很正确,因为在我们的案例中,磁盘数量的增加将对性能和延迟造成的影响与专用存储系统大不相同。但是,即使考虑到所有这些假设,也可以说几年前只能在平均水平甚至更高水平的多控制器外部存储系统上看到这样的性能数据。今天,这在超融合解决方案上是可以实现的。
 
当在先前的块大小= 8k的情况下打开重复数据删除和测量功能时,性能图会发生显着变化。如果仅在相同的负载配置文件上启用重复数据删除,则性能将低于300k IOPS。 

如果我们使用8KB块运行两个负载配置文件,其中一个配置文件为100%读取,另一个配置文件为100%写入,则以下是我们能够获得的最佳数值:
 

 
我们看到了出色的读取结果,尤其是考虑到12μs的延迟。在这里,Optane作为具有预知算法的读取缓存非常有用,可将预测性数据传输到缓存。是的,位于SSD上的存储池本身也显示出非常好的读取数。
 
但是写入速度却大不相同。以下是一些严重的因素:

  • 当数据落入一个节点的缓存中时,该解决方案的体系结构将通过网络复制到第二个节点的缓存中。
  • : — , Optane. .

    45%, , — , . .
  • SSD SSD — 3D-NAND , 3D-NAND.


  • OLTP- – 8k .  
  • 可以随时启用重复数据删除功能,但这会大大降低性能。在我们的测试中,重复数据删除效率为45%,性能下降超过25%。 

这使您可以自由选择-更高的存储性能或几乎两倍的容量。此外,很大程度上取决于负载配置文件和压缩记录数据的能力。

  • 由于该解决方案的体系结构,顺序写操作会大大增加响应时间。 
  • Microsoft要求您仅基于OEM合作伙伴的经过验证的配置来构建解决方案并不是徒劳的-这使您可以避免在初始安装和后续工作中出现许多问题。
  • 与往常一样,使用Fujitsu的硬件只能给人留下积极的印象。这是一个明智的文档,并且从Infrastructure Manager中添加了许多有用的内容-该软件包确实大大简化了系统管理。当增加节点数时,这尤其重要。
  • 富士通的PRIMEFLEX解决方案包括一组脚本,可加快部署过程。通常,它们使启动和配置变得很容易,尤其是富士通PRIMERGY服务器。


 
对于那些对解决方案的自我调整不感兴趣的人,可以与富士通签订技术解决方案合同。在这种情况下,供应商的技术专家将全包部署所有内容,并将提供进一步的支持。

All Articles