👩🏼‍🎨 🚛 🌗 سحابة كارثية: كيف تعمل 🍻 👨🏿‍🤝‍👨🏽 ✊🏽

مرحبا يا هابر!

بعد عطلة رأس السنة الجديدة ، قمنا بإعادة تشغيل سحابة مقاومة للكوارث بناءً على موقعين. سنخبرك اليوم بكيفية عملها ونظهر ما يحدث للأجهزة الافتراضية للعملاء عندما تفشل عناصر الكتلة الفردية وسقوط الموقع بالكامل (المفسد - كل شيء على ما يرام معهم).

تخزين سحابي مقاوم للكوارث في موقع OST.

ماذا في الداخل؟ ماذا يوجد في الداخل

تحت غطاء المجموعة توجد خوادم Cisco UCS المزودة ببرنامج VMware ESXi hypervisor ، ونظامي تخزين INFINIDAT InfiniBox F2240 ، ومعدات شبكة Cisco Nexus ، بالإضافة إلى محولات Brocade SAN. يتم تقسيم الكتلة إلى موقعين - OST و NORD ، أي في كل مركز بيانات مجموعة متطابقة من المعدات. في الواقع ، هذا يجعلها كارثية.

في نظام أساسي واحد ، يتم تكرار العناصر الرئيسية أيضًا (المضيفين ومبدلات SAN وبطاقة الشبكة).
هناك موقعان متصلان بمسارات ألياف بصرية مخصصة ، محجوزة أيضًا.

بضع كلمات حول التخزين. أول سحابة مقاومة للكوارث قمنا ببناءها على NetApp. تم اختيار INFINIDAT هنا ، وإليك السبب:

خيار النسخ المتماثل النشط. يسمح للجهاز الافتراضي بالبقاء قيد التشغيل حتى إذا فشل أحد أنظمة التخزين تمامًا. سأخبرك بالمزيد حول النسخ المتماثل لاحقًا.
ثلاث وحدات تحكم للقرص لزيادة مرونة النظام. عادة هناك نوعان.
حل جاهز. جاء إلينا رف تم تجميعه بالفعل ، والذي يحتاج فقط إلى الاتصال بالشبكة وتكوينه.
دعم فني يقظ. يقوم مهندسو INFINIDAT بتحليل السجلات وأحداث أنظمة التخزين باستمرار ، وتثبيت إصدارات جديدة في البرامج الثابتة ، والمساعدة في التكوين.

فيما يلي بعض الصور من تفريغها:

كيف يعمل

السحابة مرنة بالفعل داخل نفسها. يحمي العميل من فشل الأجهزة والبرامج الفردية. سوف تساعد الكارثة على الحماية من حالات الفشل الجماعي في نفس الموقع: على سبيل المثال ، فشل نظام التخزين (أو كتلة SDS ، والذي يحدث غالبًا :)) ، وأخطاء الكتلة في شبكة التخزين والمزيد. حسنًا والأهم من ذلك: يتم حفظ هذه السحابة عندما يتعذر الوصول إلى موقع بأكمله بسبب الحريق أو التعتيم أو التقاط المهاجم أو ~~الهبوط الأجنبي.~~

في كل هذه الحالات ، تستمر الأجهزة الظاهرية للعملاء في العمل ، وإليك السبب.

تم تصميم نظام المجموعة بحيث يمكن لأي مضيف ESXi مع الأجهزة الظاهرية للعملاء الوصول إلى أي من نظامي التخزين. إذا فشل التخزين على موقع OST ، فستستمر الأجهزة الظاهرية في العمل: ستصل الأجهزة المضيفة التي تعمل عليها إلى التخزين على NORD للبيانات.

هذه هي الطريقة التي يبدو بها مخطط الاتصال في الكتلة.

هذا ممكن بسبب حقيقة أن وصلة Inter-Switch تم تكوينها بين مصانع SAN في الموقعين: مفتاح Fabric A OST SAN متصل بمفتاح Fabric A NORD SAN ، على غرار مفاتيح Fabric B SAN.

حسنًا ، حتى تكون كل هذه التعقيدات لمصانع SAN منطقية ، يتم تكوين النسخ المتماثل النشط بين نظامي التخزين: تتم كتابة المعلومات في وقت واحد تقريبًا إلى أنظمة التخزين المحلية والبعيدة ، RPO = 0. اتضح أنه في أحد SHD يتم تخزين البيانات الأصلية ، من جهة أخرى - النسخة المتماثلة الخاصة بهم. يتم نسخ البيانات على مستوى حجم التخزين ، ويتم تخزين بيانات الجهاز الظاهري (أقراصها ، ملف التكوين ، ملف المبادلة ، وما إلى ذلك) عليها بالفعل.

يرى مضيف ESXi وحدة التخزين الأساسية والنسخة المماثلة لها كجهاز تخزين واحد. هناك 24 مسارًا من مضيف ESXi إلى كل جهاز قرص:

12 مسارًا يربطها بالتخزين المحلي (المسارات المثلى) ، والباقي 12 - مع جهاز التحكم عن بعد (وليس المسارات المثلى). في الوضع العادي ، يصل ESXi إلى البيانات الموجودة على التخزين المحلي باستخدام المسارات "المثلى". إذا فشل نظام التخزين هذا ، يفقد ESXi مساراته المثالية ويتحول إلى المسارات "غير المثالية". إليك كيف تبدو في الرسم التخطيطي.

مخطط مجموعة مقاومة للكوارث.

يتم إنشاء جميع شبكات العملاء على كلا الموقعين من خلال مصنع شبكة مشترك. يتم تشغيل حافة الموفر (PE) على كل موقع ، حيث يتم إنهاء شبكات العملاء. يتم دمج PEs في كتلة واحدة. إذا فشل PE في موقع واحد ، فسيتم إعادة توجيه كل حركة المرور إلى الموقع الثاني. وبفضل هذا ، تظل الأجهزة الافتراضية من الموقع بدون PE متاحة عبر الشبكة للعميل.

دعنا الآن نرى ما سيحدث للأجهزة الافتراضية للعملاء في حالة حدوث أعطال مختلفة. لنبدأ بالخيارات الأخف وننتهي بالأكثر خطورة - فشل الموقع بأكمله. في الأمثلة ، سيكون الموقع الرئيسي OST ، والنسخة الاحتياطية ، مع النسخ المتماثلة للبيانات ، ستكون NORD.

ماذا يحدث لجهاز ظاهري للعميل إذا ...

فشل ارتباط النسخ المتماثل. توقف النسخ المتماثل بين أنظمة التخزين للموقعين.
ستعمل ESXi فقط مع أجهزة القرص المحلية (على طول المسارات المثلى).
تستمر الأجهزة الافتراضية في العمل.

هناك فجوة ISL (وصلة التبديل بين). القضية غير مرجحة. ما لم يحفر بعض الحفار المجنون عدة مسارات بصرية في وقت واحد ، والتي تمر عبر طرق مستقلة ويتم نقلها إلى المواقع من خلال مدخلات مختلفة. لكن على اي حال. في هذه الحالة ، يفقد مضيفو ESXi نصف مساراتهم ويمكنهم الوصول إلى التخزين المحلي فقط. يتم جمع النسخ المتماثلة ، ولكن لن يتمكن المضيفون من الوصول إليها.

تعمل الأجهزة الافتراضية بشكل طبيعي.

يرفض مفتاح SAN في أحد المواقع.يفقد مضيفو ESXi بعض مسارات التخزين الخاصة بهم. في هذه الحالة ، سيعمل المضيفون على الموقع الذي فشل فيه التبديل فقط من خلال HBA الخاص بهم.

في الوقت نفسه ، تستمر الأجهزة الافتراضية في العمل بشكل طبيعي.

تفشل كافة مفاتيح SAN في أحد المواقع. لنفترض أن مثل هذه الكارثة حدثت في موقع OST. في هذه الحالة ، سيفقد مضيفو ESXi على هذا الموقع جميع المسارات إلى أجهزة الأقراص الخاصة بهم. يتم تشغيل آلية VMware vSphere HA القياسية: ستقوم بإعادة تشغيل جميع الأجهزة الافتراضية لمنصة OST في NORD بعد 140 ثانية كحد أقصى.

تعمل الأجهزة الافتراضية التي تعمل على مضيفي موقع NORD بشكل طبيعي.

يرفض مضيف ESXi على موقع واحد.هنا تعمل آلية vSphere HA مرة أخرى: تتم إعادة تشغيل الأجهزة الافتراضية من مضيف فاشل على مضيفين آخرين - على نفس الموقع أو على موقع بعيد. وقت إعادة تشغيل الجهاز الظاهري يصل إلى 1 دقيقة.

إذا فشل كل مضيفي ESXi لمنصة OST ، فلا توجد خيارات: إعادة تشغيل الأجهزة الافتراضية على أخرى. وقت إعادة التشغيل هو نفسه.

يرفض التخزين على نفس الموقع. لنفترض أن نظام التخزين رفض في موقع OST. ثم يستضيف OST ESXi التبديل للعمل مع النسخ المتماثلة للتخزين في NORD. بعد عودة نظام التخزين الفاشل إلى النظام ، يحدث النسخ المتماثل ، سيبدأ مضيفو OST ESXi مرة أخرى في الاتصال بنظام التخزين المحلي.

تعمل الأجهزة الافتراضية طوال هذا الوقت.

فشل أحد المواقع.في هذه الحالة ، سيتم إعادة تشغيل جميع الأجهزة الافتراضية على موقع النسخ الاحتياطي من خلال آلية vSphere HA. وقت إعادة تشغيل VM - 140 ثانية. في هذه الحالة ، سيتم حفظ جميع إعدادات الشبكة للجهاز الظاهري ، وستظل متاحة للعميل عبر الشبكة.

لإعادة تشغيل الأجهزة على موقع النسخ الاحتياطي دون مشاكل ، كل موقع نصف ممتلئ فقط. النصف الثاني هو الاحتياطي في حالة نقل جميع الأجهزة الافتراضية من الموقع الثاني المصاب.

تحمي السحابة المقاومة للكوارث القائمة على مركزي بيانات من حالات الفشل هذه.

هذه المتعة ليست رخيصة ، لأنه بالإضافة إلى الموارد الرئيسية ، تحتاج إلى احتياطي في الموقع الثاني. ولذلك ، فإنهم يضعون الخدمات الحيوية للأعمال في مثل هذه السحابة ، التي تتسبب في توقفها الطويل خسائر مالية وسمعة كبيرة ، أو إذا تم فرض متطلبات تحمل الكوارث على نظام المعلومات من قبل المنظمين أو اللوائح الداخلية للشركة.

مصادر:

سحابة كارثية: كيف تعمل

ماذا في الداخل؟ ماذا يوجد في الداخل

كيف يعمل

ماذا يحدث لجهاز ظاهري للعميل إذا ...

More articles: