قصة مفتاح واحد


في تجميع LAN الخاص بنا ، كان هناك ستة أزواج من مفاتيح Arista DCS-7050CX3-32S وزوج واحد من مفاتيح Brocade VDX 6940-36Q. ليس الأمر أن مفاتيح Brocade على هذه الشبكة مارست الكثير من الضغط علينا ، فهي تعمل وتؤدي وظائفها ، لكننا كنا نجهز أتمتة كاملة لبعض الإجراءات ، ولم تكن لدينا هذه القدرات في هذه المفاتيح. أردت أيضًا التبديل من واجهات 40GE إلى إمكانية استخدام 100GE لإجراء احتياطي للسنوات 2-3 القادمة. لذلك قررنا استبدال Brocade بأريستا.

تعد هذه المفاتيح مفاتيح تبديل تجميع LAN لكل مركز بيانات. ترتبط مفاتيح التوزيع (المستوى الثاني من التجميع) بها مباشرةً ، والتي تم تجميعها بالفعل في نفسها من خلال مفاتيح LAN أعلى الرف في رفوف الخادم.


يتم تضمين كل خادم في واحد أو اثنين من مفاتيح التبديل. ترتبط مفاتيح الوصول بزوج من مفاتيح التوزيع (يتم استخدام مفتاحي توزيع ورابطين فعليين من مفتاح الوصول إلى مفاتيح توزيع مختلفة للتكرار).

يمكن استخدام كل خادم من قبل العميل ، لذلك يتم تخصيص شبكة محلية ظاهرية منفصلة للعميل. ثم يتم تعيين نفس الشبكة المحلية الظاهرية VLAN إلى خادم آخر لهذا العميل في أي رف. يتكون مركز البيانات من عدة صفوف (PODs) ، لكل صف من الرفوف مفاتيح التوزيع الخاصة به. ثم يتم توصيل مفاتيح التوزيع هذه بمفاتيح التجميع.


يمكن للعملاء طلب خادم في أي صف ، ومن المستحيل التنبؤ مقدمًا بأنه سيتم تخصيص الخادم أو تثبيته في أي صف معين في أي رف معين ، وبالتالي ، هناك حوالي 2500 شبكة محلية ظاهرية في كل مركز بيانات على مفاتيح التجميع.

تتصل معدات DCI (ربط مركز البيانات) بمفاتيح التجميع. يمكن استخدامه لاتصال L2 (زوج من المفاتيح يشكل نفق VXLAN إلى مركز بيانات آخر) ، وللاتصال L3 (جهازي توجيه MPLS).


كما كتبت بالفعل ، لتوحيد عمليات أتمتة تكوين الخدمات على المعدات في مركز بيانات واحد ، كان من الضروري استبدال مفاتيح التجميع المركزية. قمنا بتثبيت مفاتيح جديدة بجوار المفاتيح الموجودة ، ودمجها في زوج MLAG وبدأنا في الاستعداد للعمل. تم توصيلهم على الفور بمفاتيح التجميع الحالية ، بحيث يكون لديهم نطاق L2 مشترك عبر جميع شبكات VLAN الخاصة بالعميل.

تفاصيل الدائرة


من أجل التحديد ، سنطلق على مفاتيح التجميع القديمة A1 و A2 ، الجديدة - N1 و N2 . تخيل أنه في POD 1 و POD 4 هناك خوادم عميل واحد C1 ، يشار إلى VLAN للعميل باللون الأزرق. يستخدم هذا العميل خدمة اتصال L2 مع مركز بيانات آخر ، لذلك يتم تقديم VLAN الخاص به على زوج من محولات VXLAN. يضع

العميل C2 الخوادم في POD 2 و POD 3 ، ونشير إلى VLAN للعميل على أنه أخضر داكن. يستخدم هذا العميل أيضًا خدمة الاتصال مع مركز بيانات آخر ، ولكن L3 ، لذلك يتم تقديم VLAN الخاص به على زوج من أجهزة توجيه L3VPN.


نحتاج إلى شبكات VLAN الخاصة بالعميل لفهم ما هي مراحل عمل الاستبدال وما يحدث ، وأين يحدث انقطاع الاتصال ، ومدته. لا يتم استخدام بروتوكول STP في هذا المخطط ، نظرًا لأن عرض الشجرة الخاص به في هذه الحالة كبير ، ويتزايد تقارب البروتوكول بشكل كبير من عدد الأجهزة والروابط بينهما.

تشكل جميع الأجهزة المتصلة بالارتباطات المزدوجة مجموعة ، زوج MLAG أو مصنع VCS-Ethernet. لا يتم استخدام هذه التقنيات لزوج من أجهزة توجيه L3VPN ، حيث لا توجد حاجة إلى تكرار L2 ، يكفي أن يكون لديهم اتصال L2 مع بعضهم البعض من خلال مفاتيح التجميع.

خيارات التنفيذ


عند تحليل الخيارات لمزيد من الأحداث ، أدركنا أن هناك عدة طرق لتنفيذ هذه الأعمال. من الفاصل العالمي على الشبكة المحلية بأكملها ، إلى فواصل صغيرة حرفيا 1-2 ثانية في أجزاء من الشبكة.

شبكة ، قف! مفاتيح واستبدال!


أسهل طريقة - هو، بالطبع، تعلن عن العلاقات استراحة العالمية في جميع POD وجميع الخدمات DCI وتبديل جميع الروابط من التبديل و في مفاتيح من N .


بالإضافة إلى الفاصل الزمني ، الذي لا يمكننا ضمان التنبؤ به (نعم ، نحن نعرف عدد الروابط ، ولكننا لا نعرف عدد المرات التي سيحدث فيها خطأ - من سلك التصحيح المكسور أو الموصل التالف إلى منفذ أو عطل في جهاز الإرسال والاستقبال) ، ما زلنا لا نستطيع للتنبؤ مقدمًا ما إذا كان طول أسلاك التصحيح ، DAC ، AOC ، المتصلة بالمفاتيح القديمة A ، كافية للوصول إليها ، على الرغم من وقوفها بجوارها ، ولكن لا تزال متباعدة قليلاً ، المفاتيح الجديدة N ، وما إذا كانت أجهزة الإرسال والاستقبال نفسها ستعمل / DAC / AOC من مفاتيح Brocade في مفاتيح Arista.

وكل هذا في ظروف ضغوط شديدة من العملاء والدعم الفني ("ناتاشا ، انهض! ناتاشا ، كل شيء لا يعمل هناك! ناتاشا ، لقد كتبنا بالفعل الدعم الفني بصراحة وأمانة! ناتاشا ، لقد تركوا بالفعل كل شيء هناك! ناتاشا ، ولكن كم لم هل ستعمل؟ ناتاشا ، ومتى تعمل؟! "). على الرغم من انقطاع الخدمة والإخطار المعلن عنه مسبقًا للعملاء ، فإن تدفق المكالمات مضمون في هذا الوقت.

انتظر 1-2-3-4!


وإذا لم يكن الإعلان عن فاصل عالمي ، ولكن للإعلان عن سلسلة من الفواصل الصغيرة في الاتصالات على خدمات POD و DCI. في الفاصل الأول ، قم بالتبديل إلى التبديل N فقط POD 1 ، في الثانية - بعد يومين - POD 2 ، ثم بعد يومين POD 3 ، ثم POD 4 ... [N] ، ثم تبديل VXLAN ثم أجهزة التوجيه L3VPN.


مع مثل هذه المنظمة للتبديل في العمل ، نقوم بتقليل تعقيد العمل لمرة واحدة ونزيد من وقتنا لحل المشكلات إذا حدث خطأ مفاجئ. لا يتم فقد اتصال POD 1 بعد التبديل مع POD و DCI الآخرين. لكن العمل نفسه يتأخر لفترة طويلة ، بالنسبة لوقت هذا العمل في مركز البيانات ، يطلب من المهندس إجراء التحويل جسديًا ، وأثناء العمل (وعادة ما يتم تنفيذ هذا العمل في الليل ، من 2 إلى 5 في الصباح) ، فإن وجود مهندس شبكة عبر الإنترنت مرتفع جدًا مؤهلات. ولكن من ناحية أخرى ، نحصل على فترات راحة قصيرة في الاتصال ، كقاعدة عامة ، يمكن تنفيذ العمل في غضون نصف ساعة مع استراحة تصل إلى دقيقتين (في الممارسة العملية ، غالبًا ما تكون 20-30 ثانية مع السلوك المتوقع للمعدات).

في المثال أعلاه ، العميل C1 أو العميل C2 سيكون عليك التحذير من العمل مع انقطاع الاتصالات ثلاث مرات على الأقل - المرة الأولى للقيام بالعمل على POD واحد ، حيث يوجد أحد خوادمه ، في المرة الثانية - في الثانية ، وفي المرة الثالثة - عند تبديل المعدات لخدمات DCI.

تبديل قنوات الاتصال المجمعة


لماذا نتحدث عن السلوك المتوقع للجهاز ، وكيف يمكن أن تتحول القنوات المجمعة مع تقليل انقطاع الاتصالات. تخيل الصورة التالية:


من ناحية ، فإن الرابط هو مفاتيح التوزيع POD - D1 و D2 ، وهم يشكلون زوج MLAG (مكدس ، مصنع VCS ، زوج vPC) ، من ناحية أخرى ، يتم تضمين رابطين - Link 1 و Link 2 - في زوج MLAG القديم مفتاح التجميع أ . على المفاتيح الجانبية ، شكلت D واجهة مجمعة تسمى Port-channel A ، على جانب مفاتيح التجميع A - واجهة مجمعة تسمى Port D-channel .

تستخدم الواجهات المجمعة LACP في عملها ، أي أن المفاتيح على كلا الجانبين تتبادل بانتظام حزم LACPDU على كلا الرابطين للتأكد من أن الروابط:

  • عمال؛
  • .

عند تبادل الحزم في حزمة ، يتم إرسال قيمة معرف النظام ، مما يشير إلى الجهاز الذي يتم تضمين هذه الروابط فيه. بالنسبة لزوج MLAG (مكدس ، مصنع ، إلخ) ، تكون قيمة معرف النظام للأجهزة التي تشكل الواجهة المجمعة هي نفسها. التبديل D1 يرسل رابط 1 قيمة النظام معرف-D ، والتبديل D2 يرسل رابط 2 قيمة النظام معرف-D .

مفاتيح A1 و A2 تحليل حزم LACPDU وردت في نفس واجهة بو D والتحقق من أن معرف النظام فيها مباريات. إذا اختلف معرف النظام الذي تم استلامه بواسطة ارتباط ما فجأة عن قيمة العمل الحالية، ثم تتم إزالة هذا الرابط من الواجهة المجمعة حتى يتم تصحيح الموقف. الآن نتحول إلى الجانب D القيمة الحالية للنظام معرف LACP شريك - A ، ومفاتيح على الجانب A - قيمة النظام معرف الحالية LACP شريك - D .

إذا كنت بحاجة إلى تبديل الواجهة المجمعة ، فيمكننا القيام بطريقتين مختلفتين:

الطريقة الأولى - بسيطة
A. .


N, LACP, Po D N system-id N.



الطريقة 2 - التقليل من الفاصل
2 Link 2. D , .


Link 2 N2. N Po DN, N2 LACPDU system-id N. , N2 , Link 2, Up, LACPDU .


, D2 Po A Link 2 system-id N, system-id A, D Link 2 Po A. N Link 2 , LACP- D2. Link 2 .

Link 1 A1, D . , D system-id Po A.


D N system-id A-N Po A Po DN, Link 2. , , 2 .


Link 1 N1, Po A Po DN. system-id , .



روابط إضافية


لكن التبديل يمكن أن يتم دون وجود مهندس في وقت التبديل. للقيام بذلك ، نحتاج إلى وضع روابط إضافية مسبقًا بين مفاتيح التوزيع D ومفاتيح التجميع N الجديدة .


نقوم بوضع روابط جديدة بين مفاتيح التحويل N وجميع مفاتيح توزيع POD. وهذا يتطلب النظام ووضع الحبال التصحيح إضافية، وتثبيت استقبال إضافية في كل من N ، و D . يمكننا القيام بذلك لأن لدينا منافذ حرة في مفاتيح D لكل POD (أو نحررهم أولاً). ونتيجة لذلك ، يتم توصيل كل POD فعليًا عن طريق ارتباطين بالمفاتيح القديمة A وللمفاتيح الجديدة N.


يتم تشكيل واجهتين مجمعتين عند المحول D - Po A مع الوصلات Link 1 و Link 2 و Po N مع الوصلات Link N1 و Link N2 . في هذه المرحلة ، نتحقق من الاتصال الصحيح للواجهات والروابط ، ومستويات الإشارات الضوئية عند طرفي الروابط (عبر معلومات DDM من المفاتيح) ، حتى يمكننا التحقق من قدرة عمل الرابط تحت الحمل أو مراقبة حالة الإشارات الضوئية ودرجات حرارة جهاز الإرسال والاستقبال لبضعة أيام.

لا تزال حركة المرور تنتقل عبر واجهة Po A ، في حين أن واجهة Po N خالية من حركة المرور. الإعدادات على الواجهات هي تقريبًا ما يلي:

Interface Port-channel A
Switchport mode trunk
Switchport allowed vlan C1, C2

Interface Port-channel N
Switchport mode trunk
Switchport allowed vlan none

تدعم مفاتيح التبديل D ، كقاعدة ، تغيير تكوين جلسة العمل ؛ يتم استخدام طرازات التبديل التي تحتوي على هذه الوظيفة. حتى نتمكن من تغيير إعدادات واجهات Po A و Po N دفعة واحدة:

Configure session
Interface Port-channel A
Switchport allowed vlan none
Interface Port-channel N
Switchport allowed vlan C1, C2
Commit

ثم سيحدث تغيير التكوين بسرعة كافية ، ولن يكون الفاصل ، عمليًا ، أكثر من 5 ثوانٍ.

تتيح لنا هذه الطريقة تنفيذ جميع الأعمال التحضيرية مقدمًا ، وإجراء جميع الفحوصات اللازمة ، وتنسيق العمل مع المشاركين في العملية ، والتنبؤ بالتفصيل بإجراءات إنتاج العمل ، بدون عمل إبداعي ، عندما "تسير الأمور بشكل خاطئ" ، ولديها خطة للعودة إلى التكوين السابق. يتم تنفيذ العمل على هذه الخطة من قبل مهندس شبكة دون وجود مركز بيانات في موقع المهندس الذي يقوم بالتحويل المادي.

ما هو أكثر أهمية مع طريقة التبديل هذه - تم بالفعل تعيين جميع الروابط الجديدة مسبقًا للمراقبة. أخطاء ، تضمين الروابط في الوحدة ، تحميل الروابط - كل المعلومات الضرورية موجودة بالفعل في نظام المراقبة ، وقد تم رسمها بالفعل على الخرائط.

يوم النصر


جراب


لقد اخترنا أقل مؤلم للعملاء وأقلهم عرضة لمسار التبديل "حدث خطأ ما" بروابط إضافية. لذا ، لبضع ليالٍ قمنا بتبديل جميع PODs إلى مفاتيح التجميع الجديدة.


ولكن يبقى تبديل المعدات التي تقدم خدمات DCI.

لام 2


في حالة المعدات التي توفر اتصال L2 ، لم نتمكن من القيام بعمل مماثل بروابط إضافية. هناك سببين على الأقل لهذا الغرض:

  • عدم وجود منافذ مجانية للسرعة المطلوبة على مفاتيح VXLAN.
  • عدم وجود وظائف لتغييرات تكوين الجلسة على مفاتيح VXLAN.

لم نقوم بتبديل الروابط "واحد في كل مرة" مع استراحة فقط لمدة الموافقة على زوج جديد من معرف النظام ، حيث لم يكن لدينا ثقة بنسبة 100٪ في صحة الإجراء ، وأظهر اختبار في المختبر أنه في الحالة في حالة "حدوث خطأ ما" ، ما زلنا نحصل على انقطاع في الاتصال ، وأسوأ شيء ليس فقط للعملاء الذين لديهم اتصال L2 بمراكز البيانات الأخرى ، ولكن لجميع عملاء مركز البيانات هذا بشكل عام.

لقد قمنا بعمل دعائي على التبديل من قنوات L2 في وقت مبكر ، لذلك كان عدد العملاء المتأثرين بالعمليات على مفاتيح VXLAN بالفعل عدة مرات أقل من عام مضى. ونتيجة لذلك ، قررنا قطع الاتصال على خدمة الاتصال L2 ، بشرط أن نحافظ على التشغيل العادي لخدمات الشبكة المحلية في مركز بيانات واحد. بالإضافة إلى ذلك ، توفر اتفاقية مستوى الخدمة لهذه الخدمة إمكانية العمل المقرر مع استراحة.

لام 3


لماذا نوصي الجميع بالتبديل إلى استخدام L3VPN عند تنظيم خدمات DCI؟ أحد الأسباب هو القدرة على العمل على أحد أجهزة التوجيه التي توفر هذه الخدمة ، ببساطة مع انخفاض مستوى التكرار إلى N + 0 ، دون انقطاع في الاتصال.

النظر في مخطط تقديم الخدمة بشكل أوثق. في هذه الخدمة ، ينتقل الجزء L2 من خوادم العملاء فقط إلى أجهزة توجيه L3VPN Selectel. على أجهزة التوجيه ، يتم إنهاء شبكة العميل.

لكل خادم عميل ، على سبيل المثال ، S2 و S3 في الرسم البياني أعلاه ، عناوين IP الخاصة به - 10.0.0.2/24 لخادم S2 و 10.0.0.3/24 لخادم S3 . العناوين 10.0.0.252/24 و 10.0.0.253/24معين بواسطة Selectel لأجهزة التوجيه L3VPN-1 و L3VPN-2 على التوالي. عنوان IP 10.0.0.254/24 هو عنوان VRRP VIP على أجهزة توجيه Selectel.

يمكنك قراءة المزيد عن خدمة L3VPN على مدونتنا.

حتى لحظة تبديل كل شيء بدا تقريبًا كما في الرسم البياني:


جهازي توجيه L3VPN-1 و L3VPN-2 كانت موصولة إلى القديم التبديل تجميع A . العنوان الرئيسي لعناوين VRRP VIP 10.0.0.254 هو جهاز التوجيه L3VPN-1 . لديه أولوية معينة لهذا العنوان أعلى من جهاز التوجيه L3VPN-2 .

unit 1006 {
    description C2;
    vlan-id 1006;
    family inet {       
        address 10.0.0.252/24 {
            vrrp-group 1 {
                priority 200;
                virtual-address 10.100.0.254;
                preempt {
                    hold-time 120;
                }
                accept-data;
            }
        }
    }
}

يستخدم خادم S2 بوابة 10.0.0.254 للتواصل مع الخوادم في مواقع أخرى. وبالتالي ، لا يؤثر فصل جهاز توجيه L3VPN-2 من الشبكة (بالطبع ، إذا قمت بقطعه أولاً من مجال MPLS) على اتصال خوادم العميل. عند هذه النقطة ، ينخفض ​​مستوى التكرار في الدائرة ببساطة.


بعد ذلك، ونحن يمكن إعادة بأمان L3VPN-2 الموجه إلى زوج من N مفاتيح . وضع الروابط وتغيير أجهزة الإرسال والاستقبال. يتم إيقاف تشغيل الواجهات المنطقية للموجه ، التي يعتمد عليها عمل خدمات العملاء ، حتى يتم التأكيد على أن كل شيء يعمل كما ينبغي.

بعد التحقق من الارتباطات وأجهزة الإرسال والاستقبال ومستويات الإشارة ومستويات الخطأ على الواجهات ، يبدأ تشغيل جهاز التوجيه ، ولكنه متصل بالفعل بزوج جديد من المفاتيح.


بعد ذلك ، نخفض أولوية VRRP لجهاز التوجيه L3VPN-1 ، وينتقل عنوان VIP 10.0.0.254 إلى جهاز التوجيه L3VPN-2. يتم تنفيذ هذه الأعمال أيضًا دون انقطاع الاتصال.


نقل VIP عنوان لجهاز التوجيه 10.0.0.254 L3VPN-2 يسمح لك لتعطيل جهاز التوجيه L3VPN-1 بدون انقطاع الاتصال للعميل والاتصال أن يكون لديها زوج جديد من تجميع مفاتيح من N .


ما إذا كان سيتم إرجاع VRRP VIP إلى جهاز التوجيه L3VPN-1 أم لا ، فهذه مسألة أخرى ، وإذا رجعت ، فسيتم ذلك دون انقطاع.

مجموع


بعد كل هذه الخطوات ، قمنا بالفعل باستبدال مفاتيح التجميع في أحد مراكز البيانات الخاصة بنا ، مع تقليل فترات الراحة لعملائنا.


كل ما تبقى هو تفكيك. تفكيك المحولات القديمة ، وتفكيك الارتباطات القديمة بين المحولين A و D ، وتفكيك أجهزة الإرسال / الاستقبال من هذه الروابط ، وتحديد المراقبة ، وإصلاح المخططات الشبكية في التوثيق والمراقبة.

يمكننا استخدام المفاتيح ، وأجهزة الإرسال والاستقبال ، وأسلاك التصحيح ، AOC ، DAC بعد التبديل ، في مشاريع أخرى أو تحويلات مماثلة أخرى.

"ناتاشا ، بدلنا كل شيء!"

All Articles