Kisah satu saklar


Dalam agregasi LAN kami, terdapat enam pasang sakelar Arista DCS-7050CX3-32S dan sepasang sakelar Brocade VDX 6940-36Q. Bukannya saklar Brocade pada jaringan ini memberikan banyak tekanan pada kami, mereka bekerja dan menjalankan fungsinya, tetapi kami sedang mempersiapkan otomatisasi penuh beberapa tindakan, dan kami tidak memiliki kemampuan ini pada sakelar ini. Saya juga ingin beralih dari antarmuka 40GE ke kemungkinan menggunakan 100GE untuk membuat cadangan untuk 2-3 tahun ke depan. Jadi kami memutuskan untuk menukar Brocade dengan Arista.

Sakelar ini adalah sakelar agregasi LAN untuk setiap pusat data. Sakelar distribusi (level kedua agregasi) terhubung langsung ke sakelar tersebut, yang sudah terpasang di dalamnya Sakelar LAN Top-of-Rack di rak server.


Setiap server termasuk dalam satu atau dua sakelar akses. Sakelar akses terhubung ke sepasang sakelar distribusi (dua sakelar distribusi dan dua tautan fisik dari sakelar akses ke sakelar distribusi yang berbeda digunakan untuk redundansi).

Setiap server dapat digunakan oleh kliennya, sehingga VLAN terpisah dialokasikan untuk klien. VLAN yang sama kemudian ditugaskan ke server lain dari klien ini di rak mana pun. Pusat data terdiri dari beberapa baris seperti itu (POD), setiap baris rak memiliki sakelar distribusi sendiri. Kemudian sakelar distribusi ini terhubung ke sakelar agregasi.


Klien dapat memesan server di baris mana pun, tidak mungkin untuk memprediksi sebelumnya bahwa server akan dialokasikan atau dipasang di baris tertentu di rak mana pun, oleh karena itu, ada sekitar 2500 VLAN di setiap pusat data pada sakelar agregasi.

Peralatan untuk DCI (Data-Center Interconnect) terhubung ke sakelar agregasi. Ini dapat digunakan untuk konektivitas L2 (sepasang sakelar yang membentuk terowongan VXLAN ke pusat data lain), dan untuk konektivitas L3 (dua router MPLS).


Seperti yang sudah saya tulis, untuk menyatukan proses otomatisasi konfigurasi layanan pada peralatan di satu pusat data, perlu untuk mengganti sakelar agregasi pusat. Kami memasang sakelar baru di sebelah sakelar yang ada, menggabungkannya menjadi pasangan MLAG dan mulai bersiap untuk bekerja. Mereka segera terhubung ke switch agregasi yang ada, sehingga mereka memiliki domain L2 yang umum di semua VLAN klien.

Rincian sirkuit


Untuk spesifisitas, kita akan memanggil switch agregasi lama A1 dan A2 , yang baru - N1 dan N2 . Bayangkan bahwa dalam POD 1 dan POD 4 ada server satu klien C1 , VLAN klien ditunjukkan dengan warna biru. Klien ini menggunakan layanan konektivitas L2 dengan pusat data lain, sehingga VLAN-nya disajikan pada sepasang switch VXLAN.

Klien C2 menempatkan server di POD 2 dan POD 3 , kami menyatakan VLAN klien sebagai hijau tua. Klien ini juga menggunakan layanan konektivitas dengan pusat data lain, tetapi L3, sehingga VLAN-nya disajikan pada sepasang router L3VPN.


Kami membutuhkan VLAN klien untuk memahami pada tahap apa pekerjaan pengganti terjadi, di mana jeda komunikasi terjadi, dan berapa lama durasinya. Protokol STP tidak digunakan dalam skema ini, karena lebar pohon untuk itu dalam hal ini besar, dan konvergensi protokol tumbuh secara eksponensial dari jumlah perangkat dan tautan di antara mereka.

Semua perangkat yang terhubung oleh tautan ganda membentuk tumpukan, pasangan MLAG atau pabrik VCS-Ethernet. Teknologi tersebut tidak digunakan untuk sepasang router L3VPN, karena tidak perlu redundansi L2, cukup bahwa mereka memiliki konektivitas L2 satu sama lain melalui switch agregasi.

Opsi implementasi


Ketika menganalisis opsi untuk acara lebih lanjut, kami menyadari bahwa ada beberapa cara untuk melakukan pekerjaan ini. Dari jeda global pada seluruh jaringan lokal, hingga jeda kecil secara harfiah 1-2 detik di bagian-bagian jaringan.

Jaringan, berdiri! Switch, ganti!


Cara termudah - adalah, tentu saja, mengumumkan istirahat global yang ikatan dalam semua POD dan semua layanan DCI dan beralih semua link dari saklar A di switch dari N .


Selain jeda, waktu yang tidak dapat kami jamin untuk diprediksi (ya, kami tahu jumlah tautan, tetapi kami tidak tahu berapa kali ada yang salah - dari kabel patch yang rusak atau konektor yang rusak ke port atau kerusakan transceiver), kami masih tidak bisa untuk memprediksi sebelumnya apakah panjang kabel patch, DAC, AOC, terhubung ke switch lama A, cukup untuk menjangkau mereka, meskipun berdiri di sebelahnya, tetapi masih agak terpisah, switch N yang baru, dan apakah transceiver yang sama akan bekerja / DAC / AOC dari sakelar Brocade di sakelar Arista.

Dan semua ini dalam kondisi tekanan berat dari pelanggan dan dukungan teknis ("Natasha, bangun! Natasha, semuanya tidak berfungsi di sana! Natasha, kami sudah menulis dukungan teknis, jujur, jujur! Natasha, mereka sudah meletakkan semuanya di sana! Natasha, tetapi berapa banyak yang belum apakah ini akan berhasil? Natasha, dan kapan berhasil?! ”). Meskipun ada pengumuman dan pemberitahuan yang dibuat sebelumnya kepada pelanggan, gelombang masuk telepon pada saat seperti itu dijamin.

Tunggu, 1-2-3-4!


Dan jika tidak untuk menyatakan jeda global, tetapi untuk mengumumkan serangkaian jeda kecil dalam komunikasi pada layanan POD dan DCI. Pada istirahat pertama, alihkan hanya POD 1 ke N switch , pada detik - setelah beberapa hari - POD 2 , kemudian setelah beberapa hari POD 3 , lalu POD 4 ... [N] , lalu VXLAN beralih dan kemudian router L3VPN.


Dengan organisasi pengalihan pekerjaan seperti itu, kami mengurangi kerumitan pekerjaan satu kali dan meningkatkan waktu kami untuk menyelesaikan masalah jika ada sesuatu yang tiba-tiba salah. Konektivitas POD 1 setelah beralih dengan POD lain dan DCI tidak hilang. Tetapi pekerjaan itu sendiri tertunda untuk waktu yang lama, untuk saat pekerjaan ini di pusat data, seorang insinyur diminta untuk secara fisik melakukan peralihan, dan selama pekerjaan (dan pekerjaan tersebut biasanya dilakukan pada malam hari, dari 2 hingga 5 pagi), kehadiran seorang insinyur jaringan online cukup tinggi. kualifikasi. Tetapi di sisi lain, kita mendapatkan istirahat pendek dalam komunikasi, sebagai aturan, pekerjaan dapat dilakukan dalam interval setengah jam dengan istirahat hingga 2 menit (dalam praktiknya, seringkali 20-30 detik dengan perilaku peralatan yang diharapkan).

Dalam contoh di atas, klien C1 atau klien C2 Anda harus memperingatkan tentang pekerjaan dengan jeda komunikasi setidaknya tiga kali - pertama kali melakukan pekerjaan pada satu POD, di mana salah satu servernya berada, kedua kalinya - pada kedua, dan ketiga kalinya - saat mengganti peralatan untuk layanan DCI.

Beralih saluran komunikasi agregat


Mengapa kita berbicara tentang perilaku yang diharapkan dari peralatan, dan bagaimana saluran teragregasi dapat beralih dengan meminimalkan gangguan komunikasi. Bayangkan gambar berikut:


Di satu sisi, tautannya adalah sakelar distribusi POD - D1 dan D2 , mereka membentuk pasangan MLAG (tumpukan, pabrik VCS, pasangan vPC), di sisi lain dua tautan - Tautan 1 dan Tautan 2 - termasuk dalam pasangan MLAG lama agregasi saklar A . Di sisi switch D membentuk antarmuka agregat yang disebut Port-channel A , di sisi agregasi switch A - antarmuka agregat yang disebut Port D-channel .

Antarmuka agregat menggunakan LACP dalam pekerjaan mereka, yaitu, sakelar di kedua sisi secara teratur bertukar paket LACPDU pada kedua tautan untuk memastikan bahwa tautan:

  • pekerja;
  • .

Saat bertukar paket dalam suatu paket, nilai id sistem dikirimkan , yang menunjukkan perangkat tempat tautan ini disertakan. Untuk pasangan MLAG (tumpukan, pabrik, dll.), Nilai id sistem untuk perangkat yang membentuk antarmuka gabungan adalah sama. Switch D1 mengirimkan id-D sistem nilai Link 1 , dan switch D2 mengirimkan id-D sistem nilai 2 . Switch A1 dan A2 menganalisis paket LACPDU yang diterima pada antarmuka Po D yang sama dan memverifikasi bahwa id sistem di dalamnya cocok. Jika id sistem yang diterima oleh beberapa tautan tiba-tiba berbeda dari nilai kerja saat ini

, lalu tautan ini dihapus dari antarmuka agregat sampai situasinya diperbaiki. Sekarang kita beralih ke sisi D nilai saat ini dari sistem-id LACP-partner - A , dan beralih di sisi A - nilai sistem-id saat ini dari mitra LACP- D - .

Jika Anda perlu mengganti antarmuka gabungan, kami dapat melakukan dua cara berbeda:

Metode 1 - Sederhana
A. .


N, LACP, Po D N system-id N.



Metode 2 - Minimalkan Istirahat
2 Link 2. D , .


Link 2 N2. N Po DN, N2 LACPDU system-id N. , N2 , Link 2, Up, LACPDU .


, D2 Po A Link 2 system-id N, system-id A, D Link 2 Po A. N Link 2 , LACP- D2. Link 2 .

Link 1 A1, D . , D system-id Po A.


D N system-id A-N Po A Po DN, Link 2. , , 2 .


Link 1 N1, Po A Po DN. system-id , .



Tautan tambahan


Tetapi switching dapat dilakukan tanpa kehadiran seorang insinyur pada saat switching. Untuk melakukan ini, kita perlu pra-lay link tambahan antara switch distribusi D dan switch agregasi N baru .


Kami memasang tautan baru antara sakelar agregasi N dan semua sakelar distribusi POD. Ini membutuhkan ketertiban dan peletakan kabel patch tambahan, dan menginstal transceiver tambahan di kedua dari N , dan D . Kita dapat melakukan ini karena kita memiliki port bebas di sakelar D dari masing - masing POD (atau kita membebaskannya terlebih dahulu). Akibatnya, setiap POD secara fisik terhubung oleh dua tautan ke sakelar lama A dan sakelar baru N.


Dua antarmuka agregat dibentuk pada sakelar D - Po A dengan tautan Tautan 1 dan Tautan 2 , dan Po N dengan tautan Tautan N1 dan Tautan N2 . Pada tahap ini, kami memeriksa koneksi antarmuka dan tautan yang benar, level sinyal optik di kedua ujung tautan (melalui informasi DDM dari sakelar), kami bahkan dapat memeriksa kapasitas kerja tautan yang sedang dimuat atau memantau status sinyal optik dan suhu transceiver selama beberapa hari.

Lalu lintas masih ditransmisikan melalui antarmuka Po A , sedangkan antarmuka Po N bebas dari lalu lintas. Pengaturan pada antarmuka kira-kira sebagai berikut:

Interface Port-channel A
Switchport mode trunk
Switchport allowed vlan C1, C2

Interface Port-channel N
Switchport mode trunk
Switchport allowed vlan none

Switch D, sebagai suatu peraturan, mendukung perubahan konfigurasi berbasis sesi; model switch yang memiliki fungsi ini digunakan. Jadi kita dapat mengubah pengaturan antarmuka Po A dan Po N dalam sekali jalan:

Configure session
Interface Port-channel A
Switchport allowed vlan none
Interface Port-channel N
Switchport allowed vlan C1, C2
Commit

Kemudian perubahan konfigurasi akan terjadi dengan cukup cepat, dan dalam praktiknya, istirahat tidak lebih dari 5 detik.

Metode ini memungkinkan kita untuk melakukan semua pekerjaan persiapan di muka, untuk melakukan semua pemeriksaan yang diperlukan, untuk mengoordinasikan pekerjaan dengan para peserta dalam proses, untuk meramalkan secara rinci tindakan untuk produksi pekerjaan, tanpa pekerjaan kreatif, ketika "semuanya berjalan salah", dan memiliki rencana untuk kembali ke konfigurasi sebelumnya. Pekerjaan pada rencana ini dilakukan oleh insinyur jaringan tanpa kehadiran pusat data di lokasi insinyur yang secara fisik melakukan peralihan.

Apa yang lebih penting dengan metode pengalihan ini - semua tautan baru sudah ditentukan sebelumnya untuk pemantauan. Kesalahan, penyertaan tautan dalam unit, pemuatan tautan - semua informasi yang diperlukan sudah ada dalam sistem pemantauan, dan sudah ditarik pada peta.

Hari H


Polong


Kami memilih yang paling tidak menyakitkan bagi pelanggan dan paling tidak rentan terhadap jalur peralihan “sesuatu yang salah” dengan tautan tambahan. Jadi untuk beberapa malam kami mengalihkan semua POD ke switch agregasi baru.


Tetapi tetap beralih peralatan yang menyediakan layanan DCI.

L2


Dalam hal peralatan yang menyediakan konektivitas L2, kami tidak dapat melakukan pekerjaan serupa dengan tautan tambahan. Setidaknya ada dua alasan untuk ini:

  • Kurangnya port bebas dari kecepatan yang dibutuhkan pada sakelar VXLAN.
  • Kurang fungsionalitas untuk perubahan konfigurasi sesi pada sakelar VXLAN.

Kami tidak mengganti tautan “satu per satu” dengan jeda hanya selama durasi persetujuan sistem-id baru, karena kami tidak memiliki kepercayaan 100% bahwa prosedur akan benar, dan tes di laboratorium menunjukkan bahwa, dalam kasus ini jika "ada yang salah", kami masih mengalami gangguan komunikasi, dan yang terburuk tidak hanya bagi pelanggan yang memiliki konektivitas L2 dengan pusat data lain, tetapi secara umum untuk semua pelanggan pusat data ini.

Kami melakukan pekerjaan propaganda untuk beralih dari saluran L2 sebelumnya, sehingga jumlah pelanggan yang terpengaruh operasi pada switch VXLAN sudah beberapa kali lebih sedikit dari setahun yang lalu. Akibatnya, kami memutuskan untuk menghentikan komunikasi pada layanan konektivitas L2, asalkan kami mempertahankan operasi normal layanan jaringan lokal di satu pusat data. Selain itu, SLA untuk layanan ini menyediakan kemungkinan jeda kerja terjadwal.

L3


Mengapa kami menyarankan semua orang untuk beralih menggunakan L3VPN ketika mengatur layanan DCI? Salah satu alasannya adalah kemampuan untuk bekerja pada salah satu router yang menyediakan layanan ini, hanya dengan pengurangan tingkat redundansi menjadi N + 0, tanpa gangguan dalam komunikasi.

Pertimbangkan skema penyediaan layanan lebih dekat. Dalam layanan ini, segmen L2 beralih dari server klien hanya ke router L3VPN Selectel. Pada router, jaringan klien diakhiri.

Setiap server klien, misalnya, S2 dan S3 dalam diagram di atas, memiliki alamat IP pribadi - 10.0.0.2/24 untuk server S2 dan 10.0.0.3/24 untuk server S3 . Alamat 10.0.0.252/24 dan 10.0.0.253/24ditugaskan oleh Selectel ke router L3VPN-1 dan L3VPN-2 , masing-masing. Alamat IP 10.0.0.254/24 adalah alamat VIP VRRP pada router Selectel.

Anda dapat membaca lebih lanjut tentang layanan L3VPN di blog kami.

Sampai saat peralihan semuanya tampak seperti pada diagram:


Dua router L3VPN-1 dan L3VPN-2 yang terhubung ke yang lama agregasi saklar A . Master untuk alamat VIP VRRP 10.0.0.254 adalah router L3VPN-1 . Dia memiliki prioritas yang ditetapkan untuk alamat ini lebih tinggi daripada router L3VPN-2 .

unit 1006 {
    description C2;
    vlan-id 1006;
    family inet {       
        address 10.0.0.252/24 {
            vrrp-group 1 {
                priority 200;
                virtual-address 10.100.0.254;
                preempt {
                    hold-time 120;
                }
                accept-data;
            }
        }
    }
}

Server S2 menggunakan 10.0.0.254 gateway untuk berkomunikasi dengan server di lokasi lain. Dengan demikian, memutuskan sambungan router L3VPN-2 dari jaringan (tentu saja, jika Anda memutuskan sambungan pertama kali dari domain MPLS) tidak mempengaruhi konektivitas server klien. Pada titik ini, tingkat redundansi sirkuit berkurang.


Setelah itu, kita dapat menyambung kembali L3VPN-2 router ke pasangan N switch . Letakkan tautan, ubah transceiver. Antarmuka logis router, tempat pekerjaan layanan klien bergantung, hingga konfirmasi bahwa semuanya berfungsi sebagaimana mestinya, dimatikan.

Setelah memeriksa tautan, transceiver, level sinyal, level kesalahan pada interface, router mulai beroperasi, tetapi sudah terhubung ke sepasang switch baru.


Selanjutnya, kami menurunkan prioritas VRRP dari router L3VPN-1, dan alamat VIP 10.0.0.254 pindah ke router L3VPN-2. Karya-karya ini juga dilakukan tanpa gangguan komunikasi.


Transfer VIP alamat ke router 10.0.0.254 L3VPN-2 memungkinkan Anda untuk menonaktifkan router L3VPN-1 tanpa gangguan dari kontak untuk klien dan menghubungkannya untuk memiliki sepasang baru agregasi beralih dari N .


Apakah akan mengembalikan VRRP VIP ke router L3VPN-1 adalah masalah lain, dan jika Anda kembali, hal itu dilakukan tanpa gangguan.

Total


Setelah semua langkah ini, kami benar-benar mengganti saklar agregasi di salah satu pusat data kami, sambil meminimalkan jeda bagi pelanggan kami.


Yang tersisa hanyalah pembongkaran. Membongkar sakelar lama, membongkar tautan lama antara sakelar A dan D, membongkar transceiver dari tautan ini, memperbaiki pemantauan, memperbaiki diagram jaringan dalam dokumentasi dan pemantauan.

Kita dapat menggunakan switch, transceiver, patch patch, AOC, DAC setelah switching, dalam proyek lain atau switching serupa lainnya.

"Natasha, kami mengubah semuanya!"

All Articles