Comment réparer les fuites de route

Il convient de mentionner que l'histoire suivante est largement unique.

Et c'est comme ça que ça a commencé. Dans une heure environ, à partir de 19,28 UTC hier, le 1er avril 2020, le plus grand fournisseur de services Internet russe - Rostelecom (AS12389) - a commencé à annoncer les préfixes de réseau des plus grands acteurs Internet: Akamai, Cloudflare, Hetzner, Digital Ocean, Amazon AWS et d'autres célèbres noms. Jusqu'à ce que le problème soit résolu, les chemins entre les plus grands fournisseurs de cloud de la planète étaient brisés - Internet "cligna des yeux".

Cette fuite de route a été distribuée avec succès via le fournisseur Rascom (AS20764), d'où Cogent (AS174) et, après quelques minutes de plus, via Level3(AS3356) s'est répandu dans le monde entier. La fuite était si grave que presque tous les opérateurs de niveau 1 ont été affectés par l'anomalie.

Cela ressemblait à ceci: en

image

plus de cela:

image

Cette fuite de route a touché 8870 préfixes de réseau appartenant à près de 200 systèmes autonomes. Avec beaucoup d'annonces incorrectes - dont aucune n'a été rejetée par les participants qui les ont reçues. En fin de compte, la présence de filtres ne changerait pas le fait de fuite de route, mais rendrait sa distribution un peu moins. Afin d'évaluer la dynamique de ce qui s'est passé, vous pouvez consulter l'exemple BGPlay pour l'un des préfixes Akamai: https://stat.ripe.net/widget/bgplay#w.resource=2.17.123.0/24

Comme nous l'avons écrit hier, tous les ingénieurs réseau du moment doivent être pleinement conscients de l'exactitude de leurs propres actions, excluant la possibilité d'une erreur critique. L'erreur commise par Rostelecom illustre parfaitement la fragilité du routage BGP IETF normalisé et, en particulier, en des temps aussi stressants en termes de croissance du trafic que maintenant.

Mais ce qui distingue vraiment cette situation des autres, c'est que Rostelecom a reçu un avertissement du système de surveillance en temps réel Qrator.Radar, nous contactant rapidement pour obtenir de l'aide afin de corriger les conséquences.

Étant donné la banalité des erreurs dans BGP, il est extrêmement facile d'en faire une pendant la pandémie actuelle de coronavirus. Mais avec la disponibilité des données analytiques, vous pouvez réagir rapidement à une situation changeante, ce qui a été fait en mettant fin à la fuite et en restaurant le routage normal.

Nous recommandons sérieusement à tous les FAI autres que Rostelecom d'envisager de surveiller les annonces BGP dès maintenant pour éviter les incidents à grande échelle dans l'œuf. Et bien sûr, RPKI Origin Validation n'est pas une fiction - c'est ce que vous devez faire maintenant.

All Articles