Cómo arreglar fugas de ruta

Vale la pena mencionar que la siguiente historia es en gran medida única.

Y así es como comenzó. En aproximadamente una hora, a partir de las 19.28 UTC de ayer, 1 de abril de 2020, el proveedor de servicios de Internet más grande de Rusia, Rostelecom (AS12389), comenzó a anunciar los prefijos de red de los jugadores de Internet más grandes: Akamai, Cloudflare, Hetzner, Digital Ocean, Amazon AWS y otros famosos nombres Hasta que se resolvió el problema, se rompieron los caminos entre los proveedores de nube más grandes del planeta: Internet "parpadeó".

Esta fuga de ruta se distribuyó con bastante éxito a través del proveedor de Rascom (AS20764), desde donde a través de Cogent (AS174) y, después de unos minutos más, a través de Level3(AS3356) se ha extendido por todo el mundo. La fuga fue tan grave que casi todos los operadores de nivel 1 se vieron afectados por la anomalía.

Se veía así:

imagen

además de esto:

imagen

Esta fuga de ruta tocó 8870 prefijos de red propiedad de casi 200 sistemas autónomos. Con muchos anuncios incorrectos, ninguno de los cuales fue descartado por los participantes que los recibieron. En última instancia, la presencia de filtros no cambiaría el hecho de la fuga de ruta, pero haría que su distribución fuera algo menor. Para evaluar la dinámica de lo que sucedió, puede ver el ejemplo BGPlay de uno de los prefijos de Akamai: https://stat.ripe.net/widget/bgplay#w.resource=2.17.123.0/24

Como escribimos ayer, todos los ingenieros de redes en este momento deben ser plenamente conscientes de la corrección de sus propias acciones, excluyendo la posibilidad de un error crítico. El error cometido por Rostelecom ilustra perfectamente cuán frágil es el enrutamiento estandarizado IETF BGP y, especialmente, en tiempos tan estresantes en términos de crecimiento del tráfico como ahora.

Pero lo que realmente distingue esta situación de cualquier otra es que Rostelecom recibió una advertencia del sistema de monitoreo en tiempo real Qrator.Radar, contactándose rápidamente con nosotros para obtener ayuda para corregir las consecuencias.

Dada la trivialidad de los errores en BGP, es extremadamente fácil cometer uno durante la actual pandemia de coronavirus. Pero con la disponibilidad de datos analíticos, puede responder rápidamente a una situación cambiante, que se hizo poniendo fin a la fuga y restaurando el enrutamiento normal.

Recomendamos seriamente que todos los ISP que no sean Rostelecom piensen en monitorear los anuncios de BGP en este momento para evitar incidentes a gran escala de raíz. Y, por supuesto, RPKI Origin Validation no es ficción, es lo que debe hacer ahora.

All Articles