Cloudflare: Lo ocurrido a puertas cerradas durante la caída de Facebook

Facebook

Getty La caída de Facebook fur muy grave el día martes

Recientes informes señalan que la caída de Facebook fue tan grave que algunos empleados no pudieron ingresar a sus edificios porque ni siquiera sus credenciales funcionaban. Ejecutivos de Cloudflare, incluyendo a su CTO [Director de Tecnología], están compartiendo sus ideas acerca de la causa de la masiva y prolongada caída que afectó a Facebook, Instagram, WhatsApp, y otras propiedades de Facebook. En un artículo y también en Twitter, compartieron lo que observaron detrás de escena. 

El CTO de Cloudflare escribió: ‘Aproximadamente 5 minutos antes de que el DNS de Facebook dejara de funcionar, observamos un gran número de cambios en el BGP’

John Graham-Cumming, CTO de Cloudflare, escribió en Twitter: “Aproximadamente cinco minutos antes de que el DNS [Sistema de Nombres de Dominios] de Facebook dejara de funcionar, observamos un gran número de cambios en el BGP (mayormente quitas de rutas) del ASN de Facebook”. 

BGP es la sigla para “Border Gateway Protocol”. Cloudflare explicó que este es un “mecanismo que permite intercambiar información de las rutas de acceso entre sistemas autónomos (AS) en Internet”. 

This Post was deleted by the Post author. Learn more

En respuesta a la pregunta de un usuario respecto al significado de ASN, escribió: “El número (la N) que identifica a la totalidad de la red de Facebook (curiosamente llamado Autonomous System o AS) ante el resto de Internet. Internet es una red de redes; una colección de ASNs”. 

This Post was deleted by the Post author. Learn more

También compartió: “Entre las 15:50 UT y las 15:52 UT, Facebook y propiedades relacionadas desaparecieron de Internet en medio de una oleada de actualizaciones BGP. Así lo observó @Cloudflare”.

This Post was deleted by the Post author. Learn more

Ante la pregunta de un usuario acerca de cómo algo así podría haber sucedido, señaló a un hilo de Reddit donde alguien que afirmaba tener conexión con Facebook compartía sus ideas. La cuenta de dicha persona luego fue eliminada y el hilo se cerró. 

This Post was deleted by the Post author. Learn more

Ahoramismo informó acerca del hilo de Facebook antes de que los comentarios fueran eliminados. La persona había escrito

“El DNS para servicios de FB ha sido afectado y este probablemente sea un síntoma del problema real, y dicho problema es que el BGP que intercambia información con los routers de interconexión de Facebook se ha caído, muy probablemente debido a un cambio en la configuración que entró en vigor poco después de la caída (comenzó aproximadamente a las 1540 UT)…”

La persona continuó, escribiendo: “Hay gente intentando acceder a los routers de intercambio para realizar arreglos, pero las personas con acceso físico no son las mismas que tienen el conocimiento para autenticar los sistemas y las personas que saben realmente qué hacer, por lo que hay un desafío desde la logística para unificar todo ese conocimiento…esto se debe en parte a la menor cantidad de empleados en los centros de base de datos debido a las medidas por la pandemia…Desde ya que estoy al tanto de que se está considerando una amenaza/ ataque vector…creo que el cambio original fue ‘automático’ (es decir, una configuración realizada a través de una interfaz de la red). Sin embargo, ahora que la conexión con el mundo exterior se ha caído, el acceso remoto a esas herramientas dejó de existir, por lo que el procedimiento de emergencia es intentar acceder a los routers de intercambio y realizar toda esa configuración localmente…”

Facebook no ha confirmado si esta información del hilo de Reddit es correcta. Sin embargo, informes de otras fuentes luego confirmaron la veracidad de algunos de los elementos compartidos en estos comentarios.

Cloudflare publicó un artículo acerca de cómo Facebook se ‘desconectó’ de Internet

Cloudflare publicó un artículo acerca de los factores que contribuyeron a la caída y lo que observaron detrás de escena. Comenzaron señalando que a las 1651 UT del lunes 4 de octubre, cargaron un incidente interno denominado “La búsqueda del DNS de Facebook da SERVFAIL”. Los autores escribieron: “Los nombres del DNS [de Facebook] dejaron de funcionar, y las IPs de su infraestructura se encontraban fuera de alcance”. 

Clouflare explicó que los “grandes routers” de Internet “poseen enormes listas constantemente actualizadas de rutas posibles que pueden ser utilizadas para hacer llegar cada paquete de la red a sus destinos finales”. 

Y continuaron: “A las 1658 UT, observamos que Facebook había dejado de anunciar las rutas a sus prefijos de DNS”. Alrededor de las 15:40 UT, poco después de que esto ocurriera, observaron un aumento en los cambios de enrutamiento de Facebook.

Cloudflare escribió: “Las rutas fueron removidas, los servidores del DNS de Facebook se desconectaron, y un minuto después de que ocurriera el problema, ingenieros de Cloudflare se encontraban reunidos preguntándose por qué 1.1.1.1 no se convertía en facebook.com y preocupándose por que pudiera haber una falla en nuestros sistemas”.

Estas quitas, dijeron, básicamente desconectaron a Facebook de Internet. 

Puedes leer la explicación completa, con más ejemplos para ayudar a los usuarios a comprender qué estaba sucediendo detrás de escena, en el artículo de Cloudflare aquí. Si bien este no revela exactamente lo que sucedió en Facebook para causar los problemas, provee a los lectores de una explicación que les permita comprender qué está sucediendo y cómo se originó todo. 

El New York Times informó que la causa probablemente no fue un ciberataque, si no un ‘error de configuración’ de los servidores 

Sheera Frenkel de The New York Times informó que este fue un problema de dominio que afectó a todos los sistemas de Facebook, y fue tan grave que algunos empleados se quedaron fuera de sus oficinas. 

Frenkel escribió: “Sí, es un problema de dominio que está afectando a todos sus sistemas. Estamos recibiendo historias de empleados que están intercambiando mensajes de texto a través de plataformas de mensajería electrónica en un intento por comunicar lo que está ocurriendo”.

Frenkel también señaló: “Estaba al teléfono con alguien que trabaja para FB quien relató que los empleados no podían ingresar a los edificios esta mañana para evaluar el alcance de la caída porque sus credenciales no funcionaban para abrir las puertas”.

The New York Times informó que la causa probablemente no haya sido un ciberataque. The Times señaló que expertos en seguridad les dijeron que posiblemente se haya debido a un “error de configuración de las computadoras de servidores de Facebook”. 

Sigue a AhoraMismo en Instagram

Esta es la versión original de Heavy.com

LEER MÁS: Real Madrid Suffer Major Blow Prior To Champions League Semi Clash