builderall


Cloudflare ha confirmado que la interrupción masiva del servicio ocurrida ayer no fue causada por un incidente de seguridad y que no se perdieron datos.


El problema se ha mitigado en gran medida. Comenzó a las 17:52 UTC de ayer, cuando el sistema Workers KV (Clave-Valor) se desconectó por completo, lo que provocó pérdidas generalizadas de servicio en múltiples servicios de computación en el borde e IA.


Workers KV es un almacén de clave-valor consistente y distribuido globalmente que utiliza Cloudflare Workers, la plataforma informática sin servidor de la compañía. Es un componente fundamental de muchos servicios de Cloudflare y un fallo puede causar problemas en cascada en muchos componentes.


La interrupción también afectó a otros servicios utilizados por millones de personas, en particular Google Cloud Platform.


Tasa de error KV de los trabajadores durante el incidente


En una autopsia, Cloudflare explica que la interrupción duró casi 2,5 horas y que la causa raíz fue una falla en la infraestructura de almacenamiento subyacente de Workers KV debido a una interrupción de un proveedor de nube externo.


?La causa de esta interrupción se debió a una falla en la infraestructura de almacenamiento subyacente utilizada por nuestro servicio Workers KV, que es una dependencia crítica para muchos productos de Cloudflare y del que se depende para la configuración, la autenticación y la entrega de activos en los servicios afectados?,  afirma Cloudflare.


Parte de esta infraestructura está respaldada por un proveedor de nube externo, que sufrió una interrupción hoy y afectó directamente la disponibilidad de nuestro servicio KV.


Cloudflare ha determinado el impacto del incidente en cada servicio:


En respuesta a esta interrupción, Cloudflare dice que acelerará varios cambios centrados en la resiliencia, eliminando principalmente la dependencia de un único proveedor de nube de terceros para el almacenamiento de backend de Workers KV.


Gradualmente, el almacén central de KV se migrará al almacenamiento de objetos R2 de Cloudflare para reducir la dependencia externa.


Cloudflare también planea implementar protecciones entre servicios y desarrollar nuevas herramientas para restaurar gradualmente los servicios durante cortes de almacenamiento, previniendo picos de tráfico que podrían saturar los sistemas en recuperación y causar fallas secundarias.


Fuente: Bleepingcomputer