Considerazioni sull' incendio del 10 Marzo 2021 al Cloud Datacenter OVH di Strasbourgo
Il 10 Marzo 2021, un evento di estrema rarità, ha colpito uno dei principali fornitori di servizi cloud a livello Europeo.
Eventi di questo tipo sono piuttosto rari, ma sono ancor più rari coinvolgimenti così estesi ed impattanti.
Un moderno datacenter è dotato dei sistemi di controllo e sicurezza tra i più evoluti, videosorveglianza, sistemi di continuità elettrica, generatori, line ottiche di connessione ridondanti …e sistemi antincendio .
Normalmente questi ultimi sono basati su modalità che sottraggono l’ossigeno alle fiamme in tempi rapidissimi, limitando quindi eventuali danni ad aree minori . Nell' incendio del 10 Marzo invece qualcosa non è andato per il verso giusto , indagini sono ancora in corso, ma l’evento ha coinvolto un intero edificio e buona parte di anche altri edifici adiacenti, tanto che oggi i maggiori player mondiali sono con i riflettori accesi sull' evento per capire quali eventuali casistiche si sono verificate e come poterle evitare in futuro. Per ulteriori approfondimenti sul evento consulta questo articolo
Aziende come la nostra, hanno presso questi player mondiali parte delle loro infrastrutture. Nonostante l’evento , difatti si tratta comunque ancora delle aree più sicure e flessibili ove ha senso ospitare i propri servizi cloud. La probabilità che un evento come questo si verifichi presso i nostri ambienti domestici o aziendali, e ancora difatti molto superiore a quella che possa verificarsi presso questi moderni datacenter.
E purtroppo, nemmeno le migliori best practise messe in campo, hanno avuto la meglio sulla perdita dei dati e sulla interruzione di servizio.
Personalmente avevamo presso OVH una infrastruttura di fasci alta, studiata e messa in campo per poter garantire continuità di servizio in praticamente tutte le casistiche di interruzione o potenziali perdite di dati. Una scelta non scontata, che implica una base costi elevata con impatto sul valore del servizio erogato e che in pochi fanno, preferendo soluzioni di public cloud o provate cloud semplici.
- 14 server che ospitavano circa 250 virtual machine, divisi tra 2 edifici separati e con politiche di HA e DRS. IN casi interruzione di servizio fino al 50% della architettura non ci sarebbe stato nessun fermo operativo.
- 10 datastore , dislocati su 3 edifici separati
- Backup giornalieri delle VM dislocato in aree differenti rispetto ai datastore di origine.
Ma di fronte ad un evento di questa portata che sembra aver mirato con precisione chirurgica le aree da colpire per apportar il maggior danno possibile, a nulla è servita anche la più lungimirante delle scelte.
Una scelta comunque che avremmo rifatto, anche a posteriori, perché rimane comunque la miglior scelta atta a ridurre al minimo potenziali disservizi prima di arrivare ad implementare politiche di disaster recovery geografico dei servizi , che rappresentano però un modello non sostenibile se non con la “complicità” del cliente finale .
A posteriori possiamo tirare le somme del evento ed affermare che delle infrastrutture presenti in OVH , è andata persa per intero l’infrastruttura di server composta da 14 nodi ridondanti, l’intero storage dei backup e circa il 60% dei dati . Il restante 40% a causa dei lunghi tempi di rispristino è stato possibile consultarlo solo a distanza di circa 40 giorni dall' evento, un lasso di tempo enorme, che ci ha quindi costretto a mettere in campo task force dedicate per ricostruire i servizi ai clienti step by step.
Per fortuna la ulteriore lungimiranza ci aveva fatto scegliere di avere i nostri servizi distribuiti anche altrove, una parte in infrastrutture sotto i nostro controllo diretto (sempre in contesto di datacenter) ed una parte presso altri fornitori di soluzioni managed cloud. Diversi servizi non sono quindi stati intaccato dall’evento e ciò ci ha consentito anche di avere nel brevissimo nuovamente server e storage attivi a disposizione, e pian piano rimettere ciascun cliente nella possibilità di riavere in primis i servizi di base e successivamente di ripristinare in toto il servizio erogato.
Tempi in alcuni casi dilatati e legati alla possibilità di un recupero nel breve di alcuni dati critici, possibilità poi verificatasi solo a 40 giorni di distanza a causa delle complicazioni avute non solo dall' incendio, ma anche dalle procedure di spegnimento, dalla pandemia in corso e dalle indagini investigative.
I servizi protetti di soluzioni di disaster recovery hanno chiaramente avuto un impatto minimo , in quanto poche ore dopo l’evento erano già nuovamente disponibili presso altra infrastruttura, tempi di mettere in moto il disaster recovery plan . E proprio questi eventi hanno mostrato ai nostri clienti quanto sia davvero importante sapere dare un valore ai propri dati ed ai propri servizi ed essere lungimiranti, investendo in soluzioni di disaster recovery quali “polizze assicurative” su eventi disastrosi.
Rimane infatti sempre in capo al cliente la valutazione del valore che il determinato dato o servizio ospitato ha per il proprio business e sapere cosa comporta un eventuale fermo, o perdita del dato.
Il disaster recovery è difatti un piano, un progetto, studiato insieme tra cliente e fornitore.
Se vuoi approfondire il tema del DISASTER RECOVERY leggi questo articolo.