Az infrastruktúrára gyakorolt hatások
A közel ötórás kimaradás ideje alatt az adatközpont működése zavartalan maradt. "Az infrastruktúra folyamatosan, megszakítás nélkül üzemelt – semmiféle szolgáltatáskorlátozásra nem volt szükség"– emelte ki Martin Sláma.
Az eset egyértelműen megerősítette a tartalék áramellátás architektúrájának helyességét.
A tartalék áramellátási rendszer
Infrastruktúránk több komponens összehangolt működésére épül:
- UPS rendszerek: Vertiv APM moduláris egységek
- Dízel generátorok: CAT és Visa
- Elosztás: minden betáp két PDU ágra van osztva, áganként dupla redundanciával
"A UPS folyamatosan kiegyenlíti a feszültségingadozásokat, a generátorok pedig szükség esetén másodperceken belül automatikusan átveszik a működést. Így az üzem stabil marad még hosszabb áramszünet esetén is." - teszi hozzá Sláma.
Tesztelési és karbantartási protokollok
A tartalék rendszereket évente négyszer, rendszeres próbák során ellenőrizzük. A tesztek során szándékosan megszakítjuk az áramellátást, és ellenőrizzük az automatikus folyamatok működését. A terheléses tesztek során szándékosan megszakítjuk az áramellátást, hogy nyomon kövessük, miként lépnek működésbe a tartalék rendszerek az előre meghatározott forgatókönyv alapján. A folyamat minden lépése összehangolt: szakembereink rádión keresztül kommunikálnak az irányítóteremmel, miközben minden műszaki helyiségben figyelemmel kísérik a történéseket. A rendszeres tesztelés garantálja, hogy éles helyzetben minden zökkenőmentesen, szolgáltatáskimaradás nélkül történjen.
"A generátorok a várakozásoknak megfelelően működtek, és a rendszerek teljes terhelés alatt is megszakítás nélkül működtek” – emeli ki Sláma.
Biztonsági mechanizmusok és redundancia
Ha az elsődleges tartalék rendszerek meghibásodnának, további védelmi szintek lépnek életbe:
- Tartalék dízelgenerátorok a fő egységek kiesése esetére
- Automatizált vezérlési eljárások, amelyek előre meghatározott hibaforgatókönyvek szerint működnek
- Részletes eszkalációs protokoll, amely szükség esetén szakembereink azonnali, manuális beavatkozását is tartalmazza
"Tartalék dízelgenerátoraink mellett az automata vezérlőrendszer egy előre meghatározott protokollok szerint működik, és mindezt 24/7 ügyeletet ellátó szakembereink felügyelik, akik szükség esetén azonnal beavatkoznak” – teszi hozzá Sláma.
Kockázatkezelés és folyamatos fejlesztés
"A legjobb védelem egy jól beállított automata rendszer. Ha minden az előírások szerint működik, nincs ok az aggodalomra"
Az adatközpont működése során előfordultak rövid, másodperceken belüli áramszünetek, amelyeket mindig hibátlanul kezelt a rendszer. A júliusi kimaradás különlegességét az adta, hogy több órán át tartott – a megoldás azonban nem volt bonyolult.
Szolgáltatásfolytonosság
Az áramszünet alatt minden ügyfélszerver megszakítás nélkül üzemelt. Az ügyfélszolgálat mindössze két megkeresést kapott a tartalék rendszerek autonómiájával kapcsolatban. Több ügyfelünk a közösségi médiában is megosztotta elismerését, hogy míg más szolgáltatások (például fizetési terminálok, mobilszolgáltatók, kórházak vagy ipari üzemek) leálltak vagy átálltak vészüzemre, a mi rendszereink zavartalanul működtek – így a weboldalak, alkalmazások és webshopok is elérhetők maradtak.
"„Az előzetes intézkedéseknek köszönhetően ügyfeleink számára minden szolgáltatásunk folyamatosan elérhető maradt” – foglalja össze Sláma
Infrastruktúra-üzemeltetés éles helyzetben
Az üzemeltetés számára az eset teljesen standard módon zajlott. Az áramszünet észlelése után a csapat ellenőrizte az automata rendszerek működését, figyelte az okokat, és megbecsülte a kimaradás várható hosszát.
"Amint érzékeltük a kimaradást, azonnal ellenőriztük, hogy az automata rendszerek megfelelően reagáltak-e, a tartalék rendszerek átálltak-e, és meghatároztuk a kimaradás okát és várható időtartamát. A szerverterem működését mindez egyáltalán nem befolyásolta."
Az előre konfigurált riasztási rendszer hibátlanul működött.
"Számunkra ez nem rendkívüli helyzet, hiszen mindenre fel vagyunk készülve. Bár az áramszünet mértéke minket is meglepett, az üzemeltetésben semmilyen fennakadást nem okozott"– teszi hozzá Sláma.
Tapasztalatok és tanulságok
Az eset egyértelműen igazolta, hogy helyes döntés volt a redundáns infrastruktúrába és az automatizációba invesztálni. "Minden pontosan úgy működött, ahogy kellett, és beigazolódott, hogy csapatunk pontosan tudja, mi a teendő ilyen helyzetben” – foglalja össze Martin Sláma, a vshosting hardver- és adatközponti részlegének vezetője.
A júliusi áramszünet megmutatta, hogy a kritikus infrastruktúrához tervezett tartalék rendszerek a valós életben is megbízhatóan működnek. A megfelelően tervezett architektúra, a rendszeres tesztelés és a felkészült személyzet együttesen biztosította a szolgáltatás folytonosságát még egy hosszabb áramszünet alatt is.
Ezen okoknak köszönhetően az adatközpontunk 2015-ös megnyitása óta, vagyis 10 éve, folyamatosan, áramkimaradás nélkül működik.
Az eset jól mutatja, hogy minden kritikus IT-infrastruktúrát üzemeltető szervezet számára, mennyire fontos a tartalék áramellátás kiépítése és a részletes katasztrófaelhárítási tervek előzetes kidolgozása.