szerző:
hvg.hu
Tetszett a cikk?

A Google szolgáltatásai tavaly az év 99,97 százalékában elérhetők voltak. Mindezt egy dedikált részlegének köszönheti a vállalat, illetve a módszernek, amiről most könyvet írtak.

Az emberek döntő többsége szinte természetesnek veszi, hogy a Google keresője és különböző online szolgáltatásai – mint a levelezőrendszer vagy a dokumentumok – a nap 24 órájában, a hét minden napján elérhetőek. A helyzet az, hogy ez majdnem fedi is a valóságot, a Google jelentése szerint ugyanis 2015-ben az év 99,97 százalékéban voltak elérhetők a szolgáltatásai. Mindez figyelemre méltó eredmény, ha azt vesszük, hogy tulajdonképpen itt is bármikor beüthet a technika ördöge. De akkor hogy lehet, hogy mégsem, vagy legalábbis nagyon ritkán?

A Google szerint mindez három szóval magyarázható: Site Reliability Engineering (SRE). Ez egy csapat olyan fejlesztőt jelent, akik csak azért felelnek, hogy minden zökkenőmentesen működjön. A Wired szerint az SRE valójában egy jól alkalmazott filozófia, melynek lényege, hogy ha valaki egy netes szolgáltatást akar üzemeltetni, akkor annak a működtetését ne IT-üzemeltető szakemberekre, hanem programozókra bízza. A megoldást sokan használják a Szilícium-völgyben, de a Google alkalmazta először, bő egy évtizeddel ezelőtt. Azóta nem sokat beszéltek a megoldásról, a Google azonban nemrég kiadott egy könyvet a témában.

Google Design

Az első fejezetét az a Ben Treynor Sloss írta, aki a Google szolgáltatásainak folyamatos működéséért felelős részlet alelnöke. Az SRE kifejezést is ő alkotta meg, amikor a cég felkérte, hogy hozzon össze egy csapatot, ami üzemelteti a szolgáltatásokat. Sloss összehozta a szoftvermérnököket és a rendszer üzemeltetőit, ami azért is nagy dolog, mert a két tábort ellentétes érdekek vezérelnek. Míg előbbi csapat folyamatosan új megoldásokon dolgozik, utóbbi a hagyományos, de bevált és biztonságos módszerek mellett voksol.

Annak érdekében, hogy a lehetséges konfliktusokat csökkentsék a két tábor között, a vállalat nem törekszik arra, hogy 100 százalékban elérhető legyen, Sloss szerint ugyanis erre a felhasználóknak sincs szükségük. Ha azonban ezt akár csak 99,999 százalékra is lecsökkentik, máris sokkal nagyobb mozgásterük van arra, hogy kísérletezzenek.

Balázs Attila, Graphasel Design Studio

Ahhoz azonban, hogy a csapat ne váljon egy hagyományos értelemben vett rendszerüzemeltetővé, a Google elrendelte, hogy az idejük legalább 50 százalékát kódolással kell tölteniük, vagyis a fejlesztés a cégnél folyamatos.

Ahogy az SRE-könyvből kiderül, a módszer alapjait Margit Hamilton ihlette. A Massachusettsi Műszaki Egyetem szoftvermérnöki részlegének vezetője az Apollo-program egyik űrhajója számára is készített programot. Egyik alkalommal a kislánya véletlenül benyomott egy gombot, ami az indítás előtti programot töltötte be egy olyan gépre, ami a kilövés utáni állapotot modellezte. Emiatt a folyamat teljesen megakadt, így Hamilton megpróbált egy új hibaellenőrző kódot beépíteni a rendszerbe, ami repülés közben megakadályoz egy hasonló tévedést.

Google

Az alkalmazására végül az Apollo 8-nál volt szükség, de összességében ennél is fontosabb az a fajta szemlélet, amit Hamilton ezzel képviselt. Az MIT-s szakember ugyanis nemcsak azt volt képes megmondani, hogy mi csúszhat félre a működésben, hanem azt is, hogyan lehet azt megakadályozni. Nagyjából ez az a szemlélet, amit az SRE is képvisel.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!