Nová IT architektura


Měníme hardwarovou a softwarovou infrastrukturu WebSupportu tak, že během několika týdnů nezůstane nic při starém. S plánováním projektu jsme začali už v listopadu 2012. Chceme se proto s vámi podělit o průběh našeho rozhodování.

WebSupport rostl rychle, dokonce tak rychle, že jsme se mu nestačili přizpůsobovat ani my, ani servery. Škálovat IT takové firmy je výzva, která však časem přerostla do enormní spotřeby času a energie na provoz. Jsou to problémy, se kterými se menší webhostingové firmy nepotkaly, takže škálovat IT znamenalo častokrát vymýšlet úplně nové řešení, protože to, co funguje v menším měřítku už nemusí fungovat ve velkém. WebSupport už přesáhl hranici 110 serverů a rychlým růstem v uplynulém období stoupla prudce i jeho komplexnost.

Dostupnost služeb a komplexnost IT jsou provázané veličiny a není tajemstvím, že jsme s tím měli problém. Aktuální stav výpadků přitom nebyl až tak špatný, jak se možná jevil. Pohybujeme se stále na úrovni 99,9% dostupnosti.

Vždy jsme ale považovali za důležité o těchto událostech s našimi klienty komunikovat, a to i když šlo o menší / kratší nedostupnosti našich služeb. Na základě těchto zkušeností jsme koncem října 2012 dospěli k závěru, že k vyřešení všech našich problémů je nutné vyměnit naše IT. Kompletní výměna IT je drastický a komplikovaný krok, který se běžně neděje, my jsme však potřebovali přetnout břemeno historie, které nam zvyšovalo komplexnost a snižovalo flexibilitu. Zároveň jsme chtěli povýšit IT na zcela novou úroveň aplikováním nejlepšího know-how, které jsme za uplynulé roky nasbírali.

Konzultovali jsme to i s odborníky zvenčí, se kterými jsme vytvořili „IT advisory board“, která nám jednotlivé návrhy komentovala. Tím to jim všem veřejně děkujeme za večery strávené ve WebSupportě. Speciální poděkování patří Mariánu Hanzelovi, který nám pomohl prolomit některé stereotypy v uvažování a začít tak na „zelené louce“.

Ve hře bylo 6 dodavatelů, kteří nám nabízeli různá řešení. Po náročných 5 měsících příprav, analýz, počítání a diskusí s managementem jsme dospěli k finálnímu řešení.

Novou platformu postavíme na diskovém poli FAS 3250 od NetApp s čistou kapacitou 60 TB vrstvené úložné paměti, čili nejčastěji používaná data budou dostupná přes enterprise SSD disky, zbytek na 96 x 900GB SAS discích.

NetApp FAS 3250 - ilustrační obrázok

Výpočetní sílu bude obstarávat Blade řešení od společnosti Dell (M1000e) v podobě 24 ostrých žiletek Dell PowerEdge M620. Srdcem těchto žiletek jsou dva procesory Intel Xeon E5-2680 na frekvenci 2.7 Ghz. Na základě PassMark benchmarku jsou tyto procesory přibližně 2x výkonější než naše nejčastěji používané procesory Intel Xeon E5620 2.4 Ghz. Plošně tak navýšíme výkon všem službám. Každá žiletka ponese 192 GB RAM.
Pro zajímavost: První server, se kterým jsme začínali poskytovat naše služby, měl parametry 1000 Mhz, 256 MB RAM a 40 GB místa.

Dell PowerEdge M620 -ilustračný obrázok
Samozřejmě, že takové řešení vyžaduje mezi sebou propojení. Zvolili jsme jako core switche řešení od firmy Cisco Catalyst 4500x a vše je propojeno 10Gbit ethernetem.

Nová hardwarová infrastruktura je naší největší investicí od dob založení WebSupportu, celé řešení stálo přes 9 000 000,- Kč. Prozradíme zatím tolik, že jako virtualizační platformu jsme si vybrali OpenStack, což bude pravděpodobně jeho největší instalace v okolí. Virtualizací získáme potřebnou flexibilitu, abychom mohli efektivněji reagovat na dennodenní nástrahy, které s sebou provoz přináší.

Pracujeme i na vysokém stupni automatizace, kdy již nebude konfigurace serverů řešena ručně, ale pomocí funkce CFEngine3, který zaručí stálost konfigurace, protože servery mají přirozenou tendenci vychylovat se z původní konfigurace.

Nová IT nám vytvoří stabilní, flexibilní základy, na kterých můžeme stavět a provozovat další služby. Homogenním prostředím odstraníme množství proměnných, které nám provoz ovlivňují, a konfiguračním managementem eliminujeme lidský faktor.

O dalších podrobnostech nové architektury a průběžném procesu migrace všech našich klientů vás budeme informovat v následujících týdnech.

Tak se těšte! Bude to super :-)


4 komentáře

Přidej něco
  1. 1
    Pari

    V jakém datacentru budou tyto mašiny umístěny? Pokud si pamatuji dobře, největší výpadek byl díky výpadku energie, což tyto stroje samotné nevyřeší, jen asi urychlí obnovu.

    Reply

    Vše máme umístěno v http://perpetuus.sk, kam jsme se přestěhovali po problémech s výpadky energie. Takže to je v současné době minulostí.

    Reply

  2. 2
    Tomo

    Hlavne aby ten Varnish furt nepadal.

    Reply

    Nemáme hlášeny nějaké problémy přímo s Varnishem. Nebo kde vidíte problém? Všeobecně výpadky občas máme. Ale to bude řešit také nová architektura.

    Reply

+ Přidej komentář