Obecně se při návrhu distribuovaných systému předpokládá, že síťové volání je rychlé a spolehlivé. Což je nesprávný předpoklad.

Kdysi v dávných dobách, ještě než začala být moderní microservisová architektura, se distribuované systémy propojovaly pomocí technologie CORBA. Jedna z hlavních myšlenek, která mě tehdy zaujala, byla: Programátor by neměl řešit, zda volání metody je lokální, nebo zda se pouští kód na vzdáleném serveru. A skutečně, v kódu se volala metoda na stub objektu a to, zda šlo o vzdálené volání se nastavovalo v konfiguraci. Tenkrát mi to připadalo jako dobrý nápad – napíšeme kód a z něho pomocí konfigurace uděláme distribuovaný systém. Problém se ale objevil záhy.

Síť jako zdroj problémů

Brzy jsme zjistili, že aplikace je velmi pomalá. Pokud programátor neví, že volá vzdálený systém a takové volání vloží do cyklu FOR, vznikne pomalý kód. Důvod je ten, že navázání spojení a transformace dat nějakou dobu trvá a pokud voláme metodu, jejíž zpracování je rychlé, může se snadno stát, že režie na síťové volání je vyšší než režie na samotné zpracování metody.

Síťové volání však přináší další problémy, které nejsou na první pohled zjevné. V případě poruchy sítě může dojít k zamrznutí systému, nebo dokonce k poruše integrity dat.

Zavoláme síťovou službu, spojení se naváže, ale už nedostaneme žádnou odpověď. A spojení je stále aktivní. Pokud nemáme nastaven správně timeout, můžete čekat neomezeně dlouho. Při použití nějakého Java web serveru je počet vláken omezen. Postupným snižováním volných vláken systém degraduje, až nakonec zatuhne.

Takto se mi podařilo shodit kompletně celý backend, včetně všech mobilních aplikací, které se na tento backend připojovaly. Zajímavé je, že externí monitorovací systém nic nehlásil, ačkoliv měl – programátor monitorovacího software zřejmě udělal stejnou chybu jako já – neměl ošetřený timeout.

Dalším problémem je, že v distribuovaném systému přicházíme o pohodlné databázové transakce. To se často podceňuje. Kvůli tomu stále hrozí ztráta konzistence dat. Jeden z příkladů: Pokud zavoláme vzdálenou službu, může se stát, že systém požadovanou akci zpracuje a při posílání odpovědi spadne spojení. Požadovaná akce se sice provede, ale my dostaneme chybu. Protože si myslíme, že akce neproběhla, zavoláme systém znovu a dojde k dvojitému volání.

Pokud volání navyšuje například kredit na účtu, tak jsme právě přišli o konzistenci. Jedno z řešení je posílat unikátní identifikaci požadavku (UUID) a vzdálený systém bude ignorovat volání, které již zpracoval. Řešení je jednoduché, ale je otázka, zda si toto nebezpečí programátor uvědomuje a umí ho správně ošetřit.

Dopad sítě na aplikaci

Čím více je aplikace provázána vzájemným voláním, tím větší je riziko, že problém na síťové vrstvě se projeví negativně na celé distribuované aplikaci. Pak si můžeme klást otázku, zda nějaký drobný problém v komunikaci nezpůsobí kaskádovitě kolaps celé aplikace. A pokud dojde k obnově spojení, zvládne se aplikace sama zotavit? A zůstane integrita dat v pořádku?

Na tyto otázky se nejlépe odpoví tak, že se to prostě zkusí. Problém je, že tyto nestandardní stavy sítě se špatně testují. Hledal jsem tedy nějakou možnost, jak jednoduchým způsobem tyto případy otestovat. Cílem bylo vytvořit proxy, která je mezi testovanou aplikací a okolním světem. A proxy by narušovala spojení a simulovala by možné problémy sítě.