Tak zrovna u takového registru vozidel se stačí zeptat, kolik toho do teď vyřizují denně či měsíčně a získáte představu o tom, o jakém provozu je řeč. Větší poskytovatelé a poskytovatelé cloudových služeb nabízejí load balancery a škálování v podstatě v základu a pak, podle očekávání musíte zvolit odpovídající datové uložiště. Třeba takové, které umí fronty ... s tím ale souvisí to, o čem aplikace je. Např. odeslat sčítací formulář, zobrazit uživateli "Odesláno, občane", dát do fronty a nechat zpracovat by neměl být takový problém. Např. Elasticsearch zpracovává požadavky jako fronty by default a horizontální škálování je přímo usage by design. Pokud uděláte standardní web něco jako LAMP a vrazíte to na 4GB + SSD virtual u Wedosu, doškáloval jste ...
Ďábel se skrývá v detailech, takže záměrně nepíši nějaký seznam technologií - v práci používáme v této krajině AWS S2, Elalsticbeans a RDB + Elasticsearch (AWS), ale já nejsem sysadmin, takže úplné detaily neznám. Různá zákoutí jsou šílená, ale funguje to i na poměrně nárazové a objemné operace.
Základ je zjistit parametry - jinak budete škálovat Facebook v 150 zemích po planetě a jinak budete škálovat registr vozidel z poměrně jasnou a specifickou zátěží ... a nebo ne ;-)
27. 3. 2021, 12:27 editováno autorem komentáře
Problém je, když něco musíte ověřovat jinde. Ten registr vozidel (kromě diletantské chyby v nastavení DNS) havaroval na ověřování VIN v databázi kradených vozidel (provozuje PČR). Registr vozidel tu databázi položil
No a sčítání má údajně problém s ověřováním adres - to je taky něco, co provozuje někdo jiný.
Dá se předpokládat, že lidi a byty budou při sčítání součástí získávaných dat. Sčítání je ze zákona, tyhle data mít můžou, ať si právníci říkají cokoliv.
Pokud ty data mám, můžu je hodit do cache. To už je věc architektury a implementace.
Pokud je backend zabezpečený, další stroj nebo virtuálka uvnitř, schovaná za web serverem, by měla být z pohledu bezpečnosti OK, pokud si do ní nějaký hovado na home office neudělá přístup po telnetu a podobný hovadiny.
Odhadnout se to taky dá - pokud předpokádám 10k klientů současně a počítám, že normálně člověk dá 3 znaky/s, nemám cokoliv pod 30k hledání/s smysl. V těch ani ne gigabytech by to nějaká rozumná cache dala s prstem v nose, klidně i o řád nebo dva víc.
Takže za tohle může jen a pouze dodavatel. Sorry