Musíme budovat odolné sítě pro svět plný hrozeb a AI, Peering Days 2025

2. 4. 2025
Doba čtení: 11 minut

Sdílet

Na konferenci Peering Days, která se konala 25. a 27. března v chorvatském Splitu, se odborníci z oblasti počítačových sítí sešli, aby hovořili o odolnosti internetových sítí, telemetrii a novinkách v NetBoxu.

Fredrik Korsback: Co stojí za hypem v AI networkingu?

Co se dozvíte v článku
  1. Fredrik Korsback: Co stojí za hypem v AI networkingu?
  2. Jac Kloots: Použití zdrojů pravdy k obohacení a porozumění síťové telemetrii
  3. Mark Coleman: Nové vlastnosti NetBoxu určené pro IXP/ISP
  4. Janos Gergely: Co je nového v BIX
  5. Marian Rychtecký: Co je nového v NIX.CZ
  6. Kaj Kjellgren: Budování odolných internetových sítí
  7. Darko Pintaric: DC North – Digitální budoucnost Chorvatska
  8. Monika Schneider: Co je nového ve VIX
  9. Gerhard Stein a Thomas Weible: Analýza spolehlivosti 800GE sítí

Už v roce 2020 se mluvilo o tom, že v souvislosti s AI budeme potřebovat více používat 400Gbps připojení k serverům. Už o rok později se mluvilo o 800Gbps přímo do GPU, dnes se mluví o 3200 Gbps a více. Ve světě běžných serverů jsme někde okolo 100 nebo 200 Gbps, ale u AI jsme o řád dále a nevíme, jak se to bude posouvat letos. Poskytovatelé infrastruktury se tomuto trendu musejí přizpůsobit.

V loňském roce Amazon koupil datové centrum poháněné jadernou elektrárnou. Energie je dnes nejdůležitějším prvkem celé infrastruktury, potřebujete energii a potřebujete jí hodně. Amazon pokračuje v investicích do energetiky a zaměřil se také na vývoj malých modulárních reaktorů (SMR). Dalším cílem je zajistit, aby současné reaktory zůstaly funkční a investovat do dalších zdrojů. Musíme zajistit, že máme dostatek energie, ať už ji vezmeme odkudkoliv.

AI způsobuje další významné zahuštění infrastruktury, je zásadním hybatelem současného hyper-škálování napříč segmentem. V současné době je možné postavit infrastrukturu s 20 000 GPU, v každém serveru je jich až osm a každý server je připojen rychlostí 8 Tbps. To dává dohromady petabitové datové toky napříč interní infrastrukturou. Taková infrastruktura už existuje a zákazníci ji používají.

Taková infrastruktura existuje uvnitř datacenter, ale příliš se neprojevuje navenek. Dovnitř pošlete video, tam ho převezme náročná AI, ale výstupem je zase jen nějaké upravené video. Například UltraCluster 2.0 obsazuje tisíce racků, stál miliony dolarů, ale navenek potřebuje jen několik stovek standardních 400Gpbs linek. Je třeba se ale zabývat tím, jak stavět podobné infrastruktury napříč několika datacentry, což vyžaduje rychlejší linky.

Amazon pracuje na tom, aby se navenek zbavil 100GE linek a přešel plně na 400GE. Už delší dobu nepoužíváme vůbec 10GE, protože se potřebujeme propojovat s okolím, které má 400GE. Propojování velkých sítí přes peeringová centra míří ke 400GE portům.

Jac Kloots: Použití zdrojů pravdy k obohacení a porozumění síťové telemetrii

Moderní sítě jsou velmi komplexní a zároveň kritické pro běh služeb. Tradiční monitoring nám dovoluje vidět, co se děje v naší síti. Vidíme provoz a špičky na jednotlivých portech, ale netušíme, co se vlastně děje. Observability (česky něco jako pozorovatelnost) nám umožňuje zjistit, proč se něco na síti děje a na základě toho můžeme vytvořit automatické procesy, které dokáží vyřešit řadu problémů samostatně.

Do sítě přichází spousta provozu, z něj sbíráme metadata a vytváříme z nich normalizované informace. V nich je pak možné pozorovat různé vzory a automatizovat detekci anomálií. Můžeme pak korelovat, jak spolu jednotlivé události souvisejí. Potřebujeme k tomu ale získat spoustu kontextu. NetFlow nám dává spoustu informací, ale jen málo kontextu. IP adresy, porty a protokoly nestačí. Je úžasné vidět, jak nám sítí tečou data, ale netušíme, co ta data znamenají.

Peering Days 2025

Máme k dispozici spoustu zdrojů informací jako jsou identity, orchestrace, databáze, servery, kontejnery, DNS, síťové prvky a podobně. Tyto informace je potřeba posbírat a utřídit. Můžeme je obohatit také o další externí data. Může jít například o geolokaci, tabulku BGP, identifikaci aplikací, informace o zranitelnostech, výsledky testů a další.

Například v případě pohledu na OTT video služby jasně vidíte, který zákazník prochází kterou částí sítě, jaké prvky při tom používá a které video služby při tom využívá. IP adresy a porty vám tohle bez kontextu neřeknou, tenhle pohled ale chápe každý. Kontext tedy úplně mění možnosti pohledu na data.

Problém je, že neexistuje jeden univerzální zdroj pravdy. Data existují, ale máme je rozprostřená napříč různými zdroji. Automatizace je může dát dohromady a pomocí API je vložit do centrálního systému a obohatit tak základní pohled na provoz. K tomu je možné využít řadu nástrojů, jen je třeba se ujistit, že žádná data po cestě nepoztrácíte. V roce 2025 není možné provozovat velkou síť bez podobného nástroje, který dovolí vašim týmům dělat správná rozhodnutí.

Mark Coleman: Nové vlastnosti NetBoxu určené pro IXP/ISP

NetBox je nástroj pro tvorbu zdroje pravdy pro sítě. Základní edice Community je k dispozici zdarma a jde o open-source software. Děje se toho tolik, že ani lidé hluboko ponoření do naší komunity nevědí o současných novinkách.

Novinkou uplynulého roku jsou Cirtcuit Groups, které dovolují sdružovat objekty do skupin okruhu. Ty je možné kategorizovat například podle lokality nebo jiných vlastností. Stejná verze přinesla také Rack Groups a Virtual Circuits (L2VPN), které dovolují přidat virtuální okruhy nad fyzické linky. Užitečné jsou VLAN Translation Policies, které dovolují sledovat překlady jednotlivých VLAN.

Pro NetBox je k dispozici obrovská hromada rozšíření. Obvyklým problémem je, že se můžete stát závislými na rozšíření, které spravuje jednotlivec a nelze se tedy spolehnout na jeho dlouhodobou podporu. NetBox tedy zavedl certifikační program pro vybraná rozšíření. Garantujeme u nich kvalitu, bezpečnost a kompatibilitu.

NetBox Discovery je komunitou vyvíjený agent, který dovoluje automaticky zjistit informace o sítích a zařízeních. Když začnu používat NetBox, mám prázdnou databázi. Tohle rozšíření vám pomůže začít a získat základní data.

V případě je nástroj NetBox Assurance, který dokáže průběžně porovnávat skutečný stav sítě se stavem v databázi. V obrovských a dynamických sítích se totiž může skutečný stav rychle rozejít s dokumentací. Assurance tyto nesrovnalosti okamžitě oznámí a vy tak můžete zasáhnout, dřív než dojde k výpadku nebo ohrožení bezpečnosti.

K dispozici je také celá řada integrací pro různé dodavatele síťových prvků jako VMware vCenter, Cisco CAtalyst Center, Juniper Mist, Microsoft DHCP. Můžete si také vytvářet svá vlastní, abyste získávali aktuální data o stavu prvků.

Pro další rozšíření datového modelu NetBoxu bude možné si vytvářet také vlastní typy objektů. Doposud bylo nutné psát si proto vlastní rozšíření. Brzy bude k dispozici mnohem jednodušší přístup, kdy bude stačit jednoduše definovat nový druh objektů. Bude to mnohem dynamičtější a umožní to přidávat do databáze další podrobnosti, které jsou pro vás důležité.

Janos Gergely: Co je nového v BIX

BIX sídlí v Budapešti a jde o neziskovou organizaci založenou v roce 1995. Špičkový datový tok skrz peeringové centrum za posledních deset let vyrostl z 200 na 1000 Gbps. Letos jsme se tak stali součástí terabitového klubu. Stále je ale spousta velkých sítí, které v BIX nepeerují.

Jedním z kroků, jak počet sítí rozšířit, je nový Pop ve Vídni, který je síťově vzdálen asi 4 ms. Vedou do něj tři 400GE linky, které zatím používáme jen ve své infrastruktuře. V případě zájmu bude možné v budoucnu 400GE linky nabídnout i klientům.

Pro další růst bude potřeba, aby byl BIX zajímavý finančně, ale i technologicky. Původní 10GE porty už nejsou zajímavé, je třeba přejít na vyšší rychlosti a optimalizovat využití portů. Podstatné je rozhlížet se, učit se a reagovat.

Marian Rychtecký: Co je nového v NIX.CZ

NIX.CZ má nové kanceláře v datacentru pod Žižkovskou věží. Náš reakční čas se tím výrazně zkrátil, máme datové centrum doslova o patro níž. Na Peering Days bylo možné jako obvykle používat aplikací Meet, kterou vyvíjí právě NIX.CZ. Umožňuje propojovat lidi na konferenci a sjednávat si schůzky. Už jsme ji nasadili na 25 různých setkáních po celém světě. Ve Splitu bylo takto naplánováno více než tisíc setkání jednotlivých účastníků.

Novinkou v rámci peeringu je pak zavedení podpory RFC 8950, který umožňuje používat IPv6 next-hop pro IPv4 prefixy. V současné době toho využívá asi desítka sítí a jsou s tím velmi spokojeni.

Kaj Kjellgren: Budování odolných internetových sítí

Odolnost systémů znamená odstranění kritických bodů způsobujících selhání, použití různých technologií, rozdělení na nezávislé lokality a použití redundantních vrstev. Když něco o Vánocích umře, musí služby běžet dál. Důležité je uvědomit si závislosti jednotlivých součástí a jejich dopadu na celý systém.

Například velký švédský operátor postavil velkou celostátní síť, která ale měla DHCP v jednom datacentru ve Stockholmu. Vlastně to byl jen jeden server v jednom racku. Když vypadla část sítě ve Stockholmu, nedostal žádný zákazník IP adresu a byl konec.

Okolo roku 2000 dali všichni velcí švédští operátoři všechna optická vlákna do stejného tunelu. V roce 2013 došlo v tomto tunelu k velkému požáru, který zasáhl stovky metrů vedení a zamořil tunel toxickými látkami. Na mnoho týdnů bylo centrum hlavního města bez internetu a telefonů.

Proč se odolnost nezabudovává do sítí od jejich úplného počátku? Všichni stavějí co nejlevněji, protože odolnost pro ně není byznysově zajímavá. Zákazníci nechtějí platit více za odolnost. Vznikají proto rozhodnutí, která se z dlouhodobého hlediska zdají být velmi hloupá.

Do věcí zasahují překvapivě také geopolitkcé otázky. V osmdesátých letech probíhala studená válka a společnost byla velmi odolná, protože byla připravená na různé problémy. Pak padla Berlínská zeď a následně Sovětský svaz. Další krizí bylo prasknutí internetové bubliny. V průběhu všech těchto událostí rostlo rozšiřování internetu, ale klesala odolnost společnosti. Všichni jsme prostě začali používat internet.

Poté ale přišly další problémy jako zmíněný oheň v tunelu nebo ruská invaze na Krym. Takové události způsobí šok a společnost si uvědomí, jak jsou její důležité infrastruktury neodolné. Když přišel Covid-19, začali všichni pracovat z domova. Bylo ale potřeba posílit velkou část infrastruktury. Skvělé bylo, že internetová komunita začala spolupracovat a důležité součásti byly velmi rychle posíleny.

Pak přišla v roce 2022 válka na Ukrajině, což vede k dalšímu velmi rychlému posilování klíčových systémů. Denně vidíme obrovské DDoS útoky, hackerské akce a další bezpečnostní hrozby. Přizpůsobujeme se jim velmi dobře, ale potřebovali jsme hodně rázné probuzení.

Když stavíte sítě skutečně robustně, může to vypadat z počátku směšně. Když jde všechno dobře a nic dramatického se neděje, jste za podivíny, protože se připravujete na neexistující problém. Poté ale přijde krize a všichni ostatní začnou panikařit. Všichni mají plán, dokud nedostanou ránu do zubů, říkal Mike Tyson.

Jak ale takovou odolnost financovat? Všichni švédští operátoři musejí platit část svého příjmu státu, který tento balík peněz používá právě pro zvýšení odolnosti kritické infrastruktury. Je třeba se rozhlížet okolo a diskutovat o tom, co se děje v ostatních zemích a co můžeme použít my.

Operátoři by měli hlavně hlídat bezpečnost časových serverů, zabezpečit DNS, věnovat se routingu a přidat podporu RPKI do své sítě.

Darko Pintaric: DC North – Digitální budoucnost Chorvatska

DC North je nové datové centrum blízko Záhřebu, které je strategicky lokalizováno uprostřed tří redundantních optických křižovatek. Většina velkých chorvatských datacenter je umístěna přímo v Záhřebu, my jsme v jiné seismické oblasti.

Datacentrum nabízí šest sálů se 104 racky, zálohované napájení až do 4 MW a energetickou efektivitu s pPUE pod 1,14. Zaměřujeme se na bezpečnost, máme ochranku, přístupový systém a vy máte vždy přehled o tom, zda se někdo nesnažil získat přístup k vašim zařízení.

Datacentrum je připojeno k síti RETIN, peeruje v chorvatském centru CIX a má vlastní síťovou infrastrukturu napříč Chorvatskem a má vlastní propoje do Vídně a Budapešti. Celkem jde o 96 optických vláken, na kterých umíme až 800Gbps.

Monika Schneider: Co je nového ve VIX

Peeringové centrum VIX vzniklo v roce 1996, dnes má 170 členů a má tři lokality ve Vídni. Nemáme celou infrastrukturu v jednom tunelu, ale přes Dunaj přecházíme po různých mostech. Velkou změnou mezi lety 2020 a 2021 byl přechod s integrovaného šasi na jednotlivé „pizza boxy“, konkrétně Arista řady 7280. Jádro sítě tím bylo povýšeno na 400GE linky. V roce 2024 se síť přesunula do nového datového centra v rámci univerzity.

K propojení jednotlivých lokalit je v plánu nasadit pasivní WDM, konkrétně 400G-QSFP-DD. Máme to otestované, funguje to výborně, nepotřebujeme žádné zesilovače signálu. K tomu jsou ale potřeba nové síťové prvky, na jejichž dodávku se teprve čeká. Postupně tak budou aktualizovány klíčové prvky v jednotlivých uzlech. Univerzitní je dokončené, práce v druhém datacentru probíhají a ve třetím se připravují.

Nevýhodou nového řešení je chybějící podpora vyšších rychlostí než 400GE. Vyžaduje to bohužel spoustu propojovacích linek. V dlouhodobém plánu je postupně snížit počet 10GE portů pro připojení klientských sítí.

Gerhard Stein a Thomas Weible: Analýza spolehlivosti 800GE sítí

SNR (Signal-to-Noise-Ratio) je rozdíl mezi užitečným signálem a úrovní šumu pod ním. Síťoví inženýři se obvykle nedívají na tuto hodnotu, ale sledují spíše BER (Bit Error Rate), tedy počítadlo chybně přenesených bitů. Tyto dva údaje spolu ale souvisejí a je mezi nimi závislost.

Odborníci z firmy Flexoptics vzali různé optické transceivery a rozhodli se otestovat jejich vlastnosti. Musíte dávat pozor, abyste nezničili transceivery pro dlouhé vzdálenosti na příliš krátkých testovacích linkách. Musíte tedy nasadit špulky s desítky kilometrů vlákna nebo zeslabovače signálů.

Hodnota BER se obecně zhoršuje s rostoucí teplotou, u některých transceiverů dojde u konkrétní teploty k výpadku. Některé levnější DSP špatně snášejí vyšší teploty, obecně byste měli držet teplotu co nejníže. V laboratoři bylo potřeba otevřít testovací box, přidat na transceiver chladič ze starého switche a přidat větrák. Zařízení konzumuje spoustu energie a je potřeba se pak zbavit přebytečného tepla.

V teplotách do 65 stupňů se transceivery chovají velmi stabilně a hodnota BER se prakticky nemění. Co se ale stane, když půjdeme nad specifikace a zahřejeme transceiver nad 120 stupňů Celsia? Okolo 70 stupňů se hodnota BER výrazně zvýší, u 80 stupňů dojde k výpadku signálu. Zahříval jsem to horkovzdušnou pistolí na grilu, tohle doma opravdu nezkoušejte. Ve skutečnosti by byl transceiver schopen fungovat dál, ale zafungovala jeho teplotní ochrana a zařízení se vypnulo.

Zajímavým zjištěním je, že po obnovení chlazení sice teplota rychle klesla, ale hodnota BER byla desetkrát horší než předtím. Transceivery totiž měří hodnotu jako plovoucí průměr, takže aktuální stav závisí i na minulých hodnotách. Opravíte to odpojením a opětovným připojením, nebo musíte počkat, až se počítadla zase posunou v čase. Každopádně je potřeba to při měření vědět.

linux_sprava_tip

Při dalším zvyšování teploty nad 120 stupňů Celsia už došlo k poškození transceiveru, který sice dále odpovídal a byl schopen i svítit, ale jeho signál byl už velmi špatný a v praxi nepoužitelný. Závisí to ale na konkrétním hardwaru, tenhle konkrétní transceiver neměl teplotní ochrany a nevypnul se. Ke skutečnému výpadku došlo až okolo 175 stupňů Celsia.

(Autorem fotografií je Marko Iglić.)

Autor článku

Petr Krčmář pracuje jako šéfredaktor serveru Root.cz. Studoval počítače a média, takže je rozpolcen mezi dva obory. Snaží se dělat obojí, jak nejlépe umí.