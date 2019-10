Vojtěch Pavlík: umřel Hyper-threading?

Pokud náš procesor má několik jednotek, dokáže vykonávat instrukce napřed. Když se procesor dostane na rozcestí, třeba je tam podmíněný skok, musí se rozhodnout, jestli půjde tam nebo jinam. Proto potřebuje výsledek podmínky, která rozhoduje, kam se má vydat. Ta může být poměrně složitá, může potřebovat nějaký výpočet. Procesor ale tyhle výsledky ještě nemá. Může se buď zastavit a počkat nebo se některé právě nepoužívané jednotky mohou jedním směrem vydat.

Může si tak udělat práci napřed, spekulativně, do zásoby. Co když to ale nakonec není správně? Procesor se snaží všechny důkazy zlikvidovat. Jenže se mu to nepodaří úplně, něco vždycky zbude. Není to nic, co by bylo architekturálně vidět, ale jsou ovlivněny třeba keše, do kterých je pak možné se podívat. To je paměť integrovaná v procesoru, která je velmi rychlá. Procesor si do ní ukládá svá data, aby je měl při příštím požadavku na jejich čtení rychle k dispozici.

Základem spekulace je takzvaný pipelining, tedy postupné zpracování, podobně jako na páse v továrně. Práce s instrukcemi je rozdělena na jednotlivé kroky: načtení, dekódování, spuštění, zápis. Na každém hodinovém tiku se provádí jedna z těchto věcí, ve skutečnosti je těch kroků mnohem více, takže budou trvat dlouho. Většinu času pak většina součástí procesorů stojí: když se instrukce načítá, všechny ostatní jednotky musí čekat. Bylo by možné takhle ale zpracovávat více instrukcí najednou: jedna instrukce se může dekódovat a jiná se zpracovává. Jako na běžícím pásu. Všechny jednotky pak běží zároveň a tím se nám znásobí výkon jen tím, že jsme lépe zorganizovali práci. Průšvih je, když nám do toho vstoupí skok.

Když výrobci procesorů nacpali do procesorů spoustu jednotek, zjistili, že jedno vlákno má v sobě příliš mnoho závislostí, aby efektivně využilo celý procesor. Virtuálně tak rozdělili procesor na dva, mezi kterými jsou skoro všechny části sdílené, kromě registrů. Tím ale založili na další problém, protože oba virtuální procesory sdílejí keš. Původně Hyper-threading zvyšoval výkon o několik procent, ale v moderních procesorech je tolik výkonných jednotek, že se získaný výkon blíží ke dvojnásobku. Skutečně se to tedy chová tak, jako byste měli dva procesory.

Pokud pak na jednom procesorovém jádře běží legitimní i útočný kód, je možné zneužít sdílenou L1 keš k tomu, aby útočník získával data z cizího procesu. Není to moc silný útok, útočník nemůže přečíst data z keše, ale může si měřením doby přístupu odhadnout, jaká data drží druhý proces. Postupně byly algoritmy upraveny tak, aby tento útok nebyl možný, protože jejich chování není datové závislé. Později se ale objevily nové typy útoku.

Každý proces má v paměti takzvanou page table, která mapuje virtuální adresní prostor na fyzický. To znamená, že při každém přístupu do paměti musí procesor nutně sáhnout do tabulky stránek a pak až do paměti. Z jednoho přístupu máme dva, to je dvojnásobné zpomalení. Proto byla zavedena TLB, translation lookaside buffer, což je vlastně keš pro tabulku stránek. Pokud už informace v procesoru je, je její příští použití velmi rychlé. Z toho vznikl útok TLBleed, kdy se dva procesory neperou o L1 keš, ale o informace v TLB. Útočník má možnost invalidovat obsah TLB a zjišťovat, co se do ní dostává z druhého procesu. Tento útok už je prakticky použitelný.

Součástí paměti stránek je také takzvaný supervisor bit. Když běžný proces potřebuje skákat do jádra, máme dvě možnosti: můžeme buďto přepnout tabulky stránek, vysypat TLB a po návratu vše vrátit zpět. Abychom to nemuseli dělat, můžeme do jednoho paměťového prostoru namapovat jak paměť procesu, tak i jádra. Proces ale do té části paměti nemá přístup, ten má naopak jen jádro. Pak není potřeba nic přepínat a je to velmi rychlé. Výrobci procesorů ale zavedli optimalizaci, kdy se nastavení bitu při spekulaci ignoruje a kontroluje se až při potvrzení správnosti spekulace. Je tak možné napsat program, který spekulativně přistupuje k paměti jádra a podle stavu keše přečte stav. Tomuto útoku se říká Meltdown a brání se mu pomocí KPTI.

Ukázalo se, že při spekulaci procesor zároveň ignoruje také present bit, který říká, že v dané paměťové oblasti nějaká data pro daný proces jsou. Nemůžete každému procesu alokovat všechnu jeho paměť při spuštění. Paměť se alokuje až při použití. Protože procesor při spekulaci opět bit nekontroluje, je možné takto přistupovat k cizí paměti. Tento útok se jmenuje L1TF (nebo Foreshadow), který je nebezpečný především pro virtualizační prostředí, kde si jeden virtuál může nastavovat vlastní L1 keš a tím si zvolit, ke kterým skutečným paměťovým stránkám bude mít přístup. Lze to řešit tím, že při přepínání vysypeme L1 keš, což sice stojí výkon, ale není to tak dramatické.

Horší je to v případě, že virtualizační stroj používá Hyper-threading. Keš je pak sdílená, takže je možné přistoupit k datům sousedního virtuálu. Proto se dnes pro virtualizaci doporučuje Hyper-threading vypnout, což ale znamená až poloviční ztrátu výkonu. Je to netriviální chyba v procesoru, ale bohužel je v praxi zneužitelná.