Vlákno názorů k článku Linuxová záplata na Spectre v2 způsobuje až 50% pokles výkonu od Rhinox - Resenim je proste se na HT vys*at! Bylo...

Článek je starý, nové názory již nelze přidávat.

23. 11. 2018 7:21

Rhinox (neregistrovaný)

Resenim je proste se na HT vys*at! Bylo to dobry jako takovej "falesnej" a levnej multiprocessing v casech, kde dvou-jadro bylo vrcholem nabidky. Dnes kdyz mam k dispozici i pro desktop levne 6-8 jadrove CPU uz HT nepotrebuju.

Pro vps-hosting to samy. Dnes jsou k dispozici levne >20 jadrove CPU, tak proc se trapit s HT a riskovat ze se objevi naka bambilionta verze spectre? Tohle je skratka slepa vetva vyvoje, a budouci generace CPU by mela byt bez HT. Narust vykonu minimalni, nestoji to za ty problemy...

btw, mam tady v praci 2x Xeon 4114 (20 cores + HT). Testoval sem na reseni velkejch soustav rovnic metodou ktera pekne skaluje s poctem CPU. Meril sem celkovej cas, a 20cores+HT bylo o ~3% rychlejsi, nez kdyz sem pouzil jenom 20cores. Naco tedy HT? Na nic! Pohrbit tuhle vec, a jede se dal...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 7:35

Petr M (neregistrovaný)

Ta tak. Kdyby vykopli HT a flákající se jednotky použili místo branch prediktoru tak, že se pojedou do rozhodnutí obě větve v rámci dvou pipelines. Pak výkon nezávisí na skoku (volí se jeden nebo druhý zpracovaný výsledek) a vnější pozorovatel vidí načtení cache za podmínkou ať je splněná, nebo ne. A nikdo cizí paralelně s taskem nesdílí stavový informace. A kernel při výměně threadu prostě musí uklidit tak jako tak.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 8:51

pc2005 (neregistrovaný)

Ale pokud se bude spekulovat nad víc než jedním větvením (1. větvení = 2 větve; 2. větvení = 4 větve atd. geometrická řada), tak by se podvětvení stále daly IMO nějak natrénovat.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 9:33

Petr M (neregistrovaný)

Větvení je problém kvůli pipeline, že se musí zahazovat co už je hotovo. Pokud je pipeline s 10 řezy, zpracovává 10 (mikro) instrukcí. Když se skok vyhodnotí jinak, těch 10 rozpracovaných instrukcí se zahodí. Branch prediktor se snaží tohle zahazování omezit.
Pokud za skokem další skok následuje po >= 10 instrukcích, vystačíš si s dvěma "pipelinama" pro zpracování, protože při další podmínce je už předchozí slepá větev zahozena.
Při < 10 instrukcích by se holt muselo v té větvi interně vložit pár NOPů, ale furt lepší tři NOPy, než zahozených 10 instrukcí.
Průšvih by to byl akorát v případě cyklu s <10 instrukcema, tam by se musel proložit NOPama a výkon by šel trochu dolů. Tam BP dává lepší výsledky.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 9:51

pc2005 (neregistrovaný)

Jo to by šlo. Co jiná vlastnost a to že pokud by dneska branch prediktor předpověděl dobře a zároveň pouze ve špatné (= nepředvídané a nepředpočítávané) větvi by bylo plnění cache, tak se ušetří tak stovky taktů kdy by se při špatné předpovědi muselo čekat na RAM?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 10:10

Petr M (neregistrovaný)

Tak pokud s bavíme o bezpečnosti, tak právě na tom, jestli se načte/nenačte cache stojí pěkná řádka útoků na CPU. Takže je na výběr - secure mode (= načte se vždycky, ale je to pomalejší a útočník nevidí rozhodnutí), nebo power mode (= NOPy do doby, než bude jistota, že jsou data potřeba).

Samozřejmě, že to není takhle bipolární. Když už data v cache jsou, zůstanou tam do doby, než v cache dojde místo. Takže pokud budu mít 1000 iterací cyklem a načítání až za ním, bez ohledu na BP se začne ládovat cache a pak se na ni nečeká takovou dobu na konci cyklu. Takže i v tom "secure mode" se to v tomhle případě trochu zrychlí.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 11. 2018 8:34

Vít Šesták

To je trochu falešné dilema. Spekulovat lze i transakčně, což je nejspíš směr, kam se nové CPU vydají. Do cache se data dostanou až po commitu. Ano, i to bude asi stát něco výkonu a znamená to si pro tento účel část cache vyhradit.

Tak mě napadá, další směr může být exkluzivní cache, jakou má/mělo AMD…
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 12:46

Peter Fodrek

tak ono ide urobiť pár vecí bez vetiev

napr. pre riadenie pohyby je možné nahradiť

if((pozicia>MAX) || (pozicia<MIN) ) rychlost=0

nahradiť kódom

rychlost =rychlost * sgn(sgn(MAX-pozicia)+1)*sgn(sgn (pozicia-MIN) +1)

A potom nikde nie je predikcia...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 13:36

Petr M (neregistrovaný)

A jak je implementováno sgn() ? Aby to nebylo
int sgn(int x) { if( x < 0) return-1; if( x > 0 ) return 1; return 0; }
Pak by to byla 8x podmínka + 4x skok do funkce + obecný násobení (celkem drahá operace) + 4x matematická operace. Optimalizace jak od hochů z M$.

Lepší je využít, že
1) Porovnání je odčítání
2) při prohození operandů odčítání dostanu opačný znamínko - rozdíl mezi menším a větším
3) MSB je znamínko a pro záporný číslo je 1
if( ( (max - pos) | (pos - min) ) & (1 << (8 * sizeof(int) - 1) ) ) rychlost = 0;
2x odečítání v roli porovnání (první je číslo, který má být větší), sloučeno ORem (na ničem kromě MSB nám u mezivýsledku nezáleží), ANDem vybrán bit pro znamínko (za ANDem je konstanta, kterou vybleje kompilátor - 1 << 31 nebo 1 << 63 podle velikosti INTu), takže 4x rychlá aritmetická/logická instrukce + 1x čtení konstanty + 1 skok při nenulovým MSB. Nazdar.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 15:54

JSH (neregistrovaný)

Proč tak komplikovaně? msb se dá otestovat porovnáním s nulou
if( ( (max - pos) | (pos - min) ) < 0 ) rychlost = 0;
a kód je stejný - sub, sub, or, cmov.

Ale stejně je lepší nesnažit se přechytračit překladač. Tohle
if( pos > max ) rychlost = 0; if( pos < min ) rychlost = 0;
vede na skoro stejný kód, akorát místo oru je tam druhý cmov. A aspoň je na první pohled jasné, co to dělá.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 11. 2018 9:30

Peter Fodrek

sgn() bude
x/abs(x);

S ošetrením NaN na nulu
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 11. 2018 14:58

x14

Do takové kraviny dávat skoky a dělení??
Toto je řešení:
(x > 0) - (x < 0)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 18:06

unicode (neregistrovaný)

Za normálních okolností to udělá sám překladač - Compiler Explorer
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 20:49

pc2005 (neregistrovaný)

Jo s cmov není potřeba skok.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 11:02

MasoxCZ (neregistrovaný)

Nesmysl. To je totéž jako tvrdit, že stejně nesmíš v ČR jezdit víc než 130, tak se všem autům vyndá z jednoho hrnce píst, aby to nikoho ani nenapadlo. Hardware prostě umožňuje efektivnější využití hardwaru a tím zvýšení výkonu výměnou za snížení bezpečnosti, takže ať si každý zvolí co mu s ohledem na jeho potřeby vyhovuje. Samozřejmě je lepší informovaný souhlas a jako výchozí bezpečnější nastavení, ale je kokotina to zatrhnout natvrdo jen proto, že jseš paranoidní a nechceš, aby v NSA viděli jak ti jdou miny a na jaký porno koukáš.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 11:41

Petr M (neregistrovaný)

Sice fajn myšlenka, ale problém je, že tady to přepnout prostě nejde.

Prodali ti bezpečnostní dveře, který sice odolají střelbě ze samopalu, ale nemají kvůli rychlejšímu otevírání zámek (hledání klíčů a strkání do dírky přece zdržuje) a ten se ani nedá doinstalovat. Tak se na ně montují petlice a když chceš zamknout zevnitř, musíš napřed ven oknem, odemknout a vrátit se oknem dovnitř. Což je mnohem pomalejší, než kdyby tam ten zámek dli rovnou.

A momentálně vývojáři přemýšlí, jak udělat do dveří díru, skrz kterou bys dosáhl na zámek u té petlice, aniž by utrpěla neprůstřelnost.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 11:49

MasoxCZ (neregistrovaný)

Jenomže oni to tak udělali proto, že to zákazníci chtěli, a pořádný dveře odmítali kupovat. Fakt pochybuju, že by IT a následně prakticky všechno bylo tam kde to teď je bez toho, že by posledních 20 let byly k dispozici dostupný procesory. Myslíš, že by v každý rodině byla SPARCstation a každej člen rodiny by měl v kapse SPARCphone, a jupíci by si před roštěnkama ve školní jídelně šudlali iSPARCmini?
Bylo by to na úrovni katolickýho školství v době Jiráskova Temna.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 11. 2018 8:30

Vít Šesták

Čmuchám nahrazení jednoho side channelu jiným… Zvlášť u vícenásobné spekulace.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 7:37

Mavi (neregistrovaný)

Súhlasím, HT je overrated. Skúšali sme paralelný fingerprint matching na 12 cores+ht a pri paralelizme 12 prestal výkon stúpať. HT som vypol na svojich všetkých masinach.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 7:52

Přezdívka? To jsou ale novinky.

Naposled jsem si místo 4 jádrové i5 koupil 6 jádrovou i5 a souhlasím, že Hyper Threading mi už mnoho let nechybí. Otázka je, dokáže někdo posoudit nakolik mi ty (nejenom ta poslední) záplaty zpomalí můj počítač, který stejně žádný HT nemá? Nebo to jádro pozná a tyhle hovadiny se bez HT nepoužijí?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 8:56

X! (neregistrovaný)

To by me taky zajimalo, jestli testoval nekdo ten patch i na nativnim non-ht cpu? Jestli se desit toho co jadro 4.20 prinese nebo byt v klidu:)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 12:48

MasoxCZ (neregistrovaný)

Nebude to náhodou záležet na architektuře konkrétního CPU? V hlavě to nenosím, ale pokud by cache byly mezi fyzickými jádry sdílené, tak si dovedu představit, že by některé varianty útoků mohly fungovat i bez HT.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 11. 2018 10:36

j (neregistrovaný)

2MasoxCZ: A samozrejme taky fungujou, protoze v CPU se sdili prakticky vse. V dalsim kroku se totiz bude resit, ze vsechny CPU pristupujou do stejny RAM. A kupodivu, si tam kazdej jeden muze precist a zapsat co chce a kam chce. A pak se s prekvapenim zjisti, ze to vsechno pouziva jeden disk, o kterym plati totez.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 7:57

MartinX (neregistrovaný)

Hyperthreading nie je urceny pre ulohy, ktore jednostranne vytazuju len urcity typ vypoctovyvh jednotiek v CPU ako je riesenie rovnic (FPU jednotky). HT vylepsuje celkovy vykon systemu, kde bezi mix rozlicnych uloh, ktore rovnomerne vyzivalju rozlicne typy jednotiek (FPU, integer, load/store...), vtedy sa da dosiahnut navysenie vykonu o 30-50%.
Je samorejme, ze "skutocne" jadro je ovela lepsie ako to z HT a suhlasim s tym, ze v pripade dostupnosti viacjadrovych procesorov straca HT postupne zmysel. Napriklad POWER8 procesor podporuje SMT8 (to je IBM nazov pre HT - Symetric Multithreading s 8 threadmi na core) ale da sa to v systeme (v AIXe) za chodu menit na SMT4, SMT2 alebo sa da HT uplne vypnut a administrator tak moze odladit vykon systemu podla uloh ktore tam bezia.
POWER9 sa uz dodava v dvoch verziach alebo s SMT8 alebo s maximalne podporovanym SMT4, ktory ma ale na cipe 2x viac jadier ako verzia s SMT8.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 10:22

Rhinox (neregistrovaný)

Tak mi rekni, jak dokaze beznej uzivatel vytizit cpu s 10 cores + HT? Samotne efektivni vyuziti 10 jader neni tak jednoduche, to musi byt aplikace specielne napsana a nekdy to ani nejde.

Tak naco ma byti na cpu s 10 cores jeste HT? Ja bych bral radsi 12cores bez HT za stejnou cenu (coz by snad plochou cipu mohlo byti +/- na stejno)...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 11:05

MasoxCZ (neregistrovaný)

dvě slova: Windows Update.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 12:36

Karel (neregistrovaný)

Běžný uživatel nevytíží ani deset jader. Chyba byla, že si vůbec takový procesor koupil. Zda to má nebo nemá HT na té chybě nic nezmění.

Tolik jader a ještě s HT si bude pořizovat někdo, kdo provozuje třebas virtuálky nebo webový server, který v jednu chvíli obsluhuje desítky požadavků. Prostě na něco, co samo o sobě obnáší desítky vláken, každé dělající něco jiného nebo v jinou chvíli.

Na paralelní výpočty je lepší maximalizovat počet jader * frekvence. HT pomůže jen v hodně specifických paralelních úlohách, které vyžadují jednotky, které jsou skutečně zdvojené (příkladem budiž zpracování textu). Jenže většina zátěže půjde po věcech jako jsou FPU a tam na sebe ta vlákna budou čekat, protože FPU je pomalejší než jedno vlákno. A obvykle jich tam není tolik, aby to upočítalo vlákna dvě.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 11. 2018 10:40

j (neregistrovaný)

Takvej beznej user si pusti trebas ... hru ... a takova hra mi naprosto klidne (netvrdim ze efektivne) sezere i 16 jader na 80+% ... a takovej benzej BFU ma 4/6/8 jader i ve svym patlafounu.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 13:40

MartinX (neregistrovaný)

Pri konverzii videa dokazem bez problemov vytazit 8 jadier na Ryzen 7. Verim tomu, ze by sa dalo vytazit aj 10 alebo viac jadier.
HT ma ale zmysel hlavne na servroch, kde bezia rozlicne typy uloh, kde ale zase kvoli bezpecnosti HT nie je vhodny :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 14:36

Rhinox (neregistrovaný)

A jakej rozdil v rychlosti konverze je, kdyz pouzivas HT, a kdyz HT zablokujes (i kdyz HT na AMD neni to same co HT na Intelu)? Kazdopadne ja osobne bych bral radsi 9 plnohodnotnejch jader, nez 8+HT...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 18:19

MartinX (neregistrovaný)

Neskusal som to, pretoze HT sa da vypnut len v BIOSe (nie ako vypnutie SMT v AIXe za chodu) a rebootovat sa mi nechce, ale tipnem si, ze rozdiel bude minimalny.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 11. 2018 10:41

j (neregistrovaný)

Rozdil bude v tom, ze ti i pri tom zatizeni system reaguje na podnety vs bude bez reakci.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 11. 2018 14:25

Noname (neregistrovaný)

Dobre napsana rekomprimace videa? Ta by mela umet vytizit libovolny pocet jader (proste tim, ze video rozseka na vic casti). A stejne tak i dalsi ulohy, ktere se daji rozsekat na vice casti.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 10:25

m&m (neregistrovaný)

Wow, sběrač kovu, já už jsem fyzický server neviděl ani nepamatuju :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 10:33

Rhinox (neregistrovaný)

Ja taky ne. Tohle je muj pracovni desktop! :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 11. 2018 13:06

Rudolf Dvořáček (neregistrovaný)

Vypnuti HT je ostatne take prvni vec, kterou na Intel based pocitacich delam.

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Linuxová záplata na Spectre v2 způsobuje až 50% pokles výkonu od Rhinox - Resenim je proste se na HT vys*at! Bylo...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

Malware, ransomware a další online hrozby: Jak se liší?

Prima v tichosti zpřísnila podmínky přetáčení reklam

Začínající podnikatel: Základní pojmy z účetnictví

Windows budou důkladněji chráněny před AI agenty

Pálení žáhy zhoršuje nevhodná večeře. Vadí přejídání i kafe

Na dotace na zateplení zapomeňte. Nová vláda vykleští NZÚ

Špionáž v Googlu a phishing na Signalu

Zahrávají si ČEZ či E.ON s čínským ohněm?

Strojové učení slibuje rychlejší a levnější vývoj baterií

30 % nákladů díky AI dolů, ale nuda v práci jde nahoru

Je tu první vydání magazínu CIOtrends v tomto roce

EET není český výmysl. Zjistěte, kde za účtenku můžete vyhrát auto

Handicap proměnila v úspěšný byznys, učí ženy nosit paruky

V Evropě roste zájem o alternativu k Microsoftu, říká Petra Novotná

AI jako soudce – zákon na prvním místě

Kdy a jak podat přiznání, aby vám přeplatek vrátili co nejdřív?

Příspěvek na produkty spoření na stáří a daň z příjmů

Sailfish OS na Sony Xperia 10 III: seznámení a instalace

České firmy pod náletem kyberútoků. Počet vzrostl o pětinu

V USA povolili terapii Optune i pro léčbu rakoviny slinivky