Názory k článku
Ubuntu nebude kompilovat všechny balíčky s -O3

Zasílat nově přidané názory e-mailem

Článek je starý, nové názory již nelze přidávat.

31. 3. 2025 16:56

cc

ětšina zpomalení je způsobena patrně zvětšením binárek a agresivním vkládání funkcí (function inline), což zvětšuje tlak na registry a vyrovnávací paměť.

A jak si autor představuje, že by "tlak na registry" mohl mít vliv na zpomalení programu? I když bude program menší, tak "tlak na registry" bude pořád stejný. Každá dnešní moderní architektura používá register renaming, takže "tlakem" to asi nebude...

Vysvětlení je přitom mnohem prostší - co způsobuje tak masivní zvětšení binárky? Je to inlining funkcí, jak je psané v článku, a nebo spíš loop unrolling? Ono totiž když compiler unrolluje všechny loopy v programu, které třeba běžně mají jen pár iterací, tak tam je právě problém - kód bude celkově větší (unrolling znamená extra prolog/epilog - "tlak" právě na instruction cache) a aby ten unrolling dával smysl, tak se musí amortizovat počtem iterací. Takže pokud compiler běžně unrollne loopy, kde je počet iterací minimální, tak to stojí jak strojový čas tak i extra instruction cache.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
31. 3. 2025 19:53

dan8

Možná tomu moc nerozumím, ale když se unrollne loop, tak pak může být rozpracováno více "iterací" najednou. Tím se také použije více registrů najednou a pokud v nich byly proměnné, které se budou dále využívat, tak se pak musí znovu načíst. Takže možná proto větší tlak na registry?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
31. 3. 2025 21:00

cc

To ale musí všechno spočítat překladač. Pokud loop potřebuje 8 proměnných a existuje jen 16 registrů, tak moc nemá cenu pokoušet se o unrolling, pokud se nejedná o nějakou autovektorizaci třeba, kde se použijou jiné registry (SIMD).

Ale překladače v tomto opravdu chybují, a problém je, že loop unrolling se dělá mnohem dřív než alokace registrů, takže se stává, že před transformací je program "perfektní", ale po transformaci už chybí registry. Každý unroll stojí i nějaké GP registry, protože prolog/epilog (popř. lead/tail loop) potřebuje většinou vlastní counter, popř. pokud se dělá alignment tak jsou potřeba nějaké dočasné registry, které nemusí být k dispozici a nebo sice jsou k dispozici, ale funkce bude potřebovat větší prolog/epilog (pro save/restore non-clobbered registrů).

Já bych osobně doporučil nastudovat si direktivy (#pragma), napsat si makro (#define NO_UNROLL ...) a přidat to k cyklům, které nikdy nechci unrollovat. Clang tomu rozumí, GCC někdy jo a někdo ne... MSVC nevim.

BTW: Dnešní kompilery umí i "rematerializaci" - to je obejítí znovunačtení tím, že se obsah registru znovu vypočítá (třeba pokud C = A + B, ztratím C, tak si ho můžu znovu vypočítat a vyhnout se uložení a načtení do/z paměti).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
31. 3. 2025 18:07

Xhv11

Mám nějakou dobu na stejném ssd nainstalovaný CachyOS a EndeavourOS s KDE. Bohužel žádný vizuální velký rozdíl v rychlosti nevidím.
Ano CachyOS má některé skvělé vychytávky, možná je měřitelně o něco rychlejší ale to je vše. Oba to jsou skvělá distra.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
31. 3. 2025 18:37

mikrom

tu je zaujimavy clanok o optimalizacii -O2 vs -O3 :
https://medium.com/@techhara/compiler-optimizations-can-be-tricky-ee323415e6a
31. 3. 2025, 18:37 editováno autorem komentáře
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
31. 3. 2025 21:53

Pa??w0rd1

Jo a nejzajímavější je ta věta začínající „Update: …“ (na konci).
Ale k témanu Loop unrolling je pěkné toto: https://yashwantsingh.in/posts/loop-unroll/
31. 3. 2025, 21:58 editováno autorem komentáře
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
31. 3. 2025 21:15

LolPhirae

Hmmm, tak si nějak pamatuju, že tyhle optimalizační pošuky posílali v Gentoo bugzille do kosočtverce cca tak už před 20 lety. 🤣
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
31. 3. 2025 23:11

Zdeno Sekerák

-O3 jsme zavrhli prakticky hned po prvnim testovani
Jo slo nektere veci osetrit pres #pragma ale to je cesta do pekel. Prekladac by nemel menit funkcionalitu kodu, coz se u -O3 deje.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 4. 2025 4:32

m1x

Prekladac by nemel menit funkcionalitu kodu, coz se u -O3 deje

Nejsem v obraze.

1) Bylo by možné být konkrétnější?

2) Chápu to tak, že po kompilaci s -O3 se to chová jinak než s -O2 . Chápu to správně?

3) Dělá to s -O3 něco, co je sice jiné ale podle normy pořád ještě přípustné, nebo to normu porušuje?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 4. 2025 8:16

bez prezdivky ...

Snazi se to telepaticky hadat zamysl tvurce, coz v pripade ze je tvurce ubervelebridil. muze nektery veci zasadne zrychlit ... ale ve vsech ostatnich pripadech to vede k presne opacnemu efektu.

Je to zhruba podobny tomu, jako kdybys do databaze pridal indexy pro kazdy jedno query (coz by se dalo delat zcela automaticky) a pak se divil, proc ty inserty jsou 1000x pomalejsi (a databaze 1000x vetsi), coz by byl dusledek.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 4. 2025 10:44

cc

Pokud vím, tak -O3 nic nemění. Pokud je kód napsaný blbě (UB), tak za to compiler ale nemůže. Naštěstí máme sanitizery, které používáme na CI, že jo!
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 4. 2025 16:27

fanoush

Hmm, myslim ze -Os je taky docela caste a ma dobre vysledky, divim se ze pred tim pouzivali -O2. Mate nekdo praktickou zkusenost s tim ze by kod s -O2 byl rychlejsi nez -Os?

Zasílat nově přidané názory e-mailem

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Názory k článku Ubuntu nebude kompilovat všechny balíčky s -O3

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

USA chystají web na obcházení blokací obsahu

Útok AirSnitch dovoluje překonat izolaci klientů na Wi-Fi

Začínající podnikatel: Základní termíny a marketing

Miliony webů nesplňují zákon o přístupnosti. Jaký hrozí trest?

Handicap proměnila v úspěšný byznys, učí ženy nosit paruky

Malware, ransomware a další online hrozby: Jak se liší?

České firmy pod náletem kyberútoků. Počet vzrostl o pětinu

AI jako soudce – zákon na prvním místě

Nedostatek vitaminu D se projeví nejen únavou

Školkovné se vrací. S jakou obměnou?

Ještě mi nevrátili peníze za Markétu a už je tu EET zas

Je tu první vydání magazínu CIOtrends v tomto roce

Nervózní Microsoft začal v ČR žehlit Trumpův chaos

Nedostatek vitaminu D se projeví únavou i špatnou náladou

10 důvodů, proč lidi nenakoupí na vašem e-shopu

Statistiky o ransomware, které jste asi neznali nebo si neuvědomili

Lidl Outlet opustil Olomouc a zamířil na sever Moravy

Sophos kupuje Arco Cyber, zpřístupní CISO organizacím

Pálení žáhy zhoršuje nevhodná večeře. Vadí přejídání i kafe

Domén s koncovkou .CZ přibývá, většina je podepsaných

Názory k článku
Ubuntu nebude kompilovat všechny balíčky s -O3