Vlákno názorů k článku
Ubuntu nebude kompilovat všechny balíčky s -O3 od cc - ětšina zpomalení je způsobena patrně zvětšením binárek a...

Článek je starý, nové názory již nelze přidávat.

31. 3. 2025 16:56

cc

ětšina zpomalení je způsobena patrně zvětšením binárek a agresivním vkládání funkcí (function inline), což zvětšuje tlak na registry a vyrovnávací paměť.

A jak si autor představuje, že by "tlak na registry" mohl mít vliv na zpomalení programu? I když bude program menší, tak "tlak na registry" bude pořád stejný. Každá dnešní moderní architektura používá register renaming, takže "tlakem" to asi nebude...

Vysvětlení je přitom mnohem prostší - co způsobuje tak masivní zvětšení binárky? Je to inlining funkcí, jak je psané v článku, a nebo spíš loop unrolling? Ono totiž když compiler unrolluje všechny loopy v programu, které třeba běžně mají jen pár iterací, tak tam je právě problém - kód bude celkově větší (unrolling znamená extra prolog/epilog - "tlak" právě na instruction cache) a aby ten unrolling dával smysl, tak se musí amortizovat počtem iterací. Takže pokud compiler běžně unrollne loopy, kde je počet iterací minimální, tak to stojí jak strojový čas tak i extra instruction cache.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
31. 3. 2025 19:53

dan8

Možná tomu moc nerozumím, ale když se unrollne loop, tak pak může být rozpracováno více "iterací" najednou. Tím se také použije více registrů najednou a pokud v nich byly proměnné, které se budou dále využívat, tak se pak musí znovu načíst. Takže možná proto větší tlak na registry?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
31. 3. 2025 21:00

cc

To ale musí všechno spočítat překladač. Pokud loop potřebuje 8 proměnných a existuje jen 16 registrů, tak moc nemá cenu pokoušet se o unrolling, pokud se nejedná o nějakou autovektorizaci třeba, kde se použijou jiné registry (SIMD).

Ale překladače v tomto opravdu chybují, a problém je, že loop unrolling se dělá mnohem dřív než alokace registrů, takže se stává, že před transformací je program "perfektní", ale po transformaci už chybí registry. Každý unroll stojí i nějaké GP registry, protože prolog/epilog (popř. lead/tail loop) potřebuje většinou vlastní counter, popř. pokud se dělá alignment tak jsou potřeba nějaké dočasné registry, které nemusí být k dispozici a nebo sice jsou k dispozici, ale funkce bude potřebovat větší prolog/epilog (pro save/restore non-clobbered registrů).

Já bych osobně doporučil nastudovat si direktivy (#pragma), napsat si makro (#define NO_UNROLL ...) a přidat to k cyklům, které nikdy nechci unrollovat. Clang tomu rozumí, GCC někdy jo a někdo ne... MSVC nevim.

BTW: Dnešní kompilery umí i "rematerializaci" - to je obejítí znovunačtení tím, že se obsah registru znovu vypočítá (třeba pokud C = A + B, ztratím C, tak si ho můžu znovu vypočítat a vyhnout se uložení a načtení do/z paměti).

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Ubuntu nebude kompilovat všechny balíčky s -O3 od cc - ětšina zpomalení je způsobena patrně zvětšením binárek a...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

Stát dá svobodu důchodcům, které držel ve III. pilíři

V čem se EET 2.0 liší od EET 1.0? Přinášíme velké srovnání

Ještě mi nevrátili peníze za Markétu a už je tu EET zas

Malware, ransomware a další online hrozby: Jak se liší?

Registrace zaměstnance od 1. dubna 2026 pro účely JMHZ

EET není český výmysl. Zjistěte, kde za účtenku můžete vyhrát auto

Budoucnost Office, digitálního pracoviště a e‑shopů

Co chceme od AI asistentů? Návrhy odpovědí a třídění pošty

Deset kroků pro maximální zabezpečení Google účtu

T-Mobile má za sebou v tuzemsku pozitivní rok, rostly tržby i zisk

Česko se přímo podílí na evropské strategii pro čipy

Konflikt na Blízkém východě: informace pro turisty

Český startup ukazuje, že na AI modelech lze vydělávat

Útok AirSnitch dovoluje překonat izolaci klientů na Wi-Fi

Majetkové přiznání dalo ministrům současné vlády zabrat

Nový model OpenAI kóduje 15krát rychleji než jeho předchůdce

AI jako soudce – zákon na prvním místě

Pojišťovny zneužívají lenosti svých klientů. Ti za to platí

Google uvádí Gemini 3.1 Pro a přidává působivé benchmarky

Pálení žáhy zhoršuje nevhodná večeře. Vadí přejídání i kafe

Vlákno názorů k článku
Ubuntu nebude kompilovat všechny balíčky s -O3 od cc - ětšina zpomalení je způsobena patrně zvětšením binárek a...