Vlákno názorů k článku Instrukční sady SIMD a automatické vektorizace prováděné překladačem GCC (3) od tzl - Podobné věci jsem viděl naposledy dost dávno, a...

Článek je starý, nové názory již nelze přidávat.

26. 3. 2025 7:52

tzl

Podobné věci jsem viděl naposledy dost dávno, a tehdy se - aspoň u těch char* nulování - řešilo speciálně "dozarovnání" na kulaté adresy, aby ty vícebajtové instrukce pracovali na "přirozeném" bloku. Proč to už není potřeba? Už to je procesoru jedno, nebo už jsou zarovnané i char*? Nebo to zarovnávání vždycky byl jen cargo kult?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 3. 2025 8:49

Pavel Tišnovský

Zlatý podporovatel

Ona instrukce MOVUPS má +- třikrát větší latenci než MOVAPS, takže ty výsledné programy nejsou úplně dobré. Ale tady překladač zjistil, že než si nějakými bitovými operacemi řešit zarovnání začátku a konce třeba 32bajtového pole, tak bude lepší tam vrazit dvě MOVUPS. Cargo kult to není - vždycky se narazí na šířku datové sběrnice.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 3. 2025 9:19

tzl

Myslel jsem původně i ten stosq příklad, ale teď na to koukám pořádně a tam to zarovnání vlastně dělá - zapíše první, poslední, a pak zarovná přes and -8 a jede.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 3. 2025 10:05

Pavel Tišnovský

Zlatý podporovatel

ano, tam to dela. Sice zvlastne, ale dela (zkusim, jak to vyresi u pole vetsiho nez stranka pameti - tam by asi nemel provadet zapis posledniho prvku hned na zacatku, tim zmate cache).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 3. 2025 11:55

cc

Mezi MOVAPS a MOVUPS už dlouho není rozdíl, pokud cílová adresa je zarovnaná, takže safe je použít unaligned instrukce, protože když adresa je aligned, tak k žádné penalizaci nedojde. Naopak MOVAPS je dobré použít tam, kde je opravdu očekáváné, že adresa je zarovnaná, protože CPU se postará o SIGBUS v případě, že tomu tak není.

Pokud je ale nějaký cyklus dlouhý a pracuje s jedním polem, je lepší pointer zarovnat manuálně, protože pak CPU nemusí kombinovat více cache lines dohromady (tady klesá IPC) - nejhorší je ale page split - pokud chci unaligned read/write, který je někde mezi 2 pages, tak tam je penalizace o řády větší než pár cyklů (nemluvím o případném page fault).

Obecně říct, že latence unaligned vs aligned je 3x horší ale dnes nejde, pokud člověk nezmíní konkrétní mikroarchitekturu. Třeba když CPU podporuje 2x512-bit fetch, tak buď to budou 2x512-bit aligned a nebo 1x512-bit unaligned (kde se fetch udělá 2x). Takže latence pořád může být 1 cyklus, ale už není možné udělat další paralelní fetch.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 3. 2025 12:22

Pavel Tišnovský

Zlatý podporovatel

pravda, dneska už to asi není 3x horší. My to měřili někdy u i5, když jsme ještě neměli AVX-512 na pracovních stanicích (na ntb. není dodnes). Fakt je, že překladač dává MOVAPS jen když si je jistý (pomůžeme překladači), jinak - jak píšeš - to pěkně zpanikaří.

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Instrukční sady SIMD a automatické vektorizace prováděné překladačem GCC (3) od tzl - Podobné věci jsem viděl naposledy dost dávno, a...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

Strojové učení slibuje rychlejší a levnější vývoj baterií

Malware, ransomware a další online hrozby: Jak se liší?

Agentické nakupování mění pravidla e-commerce

Budoucnost Office, digitálního pracoviště a e‑shopů

Kdy a jak podat přiznání, aby vám přeplatek vrátili co nejdřív?

Google Pixel 10a má plochý design a vylepšenou odolnost

USA chystají web na obcházení blokací obsahu

AI se snaží promlouvat i do stavebnictví

Co chceme od AI asistentů? Návrhy odpovědí a třídění pošty

Stát dá svobodu důchodcům, které držel ve III. pilíři

Paramount získal Warnery a Netflix na tom vydělal

Zahrávají si ČEZ či E.ON s čínským ohněm?

Deset kroků pro maximální zabezpečení Google účtu

Pojišťovny zneužívají lenosti svých klientů. Ti za to platí

Registrace zaměstnance od 1. dubna 2026 pro účely JMHZ

Lidl Outlet opustil Olomouc a zamířil na sever Moravy

10 důvodů, proč lidi nenakoupí na vašem e-shopu

V USA povolili terapii Optune i pro léčbu rakoviny slinivky

Je tu první vydání magazínu CIOtrends v tomto roce

Výjimka z EET je nejmenším OSVČ k ničemu, hodí se ale podvodníkům