Vlákno názorů k článku Od instrukční sady SSE k sadě SSE2 od atarist - SSE2 už vypadá hodně použitelně. První SSE bylo...

Článek je starý, nové názory již nelze přidávat.

13. 3. 2025 9:30

atarist

SSE2 už vypadá hodně použitelně. První SSE bylo jen pro floaty. Trošku by mě zajímal důvod, tedy typické use casy. Jako floaty jsou asi fajn, ale většina vývojářů mastí double "protože to je přesnější" :-)

Mimochodem (už to tady zaznělo) - jak to zvládají optimalizovat překladače?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 3. 2025 9:55

cc

Tak důvod proč první SSE a pak SSE2 je aby Intel prodal nové CPU co toho umí víc - stejně tak rozdíl v AVX a AVX2 (tam šel Intel jak přes kopírák a přitom AVX nebylo vůbec potřeba, stačilo rovnou AVX2, tak jak potom šel Intel cestou AVX-512)

Překladače umí SSE2 dobře, ale problém je ten, že SSE2 je snad nejmíň vybalancovaná SIMD ISA co existuje, takže překladače potřebujou většinou SSE4.1 a nebo nejlépe AVX2/AVX-512 aby byly schopné vůbec něco autovektorizovat.

Ono by bylo hezké to srovnat s NEON, který až na shuffling a pár specialit je podobný SSE4.1 a má i hezké bonusy (třeba rozsáhlé widening / narrowing operace).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 3. 2025 11:33

Pavel Tišnovský

Zlatý podporovatel

tak AVX-512 je tak trochu v podání Intelu mrtvá věc :/ takže překladačům to asi moc nepomůže. Ale AVX2 je fajn, sice strašně rozsáhlá, ale fajn.

Hele na NEON a to RISC V rozšíření se chystám v budoucnu.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 3. 2025 12:06

PEAK

SYN+ACK

https://github.com/fraunhoferhhi/vvenc/issues/127

A to som len naflákal pár prepínačov len tak avec plaisir.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 3. 2025 13:09

Pavel Tišnovský

Zlatý podporovatel

diky!
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 3. 2025 14:27

cc

AVX-512 je budoucnost, kterou Intel naservíroval AMD na stříbrném podnosu :)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 3. 2025 14:32

atarist

jak to myslíš? Jakože Intel navrhnul něco, co neumí implementovat a AMD to převzalo? No to by nebylo poprvé :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 3. 2025 15:36

cc

Myslím to tak, že Intel navrhnul AVX-512, investoval do marketingu a do vývojářů, aby se tato technologie dostala do klíčových oblastí, a pak si řekne, že AVX-512 nebude v consumer segmentu. Mezi tím vyrobí AMD celý line-up procesorů s výbornou implementací AVX-512 (Zen 4) a pak tomu nasadí korunu v podobě Zen 5, což je něco o čem se v Intelu ani nesní (ten výkon je tak enormní, že se dá hodně těžko saturovat).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 3. 2025 15:39

Pavel Tišnovský

Zlatý podporovatel

hele jj, já třeba taky podporu AVX-512 v i7 nemám, protože Intel :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 3. 2025 14:50

kvr kvr

Primární cíl SSE byla 3D grafika (hry) a tam float plně postačovaly a SSE rozhodně pomohlo. Skalární součin vektorů na jednu instrukci, násobení vektoru maticí na 4 + 3 instrukce (nebo jen 4 s FMA, které bylo až později), násobení matic na 16 + 12 instrukcí. U AVX-512 pak všechno za čtvrtinu.

Neon umí pro změnu multiply by lane - násobení vektoru vybraným prvkem z vektoru, které je pro násobení matic ještě lepší než shuffling.

Autovektorizace viz https://github.com/kvr000/zbynek-cxx-exp/tree/master/simd/matrix-multiplication - compiler "ref" je na stejné úrovni jako SSE. Ale některá měření jsou dost stará, chtělo by to vyzkoušet s novějšími kompilátoru a taky Gcc vs Clang (Gcc v tomhle bylo dlouho lepší, ale dnes to může být jinak).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 3. 2025 15:39

cc

Primární cíl korporací je aby lidi kupovali nové věci, proto SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, PCLMULQDQ, AVX, AVX2, FMA3, F16C, AVX-512, atd...

No a pak krok zpět v podobě AVX10. Tam to přestává dávat smysl no, to souhlas :)))
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 3. 2025 17:47

kvr kvr

Já bych tam nehledal konspirace, ty SSE chtěli zákazníci (nepřímo): původní MMX a hlavně 3D Now byly značně omezené, nejen velikostí, ale hlavně konfliktem s FPU. Ono původní x87 FPU bylo peklo samo o sobě. Takže první krok bylo SSE s cílem nahradit FPU a mít SIMD na float operace. V dalších defakto nahradili i MMX.

Další evoluce řeší jiné úlohy třeba v oblasti kryptografie, další optimalizace (FMA), atd, a hlavně růst. Intel nemohl uvést 512-bitové SIMD s 32 registry před 25 lety, když s ním má problém ještě dnes - v té době by AVX-512 snad znamenalo sálový počítač (trochu přeháním :-D ).

Podobnou evoluci má ARM - SIMD extension, Neon, SVE, SVE2. Risc-V jako relativní novinka je na tom líp - jestli jde správným směrem se ukáže později.

Intel ani nebyl první se SIMD - MIPS, Pa-Risc, Sparc je mělo dřív, pominu-li 1970s supercomputers.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 3. 2025 20:39

cc

Když vezmu AArch64, tak NEON je vcelku kompletní a hlavně je tam balanc (stejné operace pro různé datové typy), kdežto Intel to lepil jak mohl a ta cesta byla hodně dlouhá (SSE2, SSE3, SSSE3, SSE4.1, SSE4.2).

Třeba zaokrouhlování (ne SIMD, i scalar) bylo implementované až v SSE4.1 - tak dlouho musel člověk čekat aby měl obyčejný round-to-even nebo floor/ceil i pro skalární float/double a nemusel jít přes FPU nebo volat nějakou libc funkci, která to nějak implementovala, většinou bez FPU...

Porovnání integerů nebo třeba tak základní operace jako je MIN/MAX různých datových typů, to se opět objevilo až v SSE4.1, porovnání 64-bit integeru až v SSE4.2!

Za mě celkem bordel a nepochopitelné omezení v původním návrhu SSE2 ISA, které je s náma dodnes (protože když člověk nespecifikuje rozšíření při kompilaci, tak většinou dostane ten kód co využívá max. SSE2, protože SSE2 je baseline pro X86_64 ISA).

BTW nikdy jsem nepsal, že mělo být rovnou AVX-512. Jen jsem psal, že SSE/SSE2 mělo být rovnou SSE2, a AVX/AVX2 mělo být rovnou AVX2, protože jinak to vůbec nedává smysl. Toho kódu jen pro SSE zase tolik nebylo (umělo to jen float, což není moc použitelné), a pro AVX platí to samé - není všechno jen float, člověk potřebuje i jiné operace pro většinu kódu. Výsledek je takový, že kódu co využívá AVX bez AVX2 moc není, protože to je opruz psát a spravovat, když můžu rovnou použít AVX2.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 3. 2025 11:52

Pavel Tišnovský

Zlatý podporovatel

chystám úvodní článek do problematiky autovektorizace. Asi zpočátku jen GCC, ale uvidíme.

Vlákno názorů k článku Od instrukční sady SSE k sadě SSE2 od atarist - SSE2 už vypadá hodně použitelně. První SSE bylo...

Dále u nás najdete

Malware, ransomware a další online hrozby: Jak se liší?

Stát dá svobodu důchodcům, které držel ve III. pilíři

AI jako soudce – zákon na prvním místě

AI se snaží promlouvat i do stavebnictví

Je tu první vydání magazínu CIOtrends v tomto roce

Kdo se bude moct vyhnout EET a co bude muset splnit?

Zmatky u superdávky: přerušeno, zpracovává se a kdy dokládat

Majetkové přiznání dalo ministrům současné vlády zabrat

Jaké screeningy vám lékař doporučí po padesátce

Registrace cizinců podle JMHZV praxi

Nervózní Microsoft začal v ČR žehlit Trumpův chaos

10 důvodů, proč lidi nenakoupí na vašem e-shopu

Registrace zahraničního zaměstnance pro účely JMHZ

Proč mají vysavače mikrofony? Omylem ovládl tisíce vysavačů DJI

V USA povolili terapii Optune i pro léčbu rakoviny slinivky

Rostoucí cena operačních pamětí zásadně zdražuje počítače

Lidl Outlet opustil Olomouc a zamířil na sever Moravy

Český startup ukazuje, že na AI modelech lze vydělávat

Konflikt na Blízkém východě: informace pro turisty

Paramount získal Warnery a Netflix na tom vydělal