Názory k článku Podpora SIMD (vektorových) instrukcí na RISCových procesorech

Zasílat nově přidané názory e-mailem

Článek je starý, nové názory již nelze přidávat.

18. 10. 2022 8:45

atarist

Stale premyslim, jak udelat "autovektorizaci" v jazycich nejak vic automatizovane a idiomaticky. Asi proste jazyk fakt musi mit vektorove a maticove operace a navic i jiny zapis smycek, aby to fungovalo. Myslim tim, ze jak jazyk, tak i programator budou vedet, co chteji.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
18. 10. 2022 9:01

linuxák

AI frameworky (např. PyTorch) to řeší zavedením datového typu Tensor, což je n-rozměrný vektor a s tím se autovektorizace dělá docela dobře.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
18. 10. 2022 9:27

atarist

Jo to vypada na urovni nd-array v NumPy, co jsem se dival. Vcetne typu, pekne.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
18. 10. 2022 9:55

Pavel Tišnovský

Zlatý podporovatel

Chybí tam sémantika pro výpočty se saturací, pack+unpack a tak. Ale to se do jazyka přidává dost blbě, jedině jít cestou APL a Unicode operátorů :-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 10. 2022 0:55

Calculon

Například Julia má zvláštní typ VecElement, přes který se zajištuje využití SIMD v LLVM.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
18. 10. 2022 19:15

alex6bbc

ted bude pekne jeste najit implementaci nasobeni matic, kde jsou simd instrukce a k tomu ty efektivni metody z nasobeni matic co tu byly nedavno na rootu :-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 10. 2022 13:32

Pa??w0rd1

Musí se najít pěkná knihovna :-)
Některé OS mají takové knihovny již implementované ve svém systémovém API. Třeba v C a nebo Swiftu ;-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 10. 2022 13:59

atarist

tak pro matice 3x3 apod. asi nema cenu volat api ne? :)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 10. 2022 20:36

kvr kvr

Má, pořád je to 27 násobení (nebo 64 pro 4*4 matice, které jsou obvyklejší). I s overhead na call se to může vyplatit. Lepší je samozřejmě napsat a zkompilovat větší kus kódu pro různé architektury. Pro představu, násobení matic 4*4 nebo matice a vektoru 4*4 :

_ref je přímý výsledek kompilátoru, _novec se zakázanou vektorizací. x86_64 (laptop, Intel Core i7): matmult_ref : 22.27 cycles, avg 24.28 cycles, 197.229 MOPS matmult_novec : 57.42 cycles, avg 58.07 cycles, 82.652 MOPS matmult_Avx512 : 7.03 cycles, avg 7.66 cycles, 626.281 MOPS vecmult_ref : 3.96 cycles, avg 4.15 cycles, 1156.402 MOPS vecmult_novec : 14.36 cycles, avg 14.54 cycles, 330.136 MOPS vecmult_Avx512 : 1.46 cycles, avg 1.69 cycles, 2846.387 MOPS aarch64 (Graviton 3): matmult_ref : 21.97 cycles, avg 22.67 cycles, 110.261 MOPS matmult_novec : 34.18 cycles, avg 34.81 cycles, 71.806 MOPS matmult_NeonPar2 : 7.93 cycles, avg 9.35 cycles, 267.375 MOPS matmult_SveSingle : 4.44 cycles, avg 7.04 cycles, 369.560 MOPS vecmult_ref : 3.28 cycles, avg 3.86 cycles, 647.590 MOPS vecmult_novec : 6.56 cycles, avg 6.73 cycles, 371.362 MOPS vecmult_NeonPar2 : 1.91 cycles, avg 2.27 cycles, 1102.215 MOPS vecmult_Sve : 0.40 cycles, avg 0.48 cycles, 5411.007 MOPS

Kompilátor něco zvládne, ale i u takhle malých matic či vektorů může být rozdíl mezi autovektorizací a kódem pro složitější architekturu několikanásobný. Autovektorizace u kompilátoru je typicky spíš na úrovni SSE, možná AVX-2.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 10. 2022 20:54

atarist

ah vidis, ja mam porad (bez mereni) nejak v hlave, ze volat univerzalni algoritmus z nejake knihovny pro neco tak malyho bude spatny, ale nevypada to tak (spis jsem tedy myslel nasobeni vektoru matici - proste transformace, ale o tom se vlastne nebavime - muj problem)

Btw ty pocty cyklu ve druhem sloupci se nejak pocitaji? Ze to nejsou cela cisla...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 10. 2022 21:21

kvr kvr

Transformace je u těch vecmult. Ale je to násobení pole vektorů, takže ten call overhead se tam docela ztratí.

Ten první je nejlepší zaznamenaný čas na krátkém vzorku, nikoliv jednom prvku, i tak je náchylnější na chyby. Avg je průměrný čas přes celé měření. Většinou by měly být přibližně stejné, ale Avx-512 a SVE na Graviton 3 ten výkon dlouhodobě neudrží.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 10. 2022 21:25

atarist

Diky!

Jak vidis celou tu situaci okolo AVX-512? Je to takova ... divna vec celkove, ale asi vykon zvysi, kdyz se clovek snazi (jakoze nesnazi :).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 10. 2022 23:22

kvr kvr

Je tam dost užitečných operací navíc, takže je to zlepšení. Že se to přehřívá - expert nejsem - jestli je to vysoký počet velkých registrů (které se prostě nedají v normálním kódu nejspíš využít) nebo ten CPU nestíhá takové množství operací. Zvláštní je, že Apple M1 zvládá ty operace rychleji i s jenom 128-bitovým Neon a paradoxně i ten strojový kód je podobně velký. Ale Apple M1 je už zase na lepším výrobním procesu, takže není úplně korektní je porovnávat.

Takže se spíš přikláním k tomu, že primární brzdou bude ta 50 let rozšiřovaná CISC instrukční sada, se kterou už nic udělat ohledně superscalar nepůjde a Intel i AMD ji budou muset zahodit.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
20. 10. 2022 7:49

atarist

Diky za nazor!

Mu nazor - nezahodi :) Asi nikdo z toho neni nadsenej, ale pokud je "neprejede" ARM nebo RISC-V, a to dost brutalne, tak si pojedou svuj 8086 kod porad dal :/
- Zobrazit celé vlákno

Zasílat nově přidané názory e-mailem

Názory k článku Podpora SIMD (vektorových) instrukcí na RISCových procesorech

Dále u nás najdete

Průvodce novým vyhledáváním v éře AI. Co musíte vědět o GEO

Proč přichází éra suverénních datových center?

Po Black Friday přichází Cyber Monday. Jaká je jeho historie?

Billa zavírá svůj e-shop, hodně na něm prodělávala

Jurečka ohledně odvodů OSVČ, jejich zvýšení není v zájmu OSVČ

Kolik bude stát snížení záloh OSVČ? Každý tvrdí něco jiného

Zdravotní a sociální pojištění 2026 u OSVČ: Opět výrazný růst záloh

Nemoc koz ji dovedla k podnikání a založila přírodní lékárnu

Co nového přináší Securitytrends 4/2025?

Změny v sociálním pojištění v roce 2026 v oblasti zaměstnávání

Samořídicí vozítka začala doručovat jídlo v pražském Karlíně

Pupp, Ještěd, InterContinental: Poznejte slavné hotely podle fotek

Kdy se hodí a jak funguje prodloužená záruka

Huawei se ne a ne odporoučet z Česka a Evropy

Česká televize chystá projekt Tak moment pro mladé

V Praze jídlo rozváží roboti. „Kurýři nebudou mít co žrát,“ zní na sítích

Celková anestezie u zubaře bude na pojišťovnu, ale jen pro někoho

AI vyhledávání: Hrozí dezinformační vlna, pokud zaniknou důvěryhodné zdroje?

ESET HOME Security Premium - ochrana pro celou domácnost!

Mateřská 2026: Jak se zvýší dávka čerstvým maminkám