Vlákno názorů k článku Specifické vlastnosti procesorů AArch64: základní instrukce od klokan - Díky za zajímavý článek. Vlastně se divím, proč...

Článek je starý, nové názory již nelze přidávat.

1. 3. 2022 22:01

klokan

Díky za zajímavý článek. Vlastně se divím, proč má Aarch64 zároveň MOV a nulový registr, když v tom případě by se místo MOV X1,X2 mohlo dělat ADD X1,X2,XZR a ušetřila by se tím jedna instrukce. Matně si vzpomínám, že na některých architekturách to tak je (že by MIPS?)

A připadá mi škoda, že když už navrhli celou novou ISA, tak zůstali u 128 bitového SIMD. Mít 256 bitové registry jako AVX by bylo umožnilo pracovat se 4D vektory ve dvojí přesnosti, což by se zrovna u grafiky docela hodilo.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 3. 2022 22:13

cc

AArch má mov jen pro immediate (konstanty), ostatní mov instrukce jsou jen aliasy jiných instrukcí (ADD, ORR, možná další).

AArch má SVE/SVE2, což je rozšíření, ve kterém délka vektoru není známá. Ale jo, místo 64-bit a 128-bit SIMD mohli už tehdy navrhnout 128-bit a 256-bit - možná by SVE nebylo pak potřeba.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 3. 2022 2:38

klokan

Díky za vysvětlení
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 3. 2022 4:35

kvr kvr

This instruction is an alias of ORR (shifted register).
The equivalent instruction is ORR Wd, WZR, Wm.

SVE/SVE2 jsou spíš na numerické výpočty, AI apod, a tam ani 4*SIMD nestačí. Neon je pořád dobrá varianta na 3D grafiku (i když třeba na násobení pole vektorů maticí by taky bylo SVE užitečné) a 3D grafika si obvykle vystačí se single precision.

Vtipné je, že i přes fixed length instrukce je třeba kód pro násobení 4*4 matic kratší než x86_64 nejlepší varianta v AVX-512 - aarch64 to tam vyhrává díky instrukci vfmaq_laneq_f32, která násobí vybraným prvkem vektoru, navíc u x86_64 s každou verzí roste počet prefixů pro rozlišení instrukce. Kdysi jsem experimentoval: https://github.com/kvr000/zbynek-cxx-exp/blob/master/simd/matrix-multiplication/src/main/cxx/MatrixMultiplicationBenchmark.cxx#L439-L460 . Na rychlost ale stále o cca 60% zaostává (nebo zaostával v době aktuální pro měření)...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 3. 2022 8:24

atarist

Nestaci pro AI kratsi floaty?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 3. 2022 10:20

cc

SVE2 má plně nahradit ASIMD (NEON) - aspoň tak to popisuje samotný ARM.

V X86 už moc prostoru pro další prefix není (existuje tuším už jen jediný byte). Takže EVEX je asi jeden z posledních :)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 3. 2022 10:34

klokan

Ledaže by ten poslední byte znamenal, že následující byte volí z dalších 256 možností ;)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 3. 2022 10:37

atarist

Uff, už tak je to děs a hrůza...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 3. 2022 10:49

cc

To je v podstatě EVEX prefix: https://en.wikipedia.org/wiki/EVEX_prefix

1 byte prefix + další 3 bytes je payload.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 3. 2022 8:06

Pavel Tišnovský

Zlatý podporovatel

Je to přesně jak píše **anonacct**. Já to ještě nezmiňoval, protože jsme si zatím vystačili s mov registr, konstanta, ale přesně tak - mov registr, registrs je pseudoinstrukcí. Stejně jako třeba CMP=SUBS s výsledkem ukládaným do XZR. Assemblery to rozpoznají (to asi není překvapivé), ale i disassemblery taky (objdump atd.) a to je fajn v praxi.

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Specifické vlastnosti procesorů AArch64: základní instrukce od klokan - Díky za zajímavý článek. Vlastně se divím, proč...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

MeshCore je bezdrátová síť nejen pro mimořádné události

JMHZ a změny v daních z příjmů v roce 2026 a 2027

Windows budou důkladněji chráněny před AI agenty

Pálení žáhy zhoršuje nevhodná večeře. Vadí přejídání i kafe

OSVČ senioři letos v přehledech uplatní slevu na pojistném

Malware, ransomware a další online hrozby: Jak se liší?

Nejen daňové přiznání, OSVČ musí podat elektronicky přehledy

Lidé si mohou nechat zdarma vyšetřit znaménka, zrak i cukr

Počet nových pracovních míst prudce klesá

Sailfish OS na Sony Xperia 10 III: seznámení a instalace

Příspěvek na produkty spoření na stáří a daň z příjmů

Handicap proměnila v úspěšný byznys, učí ženy nosit paruky

V USA povolili terapii Optune i pro léčbu rakoviny slinivky

České firmy pod náletem kyberútoků. Počet vzrostl o pětinu

Agentické nakupování mění pravidla e-commerce

V Evropě roste zájem o alternativu k Microsoftu, říká Petra Novotná

Daňové přiznání 2026: Termíny, novinky a změny

Výjimka z EET je nejmenším OSVČ k ničemu, hodí se ale podvodníkům

Analýza rozebrala moderování Jílkové v Máte slovo

Strojové učení slibuje rychlejší a levnější vývoj baterií