Vlákno názorů k článku
Xeony Granite Rapids v AI výpočtech až třikrát rychlejší při použití instrukcí AMX od JSH - Ví někdo, co OS dělá s těmi 16KiB...

Článek je starý, nové názory již nelze přidávat.

25. 9. 2025 9:21

JSH

Ví někdo, co OS dělá s těmi 16KiB registrů při context switchi? Je to nějak ošetřené pro tu drtivou většinu programů, co to nepoužívají?
Vlastně je to relevantní otázka i pro AVX. I u AVX-512 jsou to 2 kila.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 9. 2025 13:14

cc

AMX kód na konci používá TILERELEASE, což vymaže AMX konfiguraci. Pokud se AMX nepoužívá, tak context-switch nic neřeší, pokud se používá, tak se ten obsah těch registrů musí uložit, aby pak zase mohl být obnoven.

Jo, ještě jedna perlička - AMX může používat jen 1 thread jednoho jádra (ne ten druhý v případě MT), takže scheduler s tím taky musí počítat.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 9. 2025 20:50

Lael Ophir

No scheduler snad počítá s tím, že aplikace zavolá SetThreadAffinityMask() ve Windows, nebo processor_affinity() na Solarisu. Na Linuxu nevím, ale předpokládám že i tam už existuje obdobné API.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 9. 2025 22:40

cc

To by nevádalo smysl. Použití AMX může být někde v nějaké knihovně, která přece nebude nic říkat scheduleru a ovlivňovat tím aplikaci - scheduler si to musí pořešit sám na základě toho který process/thread používá AMX.

AMX je jen CPU extension, nic víc.
25. 9. 2025, 22:41 editováno autorem komentáře
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 9. 2025 1:25

Lael Ophir

Aha. Na prvním místě je možné AMX používat na obou HT threadech jednoho jádra. Nedojde k problému, jenom jde dolů výkon. Vizte kapitolu 20.17.2 v linku.
https://kib.kiev.ua/x86docs/Intel/Intel-OptimGuide/355308-003.pdf

Na druhém místě mi nebylo jasné, jak se scheduler dozví, že thread použil AMX. Při vytvoření threadu se v registru XCR0 zakáže podpora AMX (a obdobně to funguje u AVX). Když thread poprvé použije AMX instrukci, dojde na trap (NMI) #NM (Device Not Available, 0x07, původně používaný když není k dispozici matematický koprocesor), kernel následně v nt!KiNpxNotAvailableFault zapíše do struktury KTHREAD flag HasUsedAVX512, AMX povolí, a navrátí řízení na příslušnou instrukci. Tím se zároveň zapne podpora AMX u instrukcí použitých při přepínání kontextu, ze skupiny XSAVE/XRSTOR. Konkrétně XSAVES má formu optimalizace, kde ukládá kompaktní formu. No a zbytek je černá magie scheduleru: thread s flagem HasUsedAVX512 se nechává co nejdéle běžet na konkrétním fyzickém jádru, na druhý HT thread se nevěší AMX ani latency-sensitive workload, atd. Vše psáno v kontextu Windows; na Linuxu to bude nejspíš dost podobné.

Takže ano, převážně jste měl pravdu. Díky za nasměrování na zajímavý topic.

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Xeony Granite Rapids v AI výpočtech až třikrát rychlejší při použití instrukcí AMX od JSH - Ví někdo, co OS dělá s těmi 16KiB...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

Máte plné zuby AI? Firefox má řešení

Špionáž v Googlu a phishing na Signalu

Malware, ransomware a další online hrozby: Jak se liší?

30 % nákladů díky AI dolů, ale nuda v práci jde nahoru

Apple opravil bezpečnostní chybu, která byla v iOS od verze 1.0

Hackeři útočí přes e-mail, prahnou po přihlašovacích údajích

Pálení žáhy zhoršuje nevhodná večeře. Vadí přejídání i kafe

V Evropě roste zájem o alternativu k Microsoftu, říká Petra Novotná

Domén s koncovkou .CZ přibývá, většina je podepsaných

Google Pixel 10a má plochý design a vylepšenou odolnost

V USA povolili terapii Optune i pro léčbu rakoviny slinivky

EET není český výmysl. Zjistěte, kde za účtenku můžete vyhrát auto

Daňové přiznání 2026: Termíny, novinky a změny

Registrace zaměstnance od 1. dubna 2026 pro účely JMHZ

Notepad++ opravil chybu zneužívanou k šíření malware

Počet nových pracovních míst prudce klesá

Z evropského koláče chytrých telefonů ukusují Apple a Honor

Navazující a souběžná zaměstnání pro účely JMHZ

Co chceme od AI asistentů? Návrhy odpovědí a třídění pošty

MeshCore je bezdrátová síť nejen pro mimořádné události

Vlákno názorů k článku
Xeony Granite Rapids v AI výpočtech až třikrát rychlejší při použití instrukcí AMX od JSH - Ví někdo, co OS dělá s těmi 16KiB...