Koukam, ze po FLOPS se nasla nova metrika umoznujici ukazovat jeste vyssi cisla - AI OPS :) Aneb FLOPS (32-bit) vs. AI OPS (4-bit). Nekde se ti lidi z marketingu prosadit musi, no...
Jo je v tom docela zmatek. U nastupující generace RTX 5000 jsem to rozepsané nenašel, ale u přdešlé RTX 4000 pak mají zvlášť uvedena tři čísla - Shader Cores (TFLOPS), RT Cores (TFLOPS) a Tensor Cores (AI TOPS). Přičemž to poslední hausnumero bude nejspíš INT8.
U těch datacenter modelů pak mívají pěkně rozepsané specifikace včetně všech obvyklých numerických typů, různé délky akumulátorů atp.
Ale asi je to logické, že i u GeForce vypichují tohle, spousty lidí si dnes kupuje drahé karty primárně kvůli lokálním modelům, inferenci. Microsoft to uvádí ve specifikacích na Copilot PC, specifikují to výrobci APU, mobilních SoC, akcelerátorů jako Hailo. INT8 je zvolen nejen proto, že je to největší číslo, když nezvolíš prefix peta :), ale protože ho podporují všichni. Byť i to samozřejmě z hlediska reálného výkonu bude zas velice orientační a odvozené čistě z teoretického počtu MAC operací, neřeší to velikost a topologii paměťí, délku batche, pokud se dá použít atp.
Jeste u AI TOPS byva zminka zda se jedna o plnou matici, nebo sparse matici .. holt je ukolem vytvorit vetsi cislo na papire :D Zatim to byvavalo INT8 tedy.
Prespristi generace bude mit vykon v EXORs namosti v TFLOPs :D
Stejně jako AMD to zatím nemají. Ale jak se říká, "Dej si pozor na to, co si přeješ. Může se to vyplnit." :)
7. 1. 2025, 12:05 editováno autorem komentáře
V případě Nvidie to buď bude s visačkou na prodej, nebo v tom bude háček.....
Nvidia je bohatej korporát, co to nějak musí vybrat...
Ale k otázce, pokud máte GPU Turing a vyšší, tak je otevřený ten out-of-tree kernelový modul - https://github.com/NVIDIA/open-gpu-kernel-modules
Jsou dostupné hotové balíčky včetně těch proprietárních věcí okolo do spousty distribucí.