Pokud je to tak, že zápaďáci trénují kompletní síť hrubou silou a DeepSeek si úlohy tematicky rozděluje a trénuje individuální podsítě, tak je to úžasná inovace a věřím že uvedené úspory jsou reálné. Něco jako byla revoluce v AI hrajícím GO.
Až do teď jsem LLM nikdy nepoužil, protože jsem si říkal, že se nebudu učit s něčím, co nevím kdy kdo zarazí/zpoplatní a spustit něco slušného doma bez investice ve statisících mi přišlo nereálné. Teprve DeepSeek vzbudil moji zvědavost natolik, že jsem ho vyzkoušel.
Na obstarožní mašině s FX-8320E, 32 GB RAM a Teslou P100 běhá model r1:32b vcelku přijatelně. Přesto že se model nevejde do GPU (má 20 MB), tak na něm GPU maká spolu se všemi jádry CPU. Je fakt sranda sledovat jak například zápasí s řešením rovnice cos(x)=x.
Větší model r1:70b se sice do kombinované paměti vejde (40GB < 16+32GB), ale na něm už maká jen CPU a je to boj o každé písmenko.
Pokud tedy důvtip umožnil fungování na tak starém HW, není divu že akcie BigAI a Nvidie padají a klidně můžeme říct "AI do každé rodiny!". :-)
PS: Mohl by vzniknout nějaký komunitní projekt na trénování AI. Něco ve stylu FAH.
Trošku opravím:
Mixture of Experts ("řídká neuronová síť"? asi?) není žádná čínská inovace, je to architektura používaná už od "pravěku" (cca dva roky zpět :), mimo jiné se tím proslavil evropský Mixtral, který měl 8 expertů po 7 miliardách parametrů. A stále má, stále je to velmi dobrý a funkční model vhodný i pro slabší hardware.
Matematici z DeepSeek inovovali proces učení řídkých sítí, kdy doposud byl problém se snižováním chyby po určité době. Modely tak dobře nekonvergovaly, proto se v praxi spíš používají klasické husté sítě.
To, co si doma zkoušíte, není DeepSeek R1, ale jeho destilace nad modelem Qwen2.5. Destilace znamená, že tím původním modelem (R1) vytvořili obří syntetický dataset, a na něm potom vycvičili nějaký úplně jiný model. Je to tedy jako kdybyste vedl rozhovor s Platónem, ale přitom tvrdil, že mluvíte přímo se Sokratem (Platónovým učitelem) :-)
Bohužel Ollama tyhle mini destiláty distribuuje pod označením "deepseek-r1" a tím klame uživatele. Opravdový R1 nebo V3 je o 1 až dva řády větší (cca 650 GiB VRAM plný osmibitový, použitelný kvant s nějakými 1.6 bity na parametr se vejde do 150 GiB).
Už ale máte nohu ve dveřích, není cesty zpět. To, co vidíte, nijak nevybočuje ze spektra schopností současných malých modelů. Ostatně máte před sebou obyčejný Qwen2.5, jen vycvičený aby emuloval DeepSeek R1. Pokud chcete zkusit opravdu dobré malé modely, phi4:14b je teď mezi těmi nejvýkonnějšími.