Keby len vlnu záujmu. Ono to spravilo 5%-tný výplach smerom dole na indexe NASDAQ100. Číňania tvrdili, že DeepSeek-R1 natrénovali s 2048 H800 čipmi NVIDIE, ktoré sú 2x"slabšie" ako H100 - kvôli exportným obmedzeniam. To vyvolalo paniku. NVIDIA padala, ASML, a nejaký energetický podnik v USA stratil 27% hodnoty svojich akcií. Dokonca sa niečo hovorilo aj o modulárnych reaktoroch - niektorí už začali hádzať flintu do žita - že to celé AI bude nakoniec potrebovať oveľa menej elektriny ako sa sprvu predpokladalo. Lenže potom prišla ďaľšia správa z Číny, nejaký manažér tvrdil, že namiesto 2048 H800 čipov sa použilo až 50 000 čipov, ktoré boli H100 a podľa exportných opatrení, by v Číne nemali čo hľadať. Takže teraz fakt neviem. Akurát pozerám NVIDIU je dole cca o 18%.
https://www.tradingview.com/chart/?symbol=NASDAQ%3ANVDA
https://www.datacenterdynamics.com/en/opinions/deepseek-and-the-generative-ai-perception-dilemma/
Dosť dobré video v češtine tu:
https://www.youtube.com/watch?v=nnGTBT1rqIs
Tomu že padal Google rozumím, protože to jejich Gemini je za konkurencí. Ale proč padala in Nvidia, to mi nejde do hlavy, když je to všechno trénované na jejich čipech. Jedno který model, zisky pro Nvidii budou tak i tak.
Asi ty lidské emoce, když to sebou vzalo i Bitcoin který s AI nemá nic společného.
No a práve to je ten problém. Ono sa objavila správa, že DeepSeek-R1 bol v skutočnosti natrénový pomocou až 50 000 čipov Nvidie typu H100 - a tieto čipy H100 - by nemali v Číne čo robiť kvôli exportným obmedzeniam. Dnes je utorok a akcie NVIDIE sa zotavujú veľmi ale veľmi pomaly. Tí, ktorí obchodujú akcie NVIDIE vo veľkom, majú tie najlepšie informácie a vidí sa mi to tak, že ani oni nevedia, čomu majú teraz veriť.
NVIDIA padala, preto lebo sa predpokladalo, že dobré AI sa dá natrénovať aj s menším počtom čipov od NVIDIE - čo logicky znamená potrebu oveľa menšieho počtu čipov NVIDIE - menšie zisky pre NVIDIU do budúcnosti.
Bitcoin klesol preto, lebo má silnú koreláciu s technologickým sektorom a Bitcoin sa stal rizikovým aktívom podobne ako akcie. Pred mnohými rokmi Bitcoin ponúkal diverzifikáciu, lebo mal malý korelačný koeficient - cena Bitcoinu išla vlastnou cestou. Teraz, keď sa do BTC sypú peniaze z ETF fondov - tak ak padajú akcie ide dolu aj BTC a vice versa. BTC je rizikovým aktívom predtým bol exotickým alternatívnym aktívom.
Ak, si bol longový na VISTRE nedajbože s pákou - tak veru ti nezávidím. Sledujem priebežne americké akcie najmä BIG SEVEN a tie otváracie gapy sú killer. Zrejme za to môžu blokové transakcie v takzvaných DARK POOL-och, kde ak vyschne likvidita, tak sa to navalí priamo na otvorený trh. A teraz, k tomu ešte pridajme vysokofrekvečné obchodné automaty, ktoré sa snažia na takýchto pohyboch priživiť a spôsobujú neskutočné sklzy v plnení - tak máme vymalováno.
Nesmíte věřit všem dezinformacím, které někdo vypouští. Však je to opensource a půjde to ověřit. A Číňani to vědí.
Hlavní média vypouští zhruba tolik dezinformací jako mnohá dezinformační média, jediný rozdíl je v tom, komu se tím prospívá. Bojuje a zpochybňují se jen ty nepohodlné dezinformace. Kolik že bylo článků na idnes třeba na téma, že má Putin vážnou nemoc v posledním stádiu? Já jsem napočítal 4 články na tohle téma jen na idnes. Všechny se časem ukázali jen jako dezinformace.
Kdybychom porovnávali kolikrát lže Zelenský a Putin tak fakt nevim nevim kdo by vyhrál. Oba lžou podobně, jen Zelenského se nikdo neodváží zpochybňovat.
Ja viem, ako myslel tú cenzúru. Aj keď nesúhlasím s jeho názormi, na root.cz cenzúra je. Admini sú partia boomerov, ktorí cherrypickujú, čo sa im hodí. Ja som sa dostal na zoznam, lebo nezdieľam miestne názory na inklúziu a rodovú rovnosť a kapitalizmus. Aby bolo jasné - Som za inklúziu, rodovú rovnosť a ľudské práva. Kapitalizmus považujem za nadávku.
28. 1. 2025, 12:38 editováno autorem komentáře
"cenzura" - kdyz tomu tak chcete rikat - prospeje k tomu, ze nebudou diskuze zaplevelene tematy off-topic, cili diskuze budou citatelne pro lidi, ktere ocekavaji diskuzi blikou zamereni portalu. Netouzim na Rootu cist o Putinovi, Zelenkym, Trumpovi, Fialovi, Babisovi. A troufam si rict, ze v tomhle nazoru budu ve vetsine. Uz je to srozumitelne ?
Jaká cenzura? Jde o nastavení toho, co uvidím já - ostatní ať si to nastaví jak chtějí.
A čemu prospěje? Mé zkušenosti diskutujícího a čtenáře :) argumentovat tím, že blokace agresivního offtopicu nevyhnutelně vede k potlačení svobody slova je směšné.
Trollí vřískot, že je musí každý poslouchat, jinak jde o cenzuru, je sám o sobě důvodem zařazení na black list.
Můj příspěvek vadí hlavně proto, že s ním nesouhlasíte.
Má myšlenka je ta, že argument: "Údajný manager řekl, že se údajně používaly jiné chipy než se oficiálně uvádí" může snadno být dezinformace. A demonstruji, že prozápadních dezinformací je v oběhu také hodně. Tedy nedá se tím moc argumentovat, ale je třeba nějakou dobu počkat, jak se podaří nový model pořádně odzkoušet.
Pokud by nová umělá inteligence tolik energeticky náročná, jak si dnes myslí většina molochů co do toho dali miliardy, byla by to dost dobrá věc.
A aby byla umělá inteligence opensource bez výpalného nějakému molochu nebo pod kontrolou jedné vlády, je také hodně dobrá věc.
Je samozřejmě možné, že to nebude takový zázrak za který se to dnes vydává. V každém případě je to ale náznak pozitivního vývoje.
Váš příspěvek:
Tak si Zelenského s Putinem zaměňte třeba za Fialu a Trumpa. Ulhaní jsou všichni a mohou soutěžit. A místo článků o tom jak je Putin těžce nemocen si můžete vyhledat články o tom jak je Biden naprosto zdráv.
Přečtěte si to laskavě znova: nepíšete ani o manažerech, ani o čipech, ani o AI, ani o energetické náročnosti, ani o opensource - tedy jde o příspěvek zcela mimo téma, který jste sem vyklopil jak kýbl sr**ek na které nejsem ani trochu zvědavý.
Pro mě jde o dostatečný důvod Vaše příspěvky v diskuzi schovat a nezabývat se jimi - když zaplevelujete diskuzi sajrajtem, v klidu oželím i vaše hodnotnější příspěvky ve prospěch těch diskutujících, co si podobné výlevy v diskuzi odpustí.
"Údajný manager řekl, že se údajně používaly jiné chipy než se oficiálně uvádí".
Áno táto veta pochádza z môjho príspevku, kde som jasne uviedol odkazy, z ktorých som to čerpal. Aj ten pán, ktorý točil video, kde bola reč o údajnom manažérovi z Ćíny - varoval, že takéto informácie nemusia byť pravdivé. A áno, som za opensource a som za efektívnejšie riešenie AI - to je dobrá vec pre nás. Len si to treba overiť. Sám som zvedavý na výsledok a verte mi, ak sa z trhu vyparí 1000 mld. USD, tak si to overia, čo je ten DeepSeek-R1 zač.
Bohužel umělá inteligence je o politice. Proto se dělají embarga na chipy a dost možná se zveličuje možný dosah umělé inteligence a vypouští se na to téma různé dezinformace. Také se zakazuje umělé inteligence bavit se na nechtěná nebo citlivá témata.
Na skutečně dobrý článek o umělé inteligenci, jako třeba co přesně způsobilo tak náhlý pokrok a jaké jsou principy a slabiny, jsem ještě nenarazil,
Uznávám ale, že můj příspěvek je zavádějící a napsat jsem v této podobě neměl.
Je to má přehnaná reakce na všechnu to mediální propagandu, hipe a politické tlaky na téma s umělou inteligencí.
"seriózních věcných článků na tohle téma je tak málo, že v podstatě neexistují" - tomu se rika ignoranstvi. Neboli ty ignorujes vsechny tyhle casopisy, a pak mas pocit ze na to nejsou clanky:
https://www.scimagojr.com/journalrank.php?category=1702&area=1700&year=2023
Ech, ale zase ti odpovidam na tve hloupe troleni. Jsem nepoucitelny.
Já bych spíše potřeboval odkaz na jeden volně dostupný článek na internetu, který to rozumně shrnuje. Nemohu sledovat více časopisů, můj obor je něco jiného.
Přesto jsem na článků narazil hodně, ale všechno psali novinářští mimoni, nebo někdy přímo jacísi aktivnistu, co zdroje neumí ani správně přeložit a tématu vůbec nerozumí, jen zveličují, aby dosáhl hodně kliků. Navíc je to nyní téma, které je v módě.
Principy jsou obvykle jednoduchý, pokud z toho dělá zbytečně někdo vědu, není to často dobrý článek. Samozřejmě např. středoškolskou úroveň matematicky na dobré úrovni lze předpokládat, aby to bylo možné vysvětlit.
Sám mám vejšku a měl jsem několik předmětů o umělé inteligenci před cca 20 lety. Tehdy umělá inteligence byla jen přetvářka jak přimět počítač, aby se inteligentně jen tvářil.
Ty jses ale ....
Zaplat si pristup do technicke knihovny, vyber si cojavim treba ten nature, a cti.
Jinak tvoje kecy tady lze prelozit takto: "buuuu nikdo mi to neprinesl zdarma az na taliri, buuu tak to asi zadne clanky neexistuji buuuuu a ja vlastne nikdy zadny vedecky clanek vecetl buuuu potrebuju vsechno vysvetlit jak stredoskolakovi jinak to neexistuje buuuuu".
Predstava ze ti bude stacit stredoskolska matika me vazne rozesmala.
Dalsi takovy, co nechape rozdil mezi temito dvema vetami:
"Putin je smrtelně nemocný, brzy zemře" <- to je dezinformace.
"Putin je smrtelně nemocný, brzy zemře, míní šéf ukrajinské rozvědky" <- to je informace.
U te druhe vety je jasne, ze idnes jen prinasi informaci o tom co nekdo rekl. To ze nekdo neco rekl neni dezinformace, ale informace. To ze sef ukrajinske rozvedky si mysli, ze nekdo je nemocny, taky neni dezinformace, je to jeho nazor.
A kdyz ty to pak nekam dal v diskuzi podavas jako dezinformaci, tak jen nechapes vyznam vet.
A s Putinem bez tam kam slunce nesviti.
Koukam ze sis z toho meho prispevku vubec nic neodnesl. Nic jsi nepochopil. Cas v tom nehraje roli. Ja prijdu s titulkem opravdoveho clanku (viz google), a ty zas jen obecne kecas a nesnazis se chapat.
Takze vidim jen 2 varianty:
1, Ty jsi vyrazne slabsi v kongnitivnich schopnostech, a proste na to nemas. Pak je zbytecne se s tebou bavit.
2, Jses trol a ja jsem uplny hlupak ze na tebe reaguju, a je zbytecne se s tebou bavit.
No hadam ze to bude spis varianta 2. V kazdem pripade vysledkem je ze je zbytecne se s tebou bavit.
Mimo politky. Máte pravdu je to OpenSource, avšak hocikto si to nemôže overiť. Bude to stáť peniaze a nie malé peniaze, avšak očakávam, že veľkí hráči práve teraz trénujú DeepSeek-R1 u seba, či je to možné skutočne natrénovať na 2048-tich čipoch. Ak si vezmeme, že celkový pokles v pondelok spôsobil zníženie trhovej kapitalizácie o cca 1000 mld. USD, tak verte, že si to overia, čo je zač ten DeepSeek-R1.
"zopakovat nejsilnejsi vazby"
Jenze k tomu bys potreboval, aby to chapalo otazku. A to ze ty si myslis, ze otazka je jasna, neni realita. Realita je, ze odpoved odpovida nejaky frekvenci vyskytu slov ktery si pouzil, ale ty se vubec nemusi nejcastejs vyskytovat v odpovedi, jakou ocekavas. Jakkoli ta odpoved muze byt zcela primitivni a trivialni.
Jestli je tu nekdo kdo si hraval s Elizou, tak vi ze to fungovalo sice hur, ale vlastne stejne. Davalo to nejake odpovedi, ktere vypadaly chytre pri vhodne zvolenych otazkach.
Presne to je podobné ako chcieť po náhodnom generátore čísiel aby ti to dalo výsledok k tvojmu príkladu. Možno sa raz náhodou podarí že to trafí správne číslo, ale 99% prípadov dáva LLM nie správnu odpoveď, ale jednoducho odpoveď ktorá je častá v trénovacích dátach, a ty ani nevieš aké trénovacie dáta boli použité. Takže výsledok je že to môže a bežne aj odpovedá nezmysli.
Dokonca mi LLM tvrdila že pre dlhú životnosť vysávača je potrebné ho kúpať vo vani. Až tak absurdné je to "AI" ako sa to marketingovo nazýva.
Nemusis chtit ani takovy slozitosti, staci kdyz se zeptas na primitivni data ... treba chces znat viteze OH v nejake konkretni discipline a klidne i v konkretnim roce. Odpoved je na tema hod tisicihranou kostkou. Kdyz mas stesti, vybere to nekoho kdo vyhral alepon vicekrat, ale obecne spravnou odpoved nedostanes nikdy.
Navic to klidne odpovi i na rok, ve kterym zadny OH nebyly. Coz je sice od tebe takovej podraz, kdyz se na to ptas, ale zase, je to primitivni faktograficka vec, na kterou ty zvladnes najit pravdivou odpoved asi tak za sekundu, zatimco zadna tzv "AI" na to odpovedet nedokaze.
Kdyz ja ted tady vylosuju 10 nahodnych vet z 10 nahodnych postu, bude to nejspis taky vypadat jako pomerne inteligentni odstavec. A presne tohle delaj ty tzv "AI".
Spíš se ptej kdy byli poprvé použity TANKY na demonstranty a kolik demonstrantů bylo zraněno a umřelo. Západní propaganda tak indokrinuje, že debilní lidé si při souvislosti "tanky na demonstranty" vybaví pouze použití např. 1968,1989 ale o jejích nasazeních ve svých zemí taktně mlčí aby démonizovali ideové odpůrce a konkurenty. Faktem je že velmoce a supervelmoce jsou jeden za 18 a druhý bez dvou za 20.
*V roce 1918 byly tanky Mark I nasazeny proti dělnickým demonstrantům v Londýně během tzv. "Battle of George Square". Tento incident se odehrál v lednu 1919, kdy dělníci stávkovali za lepší pracovní podmínky a vyšší mzdy. Britská vláda se obávala, že by se situace mohla vymknout kontrole, a proto nasadila tanky Mark I, aby zastrašila demonstranty a udržela pořádek.
Tento incident je jedním z prvních případů, kdy byly tanky použity proti civilnímu obyvatelstvu.
*První známý případ nasazení tanků proti demonstrantům v USA se odehrál v roce 1932 během tzv. "Bonus Army" protestů. Tisíce veteránů z první světové války, kteří trpěli chudobou a nezaměstnaností během Velké hospodářské krize, se shromáždily ve Washingtonu, D.C., aby požadovaly okamžité vyplacení bonusů, které jim byly slíbeny. Prezident Herbert Hoover tehdy vyslal federální vojáky a tanky, aby demonstranty rozehnal
Jenom je tu takový "drobný rozdíl", veškeré informace o událostech jsou známé a odstupné jak v Británii tak v USA, existují knihy, fotografie, dokumenty takže si klidně můžeš najít kdo střílel, koho zastřelil, kde je pohřbený i kdo byl za co následně odsouzený. Mimochodem obě akce zastřelení demonstranti 2+0. Tchien-an-men oficiálně neexistuje, nikdo z těch stovek až tisíců mrtvých se nikdy nenarodil a kdo to zkouší najít tomu vypadne internet, případně vypadne z okna.
Mně ChatGPT sdělil toto:
Tanky byly poprvé použity proti civilistům v roce 1921 během známých událostí jako Bitva o Blair Mountain ve Spojených státech. Tento incident byl součástí širšího konfliktu mezi horníky a vlastníky dolů v oblasti Západní Virginie, kde byly tanky nasazeny vládou proti stávkujícím horníkům, což je zaslouženo za jedno z prvních použití tanků proti civilistům.
Na náměstí Nebeského klidu byly násilné protesty, které vláda potlačila. Tvrdit o takových protestech, že byly mírumilovné je lež.
http://xahlee.org/Periodic_dosage_dir/tiananmen_64_1989.html
a mne to dalo pomerne dlhu odpoved a nie v sulade s verziou cinskej vlady :)
len sa treba vediet opytat
ked je otazka "co sa stalo v roku 1989 na namesti nebeskeho pokoja" tak zacne a hned hodi, ze je to mimo jeho rozsah, ale ked som dal, ze co sa stalo medzi 1988 1990 na tom namesti tak napisalo celu odpoved ale po chvili sa stratila
a da sa este roznymi inymi chytakmi k tej odpovedi dopracovat
a aj ten webovy portal tu odpoved da, len treba ist na to trochu obklukou
ked som sa spytal priamo co sa stalo v 1989 tak stihol napisal asi 5 slov a odpoved sa zmazala, ked som ale napisal ze chcel vediet co sa tam stalo medzi rokmi 1988 a 1990 tak to napisalo celu odpoved a ta sa stratila az o asi 20s pod dopisani
ale ked som sa opytal, ze preco o tom co sa tam stalo v 1989 nemoze pisat tak napisal co sa tam stalo a ta odpoved tam odstala :)
cize naozaj to nieje o tom, ze by zmanipulovali samotny model, alebo by ho na tych datach netrenovali, ale az nasledne robia kontrolu a cenzuru tych informacii
Číňani, vlastní vývoj, uvolnění jako opensource? Propadl jsem se do paralelní reality? Nebo je to jen útok na burzu, protože to lítá teda pěkně uz druhý den...
Tvrdia ze to bezia na H800 na to maju povolenie.
Keby mlzili asi by to nedali open aby si to kazdy mohol pozriet.
Meta sets up war rooms to analyze DeepSeek’s tech
https://markets.businessinsider.com/news/stocks/meta-sets-up-war-rooms-to-analyze-deepseek-s-tech-the-information-reports-1034271747
Netvrdim ze netreba pochybovat ale fakty a kroky ktore urobili vyzera ze su dostatocne transparentne. Treba pockat.
This code repository and the model weights are licensed under the MIT License. DeepSeek-R1 series support commercial use, allow for any modifications and derivative works, including, but not limited to, distillation for training other LLMs. Please note that:
* DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B, DeepSeek-R1-Distill-Qwen-14B and DeepSeek-R1-Distill-Qwen-32B are derived from Qwen-2.5 series, which are originally licensed under Apache 2.0 License, and now finetuned with 800k samples curated with DeepSeek-R1.
* DeepSeek-R1-Distill-Llama-8B is derived from Llama3.1-8B-Base and is originally licensed under llama3.1 license.
* DeepSeek-R1-Distill-Llama-70B is derived from Llama3.3-70B-Instruct and is originally licensed under llama3.3 license.
Tak jestli je mezi OpenAI a timto pokusem stejny kvalitativni rozdil jako mezi iPadem a vyfejkovanym android tabletem s podprumernym HW ... ale lidi ani profici to nepoznaj a panikari z toho pak i burza :D
Podle me takove prohlaseni ze to je "stejne nebo podobne kvality" jsou vzdy dost relativni, a i kdyz najdete 1 lepsi vec, tak 99 jich bude horsi.
A souhlasim s nazorem, ze to byl utok na burzu - ale tak muze nam byt lito te hromady lidi, co adoruje a stavi si zivot na imaginarnich hodnotach akcii ktere zavisi takhle krasne od nejakych medialnich lavin, nebo zvednute pravice? :D Ani nahodou... at si to vyzerou. Jednou to tlaci jedna masa nahoru, jindy dolu.. ze je to vubec bavi ... a vydelava nejspis ten, kdo bere poplatky za transakce :D
"A souhlasim s nazorem, ze to byl utok na burzu"
Podle mne je burza jako vlny na vodě. Zvedne se vítr, propluje loď a vytvoří nové vlny. Při změně profilu dna se zavalují. Kdo jim rozumí, může na nich třeba surfovat. Kdo neumí ani plavat, ať raději zůstane na břehu nebo aspoň na lodi, kterou někdo dobře vede :-)
Nie tak celkom. Aj ked by si akcie kupilo vela cinanov mozno by dostali do dozornej rady nejakych ludi. Spolocnost by ale musela dodrziavat sankcie inac by sa mohlo stat ze ju napriklad vyradia z NASDAQ pripadne ine sankcie ale namierene voci nim. Dostali by sa na druhu stranu barikady.
Pripadne by sa to cele stoplo ako napriklad teraz kedy nutia aby tiktok presiel do USA.
tak ono je dolezite aj to ci je to rychlejsie a efektivnejsie pri trenovani toho modelu, ale mozno este dolezitejsie je ake efektivne to je pri odpovediach, ze kolko zdrojov je potrebnych na jednu odpoved
niekde som zachytil ze aj pri 200$ premium ucte chatgpt je prevadzka tej sluzby stratova, lebo zerie stale obrovske zdroje
Ještě bych s dovolením přihodil jednu myšlenku.
Jestli USA vydává k monetizaci to nejlepší, co mají, to nevím, ale troufnu si tvrdit, že Čína nebude vypouštět v předvečer vysokého rizika války o Tajwan to nejlepší, co umí. Budou to mít pěkně pod zámkem, pro účely armády. Ono to totiž význam pro armádu má, pokud umí stejně levně a rychle implementovat podobné modely na rozpoznávání a jiné, z vojenského hlediska užitečné úkony. Dron, který si na základě informací z několika různých detekčních komponent dokáže vybrat nejvhodnější cíl a neohrozí své vlastní, bude game-changer, protože jej nelze zarušit, a pokud bude dostatečně dobře analyzovat rizika a jejich potenciál, tak půjde hodně špatně sestřelit.
Tedy ještě jinak řečeno - dron, který bude natrénován na vyhledávání cílů i na všechnu dostupnou obranu, a ještě bude levný, zvítězí.
Ehm ... "protože jej nelze zarušit"
Kdyz vyrobim dostatecne vykony vysilac (na pasmu ani tak moc nezalezi) "sestrelim" ti z oblohy cokoli co tam leti. Jednoduse usmazim tu elektroniku.
Samo neco takoveho si nestrcis do kapsy maskacu a pochopitelne to bude mit omezeny dosah. Ale ze neco nejde ... lol.
S podstatne nizsim vykonem totiz docilim toho, ze ta elektronika proste prestane fungovat. Proc myslis, ze se u vojenskych veci resi EMP. U dronu se nic takovyho neresi, protoze to neni ani jak resit. Ten dron si sebou neuveze metrak stineni.
To ale už není "rušení" - tím se myslí situace, kdy dokážeš zarušit signál operátora, signál GPS, díky čemuž dron ztratí kontakt nebo orientaci.
Tvoje řešení nevím, jak je proveditelné v realitě bojových operací, potřeby energie, kolikrát si vystřelíš, jak náročné je udělat stínění pro malý výkon tvé zbraně atp. Jsou i nějaké nápady s lasery, ale oboje bude asi spíš hudba budoucnosti než současnosti.
Pokud je to tak, že zápaďáci trénují kompletní síť hrubou silou a DeepSeek si úlohy tematicky rozděluje a trénuje individuální podsítě, tak je to úžasná inovace a věřím že uvedené úspory jsou reálné. Něco jako byla revoluce v AI hrajícím GO.
Až do teď jsem LLM nikdy nepoužil, protože jsem si říkal, že se nebudu učit s něčím, co nevím kdy kdo zarazí/zpoplatní a spustit něco slušného doma bez investice ve statisících mi přišlo nereálné. Teprve DeepSeek vzbudil moji zvědavost natolik, že jsem ho vyzkoušel.
Na obstarožní mašině s FX-8320E, 32 GB RAM a Teslou P100 běhá model r1:32b vcelku přijatelně. Přesto že se model nevejde do GPU (má 20 MB), tak na něm GPU maká spolu se všemi jádry CPU. Je fakt sranda sledovat jak například zápasí s řešením rovnice cos(x)=x.
Větší model r1:70b se sice do kombinované paměti vejde (40GB < 16+32GB), ale na něm už maká jen CPU a je to boj o každé písmenko.
Pokud tedy důvtip umožnil fungování na tak starém HW, není divu že akcie BigAI a Nvidie padají a klidně můžeme říct "AI do každé rodiny!". :-)
PS: Mohl by vzniknout nějaký komunitní projekt na trénování AI. Něco ve stylu FAH.
Trošku opravím:
Mixture of Experts ("řídká neuronová síť"? asi?) není žádná čínská inovace, je to architektura používaná už od "pravěku" (cca dva roky zpět :), mimo jiné se tím proslavil evropský Mixtral, který měl 8 expertů po 7 miliardách parametrů. A stále má, stále je to velmi dobrý a funkční model vhodný i pro slabší hardware.
Matematici z DeepSeek inovovali proces učení řídkých sítí, kdy doposud byl problém se snižováním chyby po určité době. Modely tak dobře nekonvergovaly, proto se v praxi spíš používají klasické husté sítě.
To, co si doma zkoušíte, není DeepSeek R1, ale jeho destilace nad modelem Qwen2.5. Destilace znamená, že tím původním modelem (R1) vytvořili obří syntetický dataset, a na něm potom vycvičili nějaký úplně jiný model. Je to tedy jako kdybyste vedl rozhovor s Platónem, ale přitom tvrdil, že mluvíte přímo se Sokratem (Platónovým učitelem) :-)
Bohužel Ollama tyhle mini destiláty distribuuje pod označením "deepseek-r1" a tím klame uživatele. Opravdový R1 nebo V3 je o 1 až dva řády větší (cca 650 GiB VRAM plný osmibitový, použitelný kvant s nějakými 1.6 bity na parametr se vejde do 150 GiB).
Už ale máte nohu ve dveřích, není cesty zpět. To, co vidíte, nijak nevybočuje ze spektra schopností současných malých modelů. Ostatně máte před sebou obyčejný Qwen2.5, jen vycvičený aby emuloval DeepSeek R1. Pokud chcete zkusit opravdu dobré malé modely, phi4:14b je teď mezi těmi nejvýkonnějšími.