Ano je to dobra AI. ale nesveroval bych ji zadna data, ze kterych lze cokoli duleziteho vyvodit. A je otazkou, zda na diskusi o pocasi a podobnych zarucene nezavadnych tematech potrebuji AI.
Ze si provozovatel zpracovava poskytnute informace je vice nez zrejme. Delaji to vsichni, ale je tam nepatrny rozdil, co se s nimi stane pak.
PDF obsahují spustitelný kód, formáty GGUF a Safetensors explicitně ne. Tenzory jsou jako vektor (:D) útoku prakticky nepoužitelné, protože těch "přehrávačů" je strašná spousta, každý je architekturálně úplně jiný a vyvíjí se to moc rychle (než odladíte 0day exploit, tak proběhnou dva tři kompletní přepisy inference enginů).
Zajímavý rozhovor s Janem Romportlem k tématu v pořadu Interview Plus:
https://www.mujrozhlas.cz/interview-plus/jan-romportl-odbornik-na-umelou-inteligenci
1/ stáhnout ze stránek ollama tar.gz wgetem a rozbalit - má soubor bin/ollama a lib/* kde je nějaká cuda apod.
2/ ~/bin/ollama serve &
3/ ~/bin/ollama pull deepseek-r1:b671 nebo tak něco co stáhne půl TB dat - ale jsou menší modely
4/ až se to stáhne pustí se rovnou prompt ... v tuhle chvíli RIP, pokud PC nemá zhruba 512GB RAM (nejlíp na grafice)
5/ GL&HF
Reálně model 30B je asi 20x menší, běží v kombinaci CPU a GPU a je nepoužitelně pomalej. Třeba 22B codestral je ... ehm ... použitelný ... ale modely co běží na běžném PC i když má 64GB RAM a 12GB VRAM nejsou z nejlepších co se týká hlubších znalostí z nějakého oboru.
Je open source ve smyslu že model je volně stahnutelný a použitelný bez omezení (i komerčně, úpravy, deriváty atd.), a paper s popisem technologie dostatečně podrobným pro jeho replikaci je rovněž pod volnou licencí. Kdokoliv si může od nuly vytrénovat vlastní. Není k dispozici původní dataset, protože jsou kolem nich v západních zemích právní otázky a chaos. Hugging Face je jeden z FOSS spolků který na replikaci už pracuje, s vlastními datasety.
A situace s cenzurou je ještě lepší, ona v něm totiž vůbec není. Veřejný chat a API endpoint má filtr, ale samotný model neodmítá. Pořád má jasnou politickou orientaci, ale neodmítá diskuzi.
Pokud máte po ruce desktop s aspoň 100 GB RAM, tak ho můžete používat lokálně (byť pomalu, pár tokenů za sekundu): https://unsloth.ai/blog/deepseekr1-dynamic
A nebo ho jen stáhnout do úschovy (než ho zakážou :) a počkat pár let, než to consumer hardware dožene za přijatelnou cenu.
cenzura tam je az na urovni tej webovej stranky, samotny model ziadnu cenzuru podla toho co som skusal implementovanu nema
mne to normalne* odpovedalo aj na tie udalosti na tom namesti a dalo to zapadnu verziu pribehu kedze na cinskych weboch sa o tom asi vela nedocitalo takze odpovedalo to co sa pise na zapade
*bolo treba len sa trochu pohrat s polozenim otazky aby ta webova stranka tu odpoved hned nezablokovala
a zjavne je to trenovane na datach zo zapadnych webov lebo tiez to odpoveda na mnohe otazky akoby to tam tukal woke progresivec :)
este nestihol ten model zareagovat na nastup trumpa :)
To je omyl, zkuste si to. Řada omezení je zakomponována již do modelu samotného, pravděpodobně během jejich reinforced learningu, kde se učí odpovídat tak aby se se to uživatelům "líbilo". Dalailamu mi to vysvětlilo, Tiananmnen square už ne a poslalo mně to do knihovny. Zkoušel jsem ten 70b destillaci na llamu..
Me teda lokalni deepseek popsal Tiananmnen, napsal kolik asi bylo mrtvych, a dokonce ze cinska vlada mlzila a zatajovala pocet mrtvych. Taky napsal ze to byla revoluce proti vlade a to ze je fujky fujky. Ale povsechne se ta odpoved informacne moc nelisila od treba mikrosofti phi4.
Takze v modelu samotnem jsem omezeni nevidel.
Ty distilly byly trénovány na datasetu s refusaly (omlouvám se tímto všem češtinářům).
Jinými slovy llama nebo qwen distill může odmítnout diskuzi, protože RL dataset je obsahuje. Původní V3 a R1 odmítání nemají. Mluví o všem, ale u citlivých témat jsou na straně vlády.
Jestli jste roztlačil 70B model, tak už nejspíš můžete rozjet i IQ1_S quant opravdového deepseek R1: https://unsloth.ai/blog/deepseekr1-dynamic
ako som pisal mne to normalne dalo zapadnu verziu pribehu o tom co sa stalo na tom namesti, stacilo sa pohrat s polozenim otazky
tak tiez na otazku ci je v cine diktatura tak to normalne napisalo tiez povedzme zapadny pohlad, ze je tam vlada jednej strany, absencia slobodnych volieb, prisna cenzura, obmedzene zhromazdovannie, bezpecnostne zlozky sa pouzivaju na nasilne potlacanie protestov, buduje sa tam kult osobnosti a ze podla zapadnych standardov je to oznacovane ako diktatura
potom tam napisalo, ze podla ciny ale je to ale system vhodny do miestnych pomerov :)
Jde to, ale pomalu. Rychlost přenosu je bottleneck. Ani s levnými thunderbird 100Gbps síťovkami si moc nepomůžete, bude to pomalejší než si ten model mmap()ovat a jet z nějakého dobrého SSD.
Pro představu, malý model s rezidentní velikostí okolo 14 GB (asi 8G model, zbytek KV cache a aktivace) mi v Radeonu RX 7800XT běhá nějakých 40 tokenů za sekundu (~podobně rychle jako služby chatgpt, le chat) s využitím VRAM 581 GB/s (grafika umí 624, je tedy skoro saturovaná). A to je malý model... deepseek-r1 má mnohem víc GB na jeden attention cyklus, tam už budeme v TB/s (rozprostřeno přes několik desítek attention heads).
1. Model sibmozes stiahnut. Je otvoreny co sa tyka architektury neuralnej siete. Otvoreny consa tyka vah. Take je to open source
2. Odstranit nieco co uz je natrenovane? Sinto predstavujes ako hurvinek valku. Keby si ho zacal pretrenovavat, mozes ho pretrenovat a znehodnotit. Mamualnou upravou vah je nezmysel. Dam ti priklad. Pamatas si zlyhanie google s jeho generovanim obrazkov? Jak bol tak strikne trenovani aby bol inkluzivny? Kde rozne rasy ludi cpal tam nemal aj ked si mu to zakazal v prompte? Tak odstranit tento neduch je tak nemozny alebo narocny, ze to mozes rovno trenovat na novo. Preto gemini a jeho generovanie obrazkov ma zakazane generovanie ludi. Cize v tomto to zaplatali vygeneruje obrazok, pak to ina ai skontroluje a ak tam je clovek tak to neprejde. Ale ked je uz nejaky filter sucastou modelu a natrenovany tak to mas smolika.
3. Uz ma fakt stve to pokrytectvo. Pisete o tom ze deepseek ma cenzuru. A zapadne modely co? ChatGPT ma tolko cenzur ze tonaz pekne nie je. A to aj v neskodnych veciach. Ked to robi zapad je to dobre. A ked to robi Cina je to zle. Fakt pokrytectvo. A uz ma to vytaca do cervena. Cina ani Zapad nie su svate. Obe strany maju svetle aj tieniste stranky. Tak uz prestante, ze sme svaty a druhy su zlo. Neda sa to po vsetko popisat, je to komplexna tema. Ale zaver je taky, ze je daleko lepsie s Cinou spolupracovat ako byt detinsky a vycitat im co robime sami, prestat ohrozovat spolupracu, vztahy ... Cinsa vam to paci alebo nie Cina je velmoc. Rusko nesiaha Cine ani po clenky. A s Cinou treba pocitat. A spolupraca a dobre vztahy vedie k lepsiemu zajtrajsku. Obzvlast pri velkych krizach. Tak ak ma ludstvo prezit dlhodobo musi sa ludstvo naucit spolupracovat a nie sa hasterit.
> vycitat im co robime sami
Ako ja viem, ze na Slovensku a vseobecne v Europe to je teraz vselijake, ale skuste mi dat priklad veci, ktore im vycitame a robime my sami. Pretoze pri namatkovo:
- genocida vlastneho obyvatelstva
- zatvaranie ludi kvoli ich nabozenstvu a povodu
- priserne pracovne a zivotne podmienky na mnohych uzemiach krajiny
- no a samozrejme narokovanie si na uzemia inych krajin
si fakt nejako nespominam na ziadnu europsku, toboz stredoeuropsku, krajinu, ktora by toto robila a zaroven Cine (opravnene) tieto veci vycitala.
A mimochodem si muzete necenzurovanou verzi pustit sami doma
https://www.tecmint.com/run-deepseek-locally-on-linux/
Zkousel jsem 7b (miliard parametru asi) az 14b a i na CPU (bez GPU) Ryzen 4500U to tak nejak fungovalo.
Blbe je, ze takto redukovane modely jsou uzitecne vyrazne mene. A na plnou velikost je nutne vykonejsi HW (procesor i RAM, ne moc rychle to jde i bez akceleratoru)
Jo tak tohle delat je opravdu doslova genitalni ....
curl -fsSL https://ollama.com/install.sh | sh
Na jednu stranu chápu, na druhou stranu, v čem je vlastně rozdíl oproti stáhnutí si tarballu, rozbalení a "make && make install"? Nebo z něj pustil ten samý install.sh? Buď tomu zdroji věřím dost na to, abych si to instaloval, nebo ne. Pokud podezřívám ten zdroj, že curlu podstrčí jiný skript, jak můžu vědět, že něco nepodstrčí i někde o kus dál?
Tomu zdroji muzes verit jak chces, ale ty nevis, jestli tam jeste za minutu bude to, co tam je ted. A vymenit to nemusi ani ten kdo to tam zverejnil zejo ...
Pripadne ten odkaz za dalsi minutu muze vist uplne jinam ...nebo te uplne jinam muze poslat cokoli cestou ...
Ale zjevne ze tu vynachazi cela hromada individui, ktery vubec netusej jak net funguje. Protoze se nikdy nikde nestalo treba to, ze by (nejen)domenu/pristup k ni ziskal nekdo jiny.
Ollama je scam, mají dobrej marketing ale je to ve finále jen wrapper kolem llama.cpp a dalších projektů. ČÍmž se samozřejmě nijak nechlubí, v blogpostech je to vždycky "po měsíci práce jsme přidali podporu pro architekturu xxx" přitom ve skutečnosti je to "udělali jsme git pull v llama.cpp submodulu" :)
Sestavte si llama.cpp nebo jiný single-binary inference engine, seberte tomu (třeba v systemd) všechny syscally, které to nepotřebuje, a máte jistotu.
Je mozne ze to je jen wrapper kolem neceho jineho, ale kdyz se kouknu na download llama, tak to po mne chce nejakou registraci.
Na ollamu tu byl nedavno ve zpravicce jednoduchy navod, tak to se pak snadno zkousi. Na llamu jsem tu nic nenarazil, tak by to asi chtelo aby schopnejsi neco napsali (vyznamny pohled :) ).
Takové riziko nezpochyňuji. Jen mi uniká realistický scénář, kdy stáhnutí binárky nebo XXX MB zdrojáků a jejich kompilaci jde považovat za bezpečné a přitom použití instalačního skriptu z toho samého zdroje ne.
Jestli je ten web unesený, tak nemůžu přece věřit vůbec žádnému souboru. A pokud si myslím, že unesený není a jsem ochotný nějaký program z něj pouštět, tak tomu install.sh můžu věřit úplně stejně jako run.py uvnitř balíčku.
Kdyz si neco stahnu, muzu to s necim porovnat (prinejmensim). Kdyz to rovnou z netu spoustim, tak vubec nemam paru co vlastne spoustim.
Kdyz mam neco na disku tak nad tim samozrejme muzu provist celou radu dalsi akci na tema hledani ruznych cervu, zjistovani jak a kam to pripadne bude komunikovat atd atd atd.
Mimochodem, presne totez je kopirovani naprosto cehokoli odkudkoli primo do shellu.
A vubec me neudivuje, ze se prave tohle resi prave tady, protoze distribuce pres distribucni kanaly uz neni v mode zejo, natoz aby nekdo neco cestou kontroloval ...
No, tak si to stáhnu, projdu, a je v tom X dalších stahování a rozbalování, klonování různých repozitářů... Co z toho vlastně vyčtu? To, že tam nevidím nic závadného, znamená jen přesně tohle - nevidím to. Pokud tam nebude přímo něco jako install_keylogger, nebo open_backdoor, ale autor si dá trochu práci, tak ta zákeřnost se velmi pravděpodobně bude skrývat někde hloub, dost možná třeba v PyPi nebo NPM, jméno balíčku nebo projektu bude schované za typosquatingem, nebo to bude one-man-show, kterou někdo unesl (xz utils bylo i v repozitářích, hint hint). A celé tohle předpokládá, že vůbec umím shell a další jazyky na takové úrovni, abych to mohl fundovaně přečíst. Což má jen částečný průnik s lidmi, kteří tohle můžou chtít pustit.
Ten install.sh si pořád nějaké procento lidí otevře, ale procházet důkladně celou hierarchii projektu a závislostí a ověřovat, že se nikde nic neskrývá je prakticky nemožné.
ako to potom vlastne takto lokalne funguje?
to akoze ten lokalny model ma v sebe cely "internet" na ktorom to bolo trenovane a dokaze to skladat zmysluplne odpovede na akekolvek otazky?
hlavne ako to je s faktografickymi otazkami. to, ze si to dokaze vymysliet nejaku odpoved na "filozoficku" otazku kde nejde o fakty to chapem, ale ako to dokaze odpovedat na nieco kde ide o fakty?
Je to jako dobrý student při zkoušení u tabule. Ano, fakt si toho pamatuje hodně, dost dokáže vyvodit z kontextu a mlhavých vzpomínek, no a zbytek si vycucá z prstu. Vy, uživatel, jakožto zkoušející, musíte umět poznat, kdy Vám ten student věší bulíky na nos :-)
Ono se to nedá úplně dobře představit, ale my (lidstvo) jsme těch textových znalostí zas tak moc nevytvořili, s vhodnou kompresí se to do nějakých desítek GB skutečně nacpat dá, a LLM tohle umí opravdu výborně. S kvantizací se to dá dál redukovat, přičemž klesá rozlišení (ostrost vzpomínek) ale jejich množství a šířka záběru zůstává. Takto zmenšený model má pak větší tendenci tzv. halucinovat (domýšlet si víc než chceme), což by se správně mělo korigovat injekcí faktů z nějaké RAG databáze nebo z hledání na webu (jako když Vám u tabule dějepisář napovídá).
O tom to neni ...
Dam ti priklad. Mas silnici po ty silnici jezdej auta. Ty chces vedet jak rychle se da dostat z jednoho konce na druhej.
A ted mas moznosti. Stopnes jedno auto. Jenze ten vysledek muze byt umistnen kdekoli od 0 do nekonecna ... rozhodne se neda tvrdit, z takhle rychle/pomalu je to "normalni"
Tudiz stopnes tech aut 10 000 .. a udelas prumer. To sice taky neni uplne koser, ale uz je to lepsi. Pak zacnes eliminovat extremy (nekdo to auto tlacil, nekdo tahnul oslem ...), zacnes resit ze v patek jedou vsichni domu, tudiz pomalejs ... atd atd
Ve finale mas trebas miliony zaznamu (internet), ale vypadne ti z toho jedno cislo. A prave to jedno cislo si zapamatujes. Takze si klidne treba stovky TB zredukoval na jeden B.
Ostatne vis jaka je odpoved na otazku zivota vesmiru a vubec ze?
Zredukoval si odpoved na jeden B ale aj tak ta odpoved ti moze byt k nicomu, lebo ta otazka je dost vseobecna na to aby si odpovedajuca strana bola ista, ze tym o co ti presne islo.
Takze tym jednym B sa mozno trafis do jeden otazky. Pri zvysnych to bude viac, ci menej lietat/ta odopoved bude viac, ci menej relevantna.
Takze zreduvanim dat, zredukujes aj presnost odpovedi.
K cim vecsej presnosti/relevantnsoti potrebujes na jednej strane cim lepsi kontext ale zaroven aj dataset.
Ano je to podbne ako pri tej 42. Pocitac vo svojej nedokonalosti dal primeranu odpoved aj z ohladom na kvalitu otazky.
ano zredukoval si 10000 zaznamov na 1B, ale z toho jedneho bajtu uz nikdy nezistis kolko z tych aut islo 90tkou, kolko 100kou, kto isiel najrychlejsie, kto najpomalsie uz budes mat len 1 priemernu rychlost
na take to vseobecne kecanie to dobre je, ale tam kde treba tvrde fakty tak tam sa tomu neda verit, lebo ono si ich nie, ze nemapata, ono si ich vymysla a je len nahoda ci ten statisticky model trafi spravnu postupnost slov a cisel, alebo nie
Došel jsem ke stejnému závěru. Zhruba 14-15B ještě běží na grafice s 12GB VRAM a běží to rychle. Běží to i na stařičké i5 pořád rychleji než se to dá číst. Ale 2x větší model už není použitelný ani na Ryzenu 9. Nejspíš se to škáluje exponenciálně a využívá to jedno jádro. Na opravdu velké modely to asi bude chtít grafiku s cenou v milionech korun a složit se na to s tisícem dalších lidí - dává to smysl jedině pro cloud a při tom, kolik provozu nabízí ChatGPT nebo Claude zdarma si myslím, že se jim to skoro nemůže zaplatit - počáteční náklady, měsíční účty za elektřinu, chlazení, ...
Nejde o AI samotnou, ale co se stane s daty, ktere ji sverite.
Bezne AI pouzivam, kdyz potrebuji formulovat (nebo zkontrolovat formulaci) nejaky "obchodni" dopis. Jasne ze je to ve stylu "vazeny pane XY, potrebuje vic informaci o produktu Z, ktery planujeme nasadit na projekt P" ale takto anonymizovat nejde vzdy vse.
30. 1. 2025, 17:10 editováno autorem komentáře
ten model ziadnu cenzuru nema, cenzura je vykonavana az nad samotnym vystupom z toho modelu
odpovie to aj na pre cinsku vladu citlive temy len treba sa pohrat s polozenim otazky
a inak ten model je tiez liberalny az woke progresivny a aj tie odpovede na pre cinu citlive temy ked sa uz dostanes cez ten system co cenzuruje odpovede su ideologicky prozapadne
zjavne to bolo trenovane na necinskych datach
mne to ten masaker na tom namesti popisalo tak ako by to nemohlo byt popisane na cinskom webe
Asi jak v kterém jazyce, ale v ruštině byl DeepSeek nad očekávání sdílný i na vámi naznačená "problematická" témata. Poměrně ukecaný je i ve slovenštině, o poznání méně v češtině. V angličtině je zcela pochopitelně chladný k některým tématům a myslím, že má k tomu mnoho dobrých důvodů, resp. jeho tvůrci a trenéři.
30. 1. 2025, 21:48 editováno autorem komentáře
Naivní otázka ale. Pomůže když k 64 GB RAM 80GB/s 5600MT/s přidám 100GB swap nvme 4GB/s? Jak to Pojede?
A z druhy : kdy z mam tento pc 2x,, jde nejak mergnout ? Propojim 2.5gb , maximalne thunderboltem
Gpu je integrovaná, využiva ram. Sloty ram jsou plné
30. 1. 2025, 22:03 editováno autorem komentáře
Podľa toho, ktorý model. Ten najväčší 671b potrebuje asi 400GB pamäti takže určite nepôjde.
Na 64GB môžeš skúsiť 70b model a sledovať, koľko RAM zaberie. Odhadujem, že vezme tak 40GB, takže by to mohlo pomaly ísť. Tá RAM je ďaleko pomalšia ako grafická RAM na grafických kartách alebo spoločná pamäť v Mx macoch.
Tu to rozbehali na siedmich mac mini m4 pro s jedným macbookom pro m4 max. Keď to rátam správne, tak tam majú 512GB spoločnej pamäti (7x64GB plus 128GB).
Mně DeepSeek na otázku odpověděl úplně normálně toto: "V červnu 1989 došlo na Náměstí nebeského klidu v Pekingu k událostem, které jsou často označovány jako masakr na Náměstí nebeského klidu. Během těchto událostí čínská vláda násilně potlačila prodemokratické protesty, které trvaly několik týdnů. Protesty začaly jako studentské hnutí požadující politické reformy, větší svobodu a konec korupce. Situace vyvrcholila v noci z 3. na 4. června 1989, kdy čínská armáda a bezpečnostní síly zaútočily na demonstranty a civilisty na náměstí a v jeho okolí. Přesný počet obětí není znám, ale odhady se pohybují od stovek až po tisíce mrtvých. Tato událost měla hluboký dopad na čínskou společnost a zůstává citlivým tématem v Číně i ve světě."
Jinak samozřejmě u jakéhokoli nástroje, který je zdarma, předpokládám, že tím platidlem jsem já a tedy používám jej s nejvyšší (až paranoidní) opatrností.