Ďakujem za super článok, online AI služby využívam celkom dosť (ChatGPT a Gemini - free verzie) a Ollamu určite vyskúšam.
Môžem zopár otázok k behu offline modelov ak viete niekto porovnať s free Chatgpt/ Gemini? Ollama bude bežať na CPU: Ryzen 7900x + RAM: 64GB + GPU: GTX 1060 6GB
- vo free bežím na začiatku s GPT 5, po prečerpaní limitu GPT 5 mini. Dá sa nejak odhadnúť približne ktorý offline model a v akej veľkosti kvalitou odpovedí cca odpovedá týmto dvom?
- Pokiaľ bude bežať na mojom PC, je rýchlosť odpovedí tohto modelu porovnateľná s chatGPT? (polovičná rýchlosť je v poho, no 5x pomalšie by som už asi nedával :))
- máte skúsenosti s behom na Radeonoch? Do kompu sa mi nová GPU už dávno nedostala a tipnem že 1060 už bude riadne lapať po dychu. Čo som pozeral nové GPU s aspoň 12-16GB VRAM a rozumnou cenou, tak sú jedine 9060xt alebo o cca 100eur drahšia 5600ti
Ešte raz Dik.
20. 2. 2026, 14:55 editováno autorem komentáře
Má aktuální zkušenost je na Mac M4 16GB RAM, což má inferenční výkon 38 TOPS (8bit).
Provozuju modely
Llama 3.1 8B = 8miliard parametrů, na zpracování textu
QWEN 3-Vision Thinking - 4B, pro takové univerzální zpracovávání různých dokumentů.
Reálně to má rychlost tak 25-30 tokenů/sekundu.
To znamená, že když položím komplexnější dotaz nad databází cca tisíce stran v .pdf tak to odpovídá klidně 5 minut, než to vypotí strukturovanou odpověď v rozsahu cca jedné A4.
Rychlost nic moc, přesnost slušná ale když se nechceš dělit úplně o vše s velkým bratrem, tak je to super.
Pro srovnání GPT 3.5 má 175B parametrů, ale to se nedá úplně srovnávat, protože tyhle lokální modely jsou extrémně zhuštěné na efektivitu.
GTX 1060 zvládne do RAM dostat odhadem max 8B model, výkon (dle chatGPT) bude cca poloviční než ten MAC...1060-> 15-18TOPS, protože nemá tensor jádra.