Minulý týždeň zverejnila čínska spoločnosť DeepSeek svoj nový jazykový model DeepSeek-R1. Ten sa okamžite stal populárnym medzi výskumníkmi a vývojármi. Neskôr sa pridali médiá, ktoré sa zamerali hlavne na súperenie Spojených štátov a Číny v oblasti AI. Nakoniec začiatkom nového týždňa zareagovali aj trhy, ktoré zaznamenali veľký výpredaj akcií a kryptomien.
Jazykový model DeepSeek-R1 využíva techniku známu ako reasoning na zlepšenie svojich schopností logického a analytického myslenia. Model pred poskytnutím svojej odpovede zverejní aj myšlienkový postup, ktorým sa k nej dopracoval. Jednou z najväčších výhod DeepSeek-R1 je jeho nákladová efektívnosť v porovnaní s inými špičkovými modelmi na trhu. Zároveň je zverejnený pod otvorenou licenciou a úplne zadarmo. V súčasnosti je spoplatnené len používanie API.
Webové rozhranie DeepSeek Chat ponúka k modelu bezplatne technológie DeepThink a DeepSearch. V čase písania tohto článku je však kvôli DDoS útokom model nedostupný.
Model si môžeme lokálne stiahnuť v rôznych veľkostiach z Ollamy. Nasledujúci príkaz stiahne model so 7 miliardami parametrov:
$ ollama pull deepseek-r1
Komunikovať s modelom môžeme pomocou knižníc v rôznych programovacích jazykoch. Nasledujúci PHP skript využíva knižnicu theodo-group/llphant.
<?php
require 'vendor/autoload.php';
use LLPhant\Chat\OllamaChat;
use LLPhant\OllamaConfig;
$config = new OllamaConfig();
$config->model = 'deepseek-r1';
$chat = new OllamaChat($config);
$res = $chat->generateText('Compare frameworks Symfony and Django.');
echo $res . "\n";