Jak takova soutez vlastne funguje? Z vlastni zkusenosti mi prijde, ze momentalne ChatGPT neda obcas dohromady ani jednoduchou funkci na par radku.
Obcas je to tim, ze pouziva funkce, ktere neexistuji, obcas zase pricita neco, misto odcitani, pripadne zameni mensi za vetsi. Nicmene neni mi jasne, jak muze v soucasnem stavu nejakou soutez vyhrat. Umi to nekdo objasnit?
(můj odhad, detaily soutěže neznám)
1. Inteligence modelů se řádově liší. Když říkáte "ChatGPT" bez upřesnění (ChatGPT je ve skutečnosti jen to webové rozhraní), předpokládám, že myslíte GPT-4o, který už dnes patří k těm slabším. Předpokládám, že OpenAI tam šlo s o3.
2. Tooling. Předpokládám, že soutěže se neúčastnil jen surový model, ale měl kolem sebe nějaký scaffolding, který mu dával třeba vyhodnotcení aktuálních výsledků, aby mohl získat zpětnou vazbu, sledovat aktuální progress, vidět chyby kompilátoru / běhové chyby a iterovat...
Detaily neznám, ale předpokládám, že model má stejné možnosti iterace jako lidští účastníci, tzn. nemusí napsat funkční kód na prnví pokus, ale může ho po sobě na základě nějakého testovacího vyhodnocení opravit. (podobně jako lidi) Alespoň tak fungovaly programátorské soutěže za mých mladých let, kdy jsem je ještě zkoušel.
Kromě toho, že do těchto soutěží ty firmy nejspíš pošlou to nejlepší, co mají, tak tomu navíc můžou dát mnohem víc zdrojů. To, s čím interaguje běžný plebs zadarmo, je tak o dost jiná věc. Vem stejný model, ale dej mu násobně víc RAM a výpočetního výkonu, polaď parametry, protože cílem je maximální přesnost a ne bang-for-bucks...
Plis v případě těch programovacích aktivit je dost podstatný rozdíl, jestli po tom chceš "programovat na papír" v okně prohlížeče, nebo jestli to je integrované do IDE. V rámci IDE to ví přesně, co může použít za metody a méně halucinuje.
V rámci IDE má nastudované všechny soubory a knihovny v projektu. Aspoň teda tak funguje např. Cline. Řeknu "vrať mi takovýhle firmy" a on použije náš databázový objekt, který má na vstupu SQL, takže vstupem do něj je SQL query, kde zná i jména našich tabulek.
22. 7. 2025, 10:07 editováno autorem komentáře
Ak si dobre pamätám benchmarky pre faktologické otázky, tak GPT 4.1 má precíznosť sotva 2%. Sonnet 4 aj Claude 4 sú na tom výrazne lepšie. I tie ale občas zlyhajú aj pri primitívnych funkciách a operáciách. Pamätám si práve aj u mňa v práci, kedy pri metóde `sort()` v JavaScripte to zoradilo od najstaršieho dátumu po najnovší a nie naopak ako som chcel. Jednoducho zamenilo A - B -> B - A. Vo firme používame Copilota v Agent módu (Enterprise plán), na niekoľko iterácií to zvládne urobiť unit testy (a trvá to dosť dlho, kým všetky iterácie prejdú (aj pol hodinu), tiež to zvládne jednoduchšie refaktory a úpravy kódu, ale vytvárať logiku, implementovať niečo, nebodaj riešiť komplexné veci v architektúre, bezpečnosť, optimalizácie výkonu atď, úplne zlyháva. GPT 4.1 ale nezvládlo vôbec ale že vôbec nič. Aj unit test to zlyhalo urobiť na 5 pokusov a všetky špatne. Samozrejme všetko aj s poladenými MCP, .github/prompts, .github/instructions a pod.
22. 7. 2025, 23:25 editováno autorem komentáře