Vlákno názorů k článku
Mistrovství světa v programování vyhrál člověk před OpenAI od radekm - Jak takova soutez vlastne funguje? Z vlastni zkusenosti...

Článek je starý, nové názory již nelze přidávat.

21. 7. 2025 22:04

radekm

Stříbrný podporovatel

Jak takova soutez vlastne funguje? Z vlastni zkusenosti mi prijde, ze momentalne ChatGPT neda obcas dohromady ani jednoduchou funkci na par radku.

Obcas je to tim, ze pouziva funkce, ktere neexistuji, obcas zase pricita neco, misto odcitani, pripadne zameni mensi za vetsi. Nicmene neni mi jasne, jak muze v soucasnem stavu nejakou soutez vyhrat. Umi to nekdo objasnit?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 22:31

Danny

Stříbrný podporovatel

Asi zalezi na tom, jaky konkretni model... nelze rict jen obecne ChatGPT. A take zalezi na zadani, ono si to ty funkce nemusi nutne vymyslet... jenom proste obcas prilis obecny vstup generuje prilis obecny vystup.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 8:13

martinpoljak

Ne, i naprosto konkrétního vstup generuje dost systematicky nesmysly. Pořád je naprosto vidět, že je to LLM, nikoliv něco, co by myslelo. A to i u těch nejlepších modelů s kvalitním MCP.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 8:49

Humanoid č. 1264054 - poruchový

Bronzový podporovatel

Kolega má pravdu. Normálně bere za zdroj z GitHubu i různé kusy skriptů, kde pisatel navrhuje nějakou funkčnost, ale nikdo ji nikdy neimplementoval. Tu stejné chování jsem viděl u všech AI zdarma.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 22:42

nettreg

(můj odhad, detaily soutěže neznám)

1. Inteligence modelů se řádově liší. Když říkáte "ChatGPT" bez upřesnění (ChatGPT je ve skutečnosti jen to webové rozhraní), předpokládám, že myslíte GPT-4o, který už dnes patří k těm slabším. Předpokládám, že OpenAI tam šlo s o3.
2. Tooling. Předpokládám, že soutěže se neúčastnil jen surový model, ale měl kolem sebe nějaký scaffolding, který mu dával třeba vyhodnotcení aktuálních výsledků, aby mohl získat zpětnou vazbu, sledovat aktuální progress, vidět chyby kompilátoru / běhové chyby a iterovat...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 22:47

nettreg

Viz např. markantní rozdíly mezi modely na Codeforces
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 23:18

radekm

Stříbrný podporovatel

Ale jak se to meri? Kdyz model nevyresi ani jednoduchou ulohu napr. "napis celociselne deleni, ktere zaokrouhluje nahoru", nebo v nejakem jazyce pouziva neexistujici funkci i pres upozorneni, tak nechapu, jak muze vyresit jakoukoliv netrivialni ulohu.

Mluvim konkretne o o1-mini a o3-mini.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 23:28

nettreg

Detaily neznám, ale předpokládám, že model má stejné možnosti iterace jako lidští účastníci, tzn. nemusí napsat funkční kód na prnví pokus, ale může ho po sobě na základě nějakého testovacího vyhodnocení opravit. (podobně jako lidi) Alespoň tak fungovaly programátorské soutěže za mých mladých let, kdy jsem je ještě zkoušel.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 23:34

nettreg

Taky předpokládám, že podobně jako lidi mají možnost si program spustit "lokálně" před odevzdáním, sledovat výsledky, ladit ho... Obecně agentické workflow budou většinou silnější než 1-shot generace z modelu.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 7:26

nettreg

Koneckonců i lidi taky často nenapíšou funkční program na první pokus.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 23:12

radekm

Stříbrný podporovatel

Pravda. Mel jsem na mysli o1-mini a o3-mini. Paradoxne mi obcas prijde, ze o3-mini je horsi
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 23:41

Ondro

Bol pouzity model OpenAIAHC.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 7:07

Zopper

Kromě toho, že do těchto soutěží ty firmy nejspíš pošlou to nejlepší, co mají, tak tomu navíc můžou dát mnohem víc zdrojů. To, s čím interaguje běžný plebs zadarmo, je tak o dost jiná věc. Vem stejný model, ale dej mu násobně víc RAM a výpočetního výkonu, polaď parametry, protože cílem je maximální přesnost a ne bang-for-bucks...

Plis v případě těch programovacích aktivit je dost podstatný rozdíl, jestli po tom chceš "programovat na papír" v okně prohlížeče, nebo jestli to je integrované do IDE. V rámci IDE to ví přesně, co může použít za metody a méně halucinuje.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 10:05

Ladis

V rámci IDE má nastudované všechny soubory a knihovny v projektu. Aspoň teda tak funguje např. Cline. Řeknu "vrať mi takovýhle firmy" a on použije náš databázový objekt, který má na vstupu SQL, takže vstupem do něj je SQL query, kde zná i jména našich tabulek.
22. 7. 2025, 10:07 editováno autorem komentáře
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 23:23

Mlocik97

Ak si dobre pamätám benchmarky pre faktologické otázky, tak GPT 4.1 má precíznosť sotva 2%. Sonnet 4 aj Claude 4 sú na tom výrazne lepšie. I tie ale občas zlyhajú aj pri primitívnych funkciách a operáciách. Pamätám si práve aj u mňa v práci, kedy pri metóde `sort()` v JavaScripte to zoradilo od najstaršieho dátumu po najnovší a nie naopak ako som chcel. Jednoducho zamenilo A - B -> B - A. Vo firme používame Copilota v Agent módu (Enterprise plán), na niekoľko iterácií to zvládne urobiť unit testy (a trvá to dosť dlho, kým všetky iterácie prejdú (aj pol hodinu), tiež to zvládne jednoduchšie refaktory a úpravy kódu, ale vytvárať logiku, implementovať niečo, nebodaj riešiť komplexné veci v architektúre, bezpečnosť, optimalizácie výkonu atď, úplne zlyháva. GPT 4.1 ale nezvládlo vôbec ale že vôbec nič. Aj unit test to zlyhalo urobiť na 5 pokusov a všetky špatne. Samozrejme všetko aj s poladenými MCP, .github/prompts, .github/instructions a pod.
22. 7. 2025, 23:25 editováno autorem komentáře

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Mistrovství světa v programování vyhrál člověk před OpenAI od radekm - Jak takova soutez vlastne funguje? Z vlastni zkusenosti...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

Kdy a jak podat přiznání, aby vám přeplatek vrátili co nejdřív?

Malware, ransomware a další online hrozby: Jak se liší?

Agentické nakupování mění pravidla e-commerce

Na dotace na zateplení zapomeňte. Nová vláda vykleští NZÚ

Irsko se po pauze znovu otevírá pro výstavbu datových center

Handicap proměnila v úspěšný byznys, učí ženy nosit paruky

Hackeři útočí přes e-mail, prahnou po přihlašovacích údajích

Co chceme od AI asistentů? Návrhy odpovědí a třídění pošty

V čem se EET 2.0 liší od EET 1.0? Přinášíme velké srovnání

Zahrávají si ČEZ či E.ON s čínským ohněm?

Kdo se bude moct vyhnout EET a co bude muset splnit?

Výjimka z EET je nejmenším OSVČ k ničemu, hodí se ale podvodníkům

Stát dá svobodu důchodcům, které držel ve III. pilíři

EET není český výmysl. Zjistěte, kde za účtenku můžete vyhrát auto

Statistiky o ransomware, které jste asi neznali nebo si neuvědomili

Google Pixel 10a má plochý design a vylepšenou odolnost

Lidé si mohou nechat zdarma vyšetřit znaménka, zrak i cukr

Připravit, pozor, teď! Spouštíme Channeltrends Awards 2025

V USA povolili terapii Optune i pro léčbu rakoviny slinivky

Nový model OpenAI kóduje 15krát rychleji než jeho předchůdce

Vlákno názorů k článku
Mistrovství světa v programování vyhrál člověk před OpenAI od radekm - Jak takova soutez vlastne funguje? Z vlastni zkusenosti...