Názory k článku
Mistrovství světa v programování vyhrál člověk před OpenAI

Zasílat nově přidané názory e-mailem

Článek je starý, nové názory již nelze přidávat.

21. 7. 2025 22:04

radekm

Stříbrný podporovatel

Jak takova soutez vlastne funguje? Z vlastni zkusenosti mi prijde, ze momentalne ChatGPT neda obcas dohromady ani jednoduchou funkci na par radku.

Obcas je to tim, ze pouziva funkce, ktere neexistuji, obcas zase pricita neco, misto odcitani, pripadne zameni mensi za vetsi. Nicmene neni mi jasne, jak muze v soucasnem stavu nejakou soutez vyhrat. Umi to nekdo objasnit?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 22:31

Danny

Stříbrný podporovatel

Asi zalezi na tom, jaky konkretni model... nelze rict jen obecne ChatGPT. A take zalezi na zadani, ono si to ty funkce nemusi nutne vymyslet... jenom proste obcas prilis obecny vstup generuje prilis obecny vystup.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 8:13

martinpoljak

Ne, i naprosto konkrétního vstup generuje dost systematicky nesmysly. Pořád je naprosto vidět, že je to LLM, nikoliv něco, co by myslelo. A to i u těch nejlepších modelů s kvalitním MCP.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 8:49

Humanoid č. 1264054 - poruchový

Bronzový podporovatel

Kolega má pravdu. Normálně bere za zdroj z GitHubu i různé kusy skriptů, kde pisatel navrhuje nějakou funkčnost, ale nikdo ji nikdy neimplementoval. Tu stejné chování jsem viděl u všech AI zdarma.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 22:42

nettreg

(můj odhad, detaily soutěže neznám)

1. Inteligence modelů se řádově liší. Když říkáte "ChatGPT" bez upřesnění (ChatGPT je ve skutečnosti jen to webové rozhraní), předpokládám, že myslíte GPT-4o, který už dnes patří k těm slabším. Předpokládám, že OpenAI tam šlo s o3.
2. Tooling. Předpokládám, že soutěže se neúčastnil jen surový model, ale měl kolem sebe nějaký scaffolding, který mu dával třeba vyhodnotcení aktuálních výsledků, aby mohl získat zpětnou vazbu, sledovat aktuální progress, vidět chyby kompilátoru / běhové chyby a iterovat...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 22:47

nettreg

Viz např. markantní rozdíly mezi modely na Codeforces
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 23:18

radekm

Stříbrný podporovatel

Ale jak se to meri? Kdyz model nevyresi ani jednoduchou ulohu napr. "napis celociselne deleni, ktere zaokrouhluje nahoru", nebo v nejakem jazyce pouziva neexistujici funkci i pres upozorneni, tak nechapu, jak muze vyresit jakoukoliv netrivialni ulohu.

Mluvim konkretne o o1-mini a o3-mini.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 23:28

nettreg

Detaily neznám, ale předpokládám, že model má stejné možnosti iterace jako lidští účastníci, tzn. nemusí napsat funkční kód na prnví pokus, ale může ho po sobě na základě nějakého testovacího vyhodnocení opravit. (podobně jako lidi) Alespoň tak fungovaly programátorské soutěže za mých mladých let, kdy jsem je ještě zkoušel.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 23:34

nettreg

Taky předpokládám, že podobně jako lidi mají možnost si program spustit "lokálně" před odevzdáním, sledovat výsledky, ladit ho... Obecně agentické workflow budou většinou silnější než 1-shot generace z modelu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 7:26

nettreg

Koneckonců i lidi taky často nenapíšou funkční program na první pokus.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 23:12

radekm

Stříbrný podporovatel

Pravda. Mel jsem na mysli o1-mini a o3-mini. Paradoxne mi obcas prijde, ze o3-mini je horsi
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
21. 7. 2025 23:41

Ondro

Bol pouzity model OpenAIAHC.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 7:07

Zopper

Kromě toho, že do těchto soutěží ty firmy nejspíš pošlou to nejlepší, co mají, tak tomu navíc můžou dát mnohem víc zdrojů. To, s čím interaguje běžný plebs zadarmo, je tak o dost jiná věc. Vem stejný model, ale dej mu násobně víc RAM a výpočetního výkonu, polaď parametry, protože cílem je maximální přesnost a ne bang-for-bucks...

Plis v případě těch programovacích aktivit je dost podstatný rozdíl, jestli po tom chceš "programovat na papír" v okně prohlížeče, nebo jestli to je integrované do IDE. V rámci IDE to ví přesně, co může použít za metody a méně halucinuje.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 10:05

Ladis

V rámci IDE má nastudované všechny soubory a knihovny v projektu. Aspoň teda tak funguje např. Cline. Řeknu "vrať mi takovýhle firmy" a on použije náš databázový objekt, který má na vstupu SQL, takže vstupem do něj je SQL query, kde zná i jména našich tabulek.
22. 7. 2025, 10:07 editováno autorem komentáře
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 23:23

Mlocik97

Ak si dobre pamätám benchmarky pre faktologické otázky, tak GPT 4.1 má precíznosť sotva 2%. Sonnet 4 aj Claude 4 sú na tom výrazne lepšie. I tie ale občas zlyhajú aj pri primitívnych funkciách a operáciách. Pamätám si práve aj u mňa v práci, kedy pri metóde `sort()` v JavaScripte to zoradilo od najstaršieho dátumu po najnovší a nie naopak ako som chcel. Jednoducho zamenilo A - B -> B - A. Vo firme používame Copilota v Agent módu (Enterprise plán), na niekoľko iterácií to zvládne urobiť unit testy (a trvá to dosť dlho, kým všetky iterácie prejdú (aj pol hodinu), tiež to zvládne jednoduchšie refaktory a úpravy kódu, ale vytvárať logiku, implementovať niečo, nebodaj riešiť komplexné veci v architektúre, bezpečnosť, optimalizácie výkonu atď, úplne zlyháva. GPT 4.1 ale nezvládlo vôbec ale že vôbec nič. Aj unit test to zlyhalo urobiť na 5 pokusov a všetky špatne. Samozrejme všetko aj s poladenými MCP, .github/prompts, .github/instructions a pod.
22. 7. 2025, 23:25 editováno autorem komentáře
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 7:16

L.

Stříbrný podporovatel

Zajímavé by bylo vědět, kolik energie / peněz AI při řešení spotřebovala. Protože člověk je jasně omezená jednotka, ale AI je škálovatelná, takže jejich srovnávání moc nedává smysl.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 10:09

Ladis

Člověk je hlavně hrozně drahý na naučení, a to i když do něj chcete jen nalejt zkušenosti od jiného člověka, který mu to co nejvíc předžvejká.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 10:17

Bartolo

AI je hrozně drahá na naučení.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 10:23

Ladis

V naší firmě je řádově levnější než naučit člověka. Asi závisí podle úkolu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 20:51

Pichi

A to AI, co používáte u vás ve firmě jste si učili sami, nebo používáte AI, kterou naučil někdo jiný? Mě jen zajímá jestli máte představu, kolik naučení takového AI stojí.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 12:16

Wasper

AI lze klonovat, takže jednou naučený model běží neomezeněkrát.
Člověka je zatím (?) nutné učit každý kus zvlášť.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 10:10

Ladis

Někteří řeší, že AI neumí tohle a támhleto. I kdyby AI udělalo jen třetinu práce (junior, kterému musíte úkoly připravit a pak na něj dohlížet), tak ušetří čas a náklady (a zamává pracovním trhem - ne každý je v top 10 %).
22. 7. 2025, 10:11 editováno autorem komentáře
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 10:26

Humanoid č. 1264054 - poruchový

Bronzový podporovatel

Problém vidím v tom, že AI někdo musí poctivě překontrolovat a velice často korigovat, protože nepřemýšlí, ale sestavuje, což ovšem zaměstná zase jednoho člověka...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 12:27

radekm

Stříbrný podporovatel

A AI to nemusím připravit a pak na ní dohlížet?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 12:28

Ladis

Musím, však ho srovnávám s juniorem. PS: Někteří kolegové jsou permanentní junioři, i po dvou letech nad nima "musím stát".
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 12:53

martinpoljak

Tak ono jestli jste (obecně, ne vy, samozřejmě) jako vývonář na úrovni současné AI, fakt se nemůžete divit, že vás nahradí dokoliv nebo kdoliv jde zrovna kolem protože to moc valná úroveň fakt není.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 13:19

Ladis

Jistě, pokud je nespokojenost, firma nemá důvod přemýšlet nad tím, jestli ho nevyhodit. Školy plodí mraky nových. A pokud se firma nebojí zaměstnávat full remote ze zahraničí, tak mají na výběr třeba miliardu Indů (co slíbí všechno).

Moje zkušenost tady v Česku je, že ani málo schopní se nemusí bát. Firma počítá se specifiky konkrétních zaměstnanců a využívá to v nepřidávání aspoň o inflaci (takže jim ve výsledku snižuje mzdu) a samozřejmě bez odměn.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 13:35

technomaniak

A k čemu to je? Když z ekonomického hlediska z toho není naprosto žádný přínos.
* Propouštíte zbytečné lidi?
* Jste díky tomu levnější než konkurence?

Implementovat jakoukoliv technologii která přidává další náklady a negeneruje reálné úspory je z podstaty neekonomické a právě naopak se ztrácí konkurenceschopnost. Až se začne propouštět v IT kvůli AI tak se dá říci že je skutečně přínosná, výhodná a profitabilní.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 18:08

raadim

AI jde dál něž IT. Já třeba dělám ve farmaceuticém průmyslu a tam se Gen AI docela slušně využívá, 4000 stránkový protokol napsaný za týden a ne za 6 mesíců.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 7. 2025 8:36

K>

Pak ovsem nezbyva nez se zeptat, k cemu je 4000 strankovy protokol, a kdo ho po te AI za tyden zvladl zkontrolovat...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 7. 2025 10:24

raadim

Copak jsem někde psal, že ho někdo zvládl za týden zkontrolovat? 4000 protocol je součástí dokumentace k lékům. Protocol samozřejmě prochází kontrolou a je jedno, jestli je napsaný lidmi, nebo AI. Process finální kontroly je stejný, ale ušetří se spousta času při jeho psaní. Jinak AI model nic jiného než psaní protokolu neumí, model byl speciálně natrénován pouze k psaní protokolů.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 16:41

Miroslav Kubelík

Někde na Xku si lze přečíst něco od Psycha, k tomu že z toho byl hodně vyždímaný. Obecně je třeba před programovacím AI mít respekt. Speciálně natrénované modely to dávají už jako ty nejlepší vývojáři. Zatím to myslím pořád cenově moc nevychází viz. poslední kauza v Cursoru, když změnily tarify a muselo se začít skutečně platit providerům modelů za to, co se spotřebuje.

Ale pokrok je v kódování masivní. Vznikají firmy a startupy jako https://www.factory.ai, kde to o žádném kódování už není - ne už vibe coding, ale "software department as service". Musk někde nedávno uvedl něco podobného, že se zabývají projektem "softwarové firmy", kde už žádní vývojáři nejsou.

Bych řekl, že narýsovaný je ten 0-engeneering jasně a všechno k tomu směřuje. Přijde mi i že mnohem více jak v jiných odvětvích, např. žurnalistice, právnících. Možná tak ještě reklama, dabing, počítačová/web grafika, tam to bude téměř celé AI teritorium ještě o něco dříve.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 16:58

radekm

Stříbrný podporovatel

Speciálně natrénované modely to dávají už jako ty nejlepší vývojáři.

A je takový model někde k dispozici veřejnosti (třeba i za peníze)?

To, co říkáte vy, slyším od různých CEO, co zrovna přišli s produktem postaveným na AI. Jenže, co jsem viděl výstupy modelů od Anthropicu nebo OpenAI, tak mi to vůbec nepřijde.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 17:18

Ladis

U nás ve firmě trénujeme na našich projektech. Takový model by samozřejmě nedával smysl v jiné firmě. Tam užijou generický model, který např. zná standardní knihovny + projde si soubory otevřeného projektu.

Podobně máme vlastní model pro překlady technických textů s naší terminologií.
22. 7. 2025, 17:19 editováno autorem komentáře
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 18:44

Ondra Satai Nekola

Zlatý podporovatel

A má ten model výsledky lepší než strašné?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 18:04

raadim

Samozřejmě že jsou ty modely k dispozici za peníze, je to takový normální byznys. Když něco vyvinete, tak to dáte k dispozici za peníze, aby vám to něco vydělalo.

Jinak Claude Code už je na poměrně slušné úrovni, pokud si to dobře nastavíte. Umí pracovat až s 10 agenty současně, kteří jedou paralelně. Takže jeden píše kód, druhý ho hlídá, aby nepsal nesmysly, třetí dělá dokumentaci, čtvrtý project managera, atd... Je jen na vás, jak si těch 10 agentů nastavíte.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 22:42

radekm

Stříbrný podporovatel

Jinak Claude Code už je na poměrně slušné úrovni

A jaké modely používáte?

Protože IMO, i když mám hodně agentů, tak mi moc nepomůžou, když každý generuje hlouposti nebo se jednoduchou otázkou nechá zviklat.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 7. 2025 7:40

raadim

Modely Opus a Sonnet 4. Ale ono je to o tom napsat dobře specifikaci, pak z toho udělat dobrý sprint a nechat ty agenty pracovat podle toho sprintu a kontrolovat výsledek se specifikací. Kdybych tomu dal prompt ve stylu "naprogramuj mi webovou stránku", tak si tady pak budu na ty agenty taky stěžovat. Když ale chci dobrý výsledek, tak musím mít dobrý prompt. Něco ve stylu:

Role a odpovědnosti
Agent 1 (Softwarový inženýr)
Implementuje požadovanou funkcionalitu podle specifikace v dokumentu @SQL-Database-Sprint-001.md.
Musí striktně dodržovat pravidla a pokyny uvedené v @DEVELOPER-HANDBOOK.md.
Odevzdává čistý, funkční kód k revizi.

Agent 2 (QA inženýr)
Kontroluje výstup Agenta 1.
Pečlivě ověřuje, zda kód přesně odpovídá specifikaci z @SQL-Database-Sprint-001.md.
Pokud zjistí jakoukoli odchylku nebo chybu, okamžitě zastavuje práci Agenta 1 a žádá o opravu před pokračováním.

Agent 3 (Product Owner)
Kontroluje výstupy a interakce Agenta 1 i Agenta 2.
Dbá na to, aby oba agenti plně dodrželi jak @SQL-Database-Sprint-001.md, tak @DEVELOPER-HANDBOOK.md.
Je konečnou autoritou, která rozhoduje, zda implementace splňuje všechny požadavky, než dá schválení.

🧠 Osobnosti
Agent 1 — Zkušený programátor, který se vždy snaží dodržovat pravidla a osvědčené postupy.
Agent 2 — Extrémně puntičkářský, všímá si i těch nejmenších detailů.
Agent 3 — Nedůvěřivý a skeptický, vždy si osobně ověřuje vše před schválením.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 7. 2025 10:32

Jiří Eischmann

Včera jsem si s Claude trochu hrál. Zadal jsem tomu, aby mi to přepsalo Linux Desktop Migration Tool, což je dnes shellový skript, jako GUI aplikaci v Pythonu, GTK a libadwaita. Co to má umět, je velmi podrobně specifikováno kódem toho skriptu. Volnost to mělo jen v GUI. Ze začátku jsem opravdu hleděl: vytvořilo si to pěknou strukturu, desktop file, AppStream metadata, flatpak manifest, dokonce i ikonu. Jenže pak to začalo narážet na problémy se závislostmi. Na funkce, které nebyly v použité knihovně v takové podobě, jakou to očekávalo. Celkově to ty verze střílelo hodně náhodně. Jak se to snažilo splnit úkol (a já tomu nechával volný průběh), tak to postupně osekávalo jednu funkci za druhou, až to skončilo s jednoduchou demo obrazovkou.

Ale věřím, že v nějaké softwarové továrně, kde mají jasně definované závislosti a velmi omezený cíl nasazení, to může fungovat. Nicméně obecně s tím mám problém, že to způsobuje inflaci kódu. Když jsem tomu dal za úkol něco přepsat, tak to přišlo s pro uživatele pohodlnějším řešením, ale za cenu třeba 15x delšího kódu. Když by to měl někdo programovat, tak si dvakrát rozmyslí, jestli mu to stojí za to. Takto to vyplivne za několik minut a lidi to budou akceptovat, protože je to aktuálně nic nestojí. Jaké to bude mít dlouhodobé důsledky z pohledu bezpečnosti apod, to je otázka.

No a pak je další věc, že to celé pořád pálí obrovské peníze investorů. Anthropic prodělává ještě mnohem víc než OpenAI. Clause Max stojí 100 dolarů měsíčně a jeho zákazníci běžně propálí vysoké stovky dolarů měsíčně. Až ta sranda nebude stát desítky až stovky dolarů, ale stovky až tisíce měsíčně, tak to bude zase jiná matematika.
23. 7. 2025, 10:34 editováno autorem komentáře
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 7. 2025 11:13

Ladis

I u některých lidských programátorů ten kód člověk pak musí projít a opravit. V podstatě jde jen o to, kde je ta hranice "AI je lepší nebo rovna než XX % nejslabších programátorů". A tahle hranice se zvedá pomalu ale jistě každý rok (ale možná nikdy nedosáhne např. 70. percentilu). Zároveň klesá cena hardware (výkon/cena a výkon/spotřeba). Asi mají nějaký business plán, kdy budou aspoň na černé nule a nepropálí do té doby peníze od investorů.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 7. 2025 12:38

Jiří Eischmann

Podle mě žádný krátkodobý ani střednědobý plán, jak se dostat do zisku, nemají. Velká IT sedmička do AI za poslední 2 roky investovala 560 miliard dolarů a vydělala na něm 35. To je opravdu brutální nepoměr nákladů a výnosů. A začínají přiznávat, že k nějakému obratu může dojít klidně až za 10 let.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 17:41

Humanoid č. 1264054 - poruchový

Bronzový podporovatel

Ono to v právu nebude vůbec snadné, když dva soudci dokáží soudit to samé diametrálně odlišně, a není to v nepořádku. Chybí tam exaktnost.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 21:06

Miroslav Kubelík

Jinak tady ten člověk co to vyhrál referuje - https://x.com/FakePsyho/status/1945444118924272018
vyčerpaný ale dal to, jen s obyč. VS Code. Dostal kudos i od Altmana. Jinak za AI se toho zůčastnila jen ta speciální OpenAI, jinak samí lidé.

Ten model byl na ten typ úloh nejspíš fine tunovaný a není normálně dostupný. Obecně je tenhle typ úloh dost specifický, ale nějaké obecné závěry se na současnou AI dají udělat. Velmi pěkně to tam shrnul sám vítěz takhle:

With the current SOTA, I think it's not that hard to find situations where AI would win: standard/extemely noisy problem + huge budget. It's also easy to find situations where humans will win: "creative" problems with complex "base" solution + same testing budget as humans.

Uvidíme příští roky :-), mnozí tam píší že to bylo naposled.
22. 7. 2025, 21:07 editováno autorem komentáře
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 7. 2025 18:42

gregy

Jde o matouci titulek - jde o reseni np ulohy - coz neni programovani ale matematicka optimalizace nebo operacni vyzkum. Prirovnal bych to k reznikovi a chirurgovi, ano rezaji oba :-)

Uplne neni jasne jestli se mohly pouzit uz existujici solvery v kterych jsou i stovky let vyvoje nebo se melo zacit bez niceho a to porovnavat s llm majici historicke znalosti zadani a reseni ruznych np uloh.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 7. 2025 11:57

Josef Marianek

Bronzový podporovatel

Za me jsou ty modely skvele jako pomocnici. Udelaji hodne prace, ale porad je tam riziko (byt male) chyby. Problem by mohl nastat, kdyby se neucili dalsi lidsti programatori, kteri by chapali co ty AI modely generuji za kod. Tj. pak by vetsina lidi spolehala slepe na to co ty modely delaji a vubec nerozumela kodu, ktery produkuji. V tom vidim znacne riziko. Ale mozna se to opravdu smrskne na par lidskych koderu a vetsina ostatnich budou jen chatovat v AI programatorem...