Jak takova soutez vlastne funguje? Z vlastni zkusenosti mi prijde, ze momentalne ChatGPT neda obcas dohromady ani jednoduchou funkci na par radku.
Obcas je to tim, ze pouziva funkce, ktere neexistuji, obcas zase pricita neco, misto odcitani, pripadne zameni mensi za vetsi. Nicmene neni mi jasne, jak muze v soucasnem stavu nejakou soutez vyhrat. Umi to nekdo objasnit?
(můj odhad, detaily soutěže neznám)
1. Inteligence modelů se řádově liší. Když říkáte "ChatGPT" bez upřesnění (ChatGPT je ve skutečnosti jen to webové rozhraní), předpokládám, že myslíte GPT-4o, který už dnes patří k těm slabším. Předpokládám, že OpenAI tam šlo s o3.
2. Tooling. Předpokládám, že soutěže se neúčastnil jen surový model, ale měl kolem sebe nějaký scaffolding, který mu dával třeba vyhodnotcení aktuálních výsledků, aby mohl získat zpětnou vazbu, sledovat aktuální progress, vidět chyby kompilátoru / běhové chyby a iterovat...
Detaily neznám, ale předpokládám, že model má stejné možnosti iterace jako lidští účastníci, tzn. nemusí napsat funkční kód na prnví pokus, ale může ho po sobě na základě nějakého testovacího vyhodnocení opravit. (podobně jako lidi) Alespoň tak fungovaly programátorské soutěže za mých mladých let, kdy jsem je ještě zkoušel.
Kromě toho, že do těchto soutěží ty firmy nejspíš pošlou to nejlepší, co mají, tak tomu navíc můžou dát mnohem víc zdrojů. To, s čím interaguje běžný plebs zadarmo, je tak o dost jiná věc. Vem stejný model, ale dej mu násobně víc RAM a výpočetního výkonu, polaď parametry, protože cílem je maximální přesnost a ne bang-for-bucks...
Plis v případě těch programovacích aktivit je dost podstatný rozdíl, jestli po tom chceš "programovat na papír" v okně prohlížeče, nebo jestli to je integrované do IDE. V rámci IDE to ví přesně, co může použít za metody a méně halucinuje.
V rámci IDE má nastudované všechny soubory a knihovny v projektu. Aspoň teda tak funguje např. Cline. Řeknu "vrať mi takovýhle firmy" a on použije náš databázový objekt, který má na vstupu SQL, takže vstupem do něj je SQL query, kde zná i jména našich tabulek.
22. 7. 2025, 10:07 editováno autorem komentáře
Ak si dobre pamätám benchmarky pre faktologické otázky, tak GPT 4.1 má precíznosť sotva 2%. Sonnet 4 aj Claude 4 sú na tom výrazne lepšie. I tie ale občas zlyhajú aj pri primitívnych funkciách a operáciách. Pamätám si práve aj u mňa v práci, kedy pri metóde `sort()` v JavaScripte to zoradilo od najstaršieho dátumu po najnovší a nie naopak ako som chcel. Jednoducho zamenilo A - B -> B - A. Vo firme používame Copilota v Agent módu (Enterprise plán), na niekoľko iterácií to zvládne urobiť unit testy (a trvá to dosť dlho, kým všetky iterácie prejdú (aj pol hodinu), tiež to zvládne jednoduchšie refaktory a úpravy kódu, ale vytvárať logiku, implementovať niečo, nebodaj riešiť komplexné veci v architektúre, bezpečnosť, optimalizácie výkonu atď, úplne zlyháva. GPT 4.1 ale nezvládlo vôbec ale že vôbec nič. Aj unit test to zlyhalo urobiť na 5 pokusov a všetky špatne. Samozrejme všetko aj s poladenými MCP, .github/prompts, .github/instructions a pod.
22. 7. 2025, 23:25 editováno autorem komentáře
Zajímavé by bylo vědět, kolik energie / peněz AI při řešení spotřebovala. Protože člověk je jasně omezená jednotka, ale AI je škálovatelná, takže jejich srovnávání moc nedává smysl.
Jistě, pokud je nespokojenost, firma nemá důvod přemýšlet nad tím, jestli ho nevyhodit. Školy plodí mraky nových. A pokud se firma nebojí zaměstnávat full remote ze zahraničí, tak mají na výběr třeba miliardu Indů (co slíbí všechno).
Moje zkušenost tady v Česku je, že ani málo schopní se nemusí bát. Firma počítá se specifiky konkrétních zaměstnanců a využívá to v nepřidávání aspoň o inflaci (takže jim ve výsledku snižuje mzdu) a samozřejmě bez odměn.
A k čemu to je? Když z ekonomického hlediska z toho není naprosto žádný přínos.
* Propouštíte zbytečné lidi?
* Jste díky tomu levnější než konkurence?
Implementovat jakoukoliv technologii která přidává další náklady a negeneruje reálné úspory je z podstaty neekonomické a právě naopak se ztrácí konkurenceschopnost. Až se začne propouštět v IT kvůli AI tak se dá říci že je skutečně přínosná, výhodná a profitabilní.
Copak jsem někde psal, že ho někdo zvládl za týden zkontrolovat? 4000 protocol je součástí dokumentace k lékům. Protocol samozřejmě prochází kontrolou a je jedno, jestli je napsaný lidmi, nebo AI. Process finální kontroly je stejný, ale ušetří se spousta času při jeho psaní. Jinak AI model nic jiného než psaní protokolu neumí, model byl speciálně natrénován pouze k psaní protokolů.
Někde na Xku si lze přečíst něco od Psycha, k tomu že z toho byl hodně vyždímaný. Obecně je třeba před programovacím AI mít respekt. Speciálně natrénované modely to dávají už jako ty nejlepší vývojáři. Zatím to myslím pořád cenově moc nevychází viz. poslední kauza v Cursoru, když změnily tarify a muselo se začít skutečně platit providerům modelů za to, co se spotřebuje.
Ale pokrok je v kódování masivní. Vznikají firmy a startupy jako https://www.factory.ai, kde to o žádném kódování už není - ne už vibe coding, ale "software department as service". Musk někde nedávno uvedl něco podobného, že se zabývají projektem "softwarové firmy", kde už žádní vývojáři nejsou.
Bych řekl, že narýsovaný je ten 0-engeneering jasně a všechno k tomu směřuje. Přijde mi i že mnohem více jak v jiných odvětvích, např. žurnalistice, právnících. Možná tak ještě reklama, dabing, počítačová/web grafika, tam to bude téměř celé AI teritorium ještě o něco dříve.
Speciálně natrénované modely to dávají už jako ty nejlepší vývojáři.
A je takový model někde k dispozici veřejnosti (třeba i za peníze)?
To, co říkáte vy, slyším od různých CEO, co zrovna přišli s produktem postaveným na AI. Jenže, co jsem viděl výstupy modelů od Anthropicu nebo OpenAI, tak mi to vůbec nepřijde.
U nás ve firmě trénujeme na našich projektech. Takový model by samozřejmě nedával smysl v jiné firmě. Tam užijou generický model, který např. zná standardní knihovny + projde si soubory otevřeného projektu.
Podobně máme vlastní model pro překlady technických textů s naší terminologií.
22. 7. 2025, 17:19 editováno autorem komentáře
Samozřejmě že jsou ty modely k dispozici za peníze, je to takový normální byznys. Když něco vyvinete, tak to dáte k dispozici za peníze, aby vám to něco vydělalo.
Jinak Claude Code už je na poměrně slušné úrovni, pokud si to dobře nastavíte. Umí pracovat až s 10 agenty současně, kteří jedou paralelně. Takže jeden píše kód, druhý ho hlídá, aby nepsal nesmysly, třetí dělá dokumentaci, čtvrtý project managera, atd... Je jen na vás, jak si těch 10 agentů nastavíte.
Modely Opus a Sonnet 4. Ale ono je to o tom napsat dobře specifikaci, pak z toho udělat dobrý sprint a nechat ty agenty pracovat podle toho sprintu a kontrolovat výsledek se specifikací. Kdybych tomu dal prompt ve stylu "naprogramuj mi webovou stránku", tak si tady pak budu na ty agenty taky stěžovat. Když ale chci dobrý výsledek, tak musím mít dobrý prompt. Něco ve stylu:
Role a odpovědnosti
Agent 1 (Softwarový inženýr)
Implementuje požadovanou funkcionalitu podle specifikace v dokumentu @SQL-Database-Sprint-001.md.
Musí striktně dodržovat pravidla a pokyny uvedené v @DEVELOPER-HANDBOOK.md.
Odevzdává čistý, funkční kód k revizi.
Agent 2 (QA inženýr)
Kontroluje výstup Agenta 1.
Pečlivě ověřuje, zda kód přesně odpovídá specifikaci z @SQL-Database-Sprint-001.md.
Pokud zjistí jakoukoli odchylku nebo chybu, okamžitě zastavuje práci Agenta 1 a žádá o opravu před pokračováním.
Agent 3 (Product Owner)
Kontroluje výstupy a interakce Agenta 1 i Agenta 2.
Dbá na to, aby oba agenti plně dodrželi jak @SQL-Database-Sprint-001.md, tak @DEVELOPER-HANDBOOK.md.
Je konečnou autoritou, která rozhoduje, zda implementace splňuje všechny požadavky, než dá schválení.
🧠 Osobnosti
Agent 1 — Zkušený programátor, který se vždy snaží dodržovat pravidla a osvědčené postupy.
Agent 2 — Extrémně puntičkářský, všímá si i těch nejmenších detailů.
Agent 3 — Nedůvěřivý a skeptický, vždy si osobně ověřuje vše před schválením.
Včera jsem si s Claude trochu hrál. Zadal jsem tomu, aby mi to přepsalo Linux Desktop Migration Tool, což je dnes shellový skript, jako GUI aplikaci v Pythonu, GTK a libadwaita. Co to má umět, je velmi podrobně specifikováno kódem toho skriptu. Volnost to mělo jen v GUI. Ze začátku jsem opravdu hleděl: vytvořilo si to pěknou strukturu, desktop file, AppStream metadata, flatpak manifest, dokonce i ikonu. Jenže pak to začalo narážet na problémy se závislostmi. Na funkce, které nebyly v použité knihovně v takové podobě, jakou to očekávalo. Celkově to ty verze střílelo hodně náhodně. Jak se to snažilo splnit úkol (a já tomu nechával volný průběh), tak to postupně osekávalo jednu funkci za druhou, až to skončilo s jednoduchou demo obrazovkou.
Ale věřím, že v nějaké softwarové továrně, kde mají jasně definované závislosti a velmi omezený cíl nasazení, to může fungovat. Nicméně obecně s tím mám problém, že to způsobuje inflaci kódu. Když jsem tomu dal za úkol něco přepsat, tak to přišlo s pro uživatele pohodlnějším řešením, ale za cenu třeba 15x delšího kódu. Když by to měl někdo programovat, tak si dvakrát rozmyslí, jestli mu to stojí za to. Takto to vyplivne za několik minut a lidi to budou akceptovat, protože je to aktuálně nic nestojí. Jaké to bude mít dlouhodobé důsledky z pohledu bezpečnosti apod, to je otázka.
No a pak je další věc, že to celé pořád pálí obrovské peníze investorů. Anthropic prodělává ještě mnohem víc než OpenAI. Clause Max stojí 100 dolarů měsíčně a jeho zákazníci běžně propálí vysoké stovky dolarů měsíčně. Až ta sranda nebude stát desítky až stovky dolarů, ale stovky až tisíce měsíčně, tak to bude zase jiná matematika.
23. 7. 2025, 10:34 editováno autorem komentáře
I u některých lidských programátorů ten kód člověk pak musí projít a opravit. V podstatě jde jen o to, kde je ta hranice "AI je lepší nebo rovna než XX % nejslabších programátorů". A tahle hranice se zvedá pomalu ale jistě každý rok (ale možná nikdy nedosáhne např. 70. percentilu). Zároveň klesá cena hardware (výkon/cena a výkon/spotřeba). Asi mají nějaký business plán, kdy budou aspoň na černé nule a nepropálí do té doby peníze od investorů.
Podle mě žádný krátkodobý ani střednědobý plán, jak se dostat do zisku, nemají. Velká IT sedmička do AI za poslední 2 roky investovala 560 miliard dolarů a vydělala na něm 35. To je opravdu brutální nepoměr nákladů a výnosů. A začínají přiznávat, že k nějakému obratu může dojít klidně až za 10 let.
Jinak tady ten člověk co to vyhrál referuje - https://x.com/FakePsyho/status/1945444118924272018
vyčerpaný ale dal to, jen s obyč. VS Code. Dostal kudos i od Altmana. Jinak za AI se toho zůčastnila jen ta speciální OpenAI, jinak samí lidé.
Ten model byl na ten typ úloh nejspíš fine tunovaný a není normálně dostupný. Obecně je tenhle typ úloh dost specifický, ale nějaké obecné závěry se na současnou AI dají udělat. Velmi pěkně to tam shrnul sám vítěz takhle:
With the current SOTA, I think it's not that hard to find situations where AI would win: standard/extemely noisy problem + huge budget. It's also easy to find situations where humans will win: "creative" problems with complex "base" solution + same testing budget as humans.
Uvidíme příští roky :-), mnozí tam píší že to bylo naposled.
22. 7. 2025, 21:07 editováno autorem komentáře
Jde o matouci titulek - jde o reseni np ulohy - coz neni programovani ale matematicka optimalizace nebo operacni vyzkum. Prirovnal bych to k reznikovi a chirurgovi, ano rezaji oba :-)
Uplne neni jasne jestli se mohly pouzit uz existujici solvery v kterych jsou i stovky let vyvoje nebo se melo zacit bez niceho a to porovnavat s llm majici historicke znalosti zadani a reseni ruznych np uloh.
Za me jsou ty modely skvele jako pomocnici. Udelaji hodne prace, ale porad je tam riziko (byt male) chyby. Problem by mohl nastat, kdyby se neucili dalsi lidsti programatori, kteri by chapali co ty AI modely generuji za kod. Tj. pak by vetsina lidi spolehala slepe na to co ty modely delaji a vubec nerozumela kodu, ktery produkuji. V tom vidim znacne riziko. Ale mozna se to opravdu smrskne na par lidskych koderu a vetsina ostatnich budou jen chatovat v AI programatorem...