Tak jeden programátor by něco takového dělal několik desetiletí. OK, možno jen let, než by jej odvezli na psychinu. Tady si šlo o něco jiného - ukázat, v jakém stavu je AI a jestli je už možno jí něco takového svěřit, nebo ještě ně. No a výsledek je, že ještě ne. A že to stálo prachy? Někdo si vyhodnotil rizika a řekl, že ty prachy na to dá. Tak kde je problém?
Přiznám se, že můj odhad opravdu kvalifikovaný nebyl. Máte nějakou konkrétnější představu, kolik člověkodnů může trvat, řekněme, ruční napsání kompilátoru jazyka C na jednu platformu v kvalitě, která by umožňovala nasazeni aplikace na produkční prostředí? Třeba "jen" pro mikrokontrolér? Bez knihoven, opravdu "jen" dobře otestovaný kompilátor?
Dobrá otázka. Možná je dobré si ujasnit zadání. Ono to totiž není "ruční napsání kompilátoru" ale spíše "tady máš naprosto všechny zdrojové kódy z celého světa, které jsme získali, kašli na licenci, klidně z toho použij cokoli a nějak z toho zamixuj výsledek"
Překladač od nuly a kvalitní je určitě práce na hodně dlouho, jenže nikdo to od nuly asi psát nebude. Kdybych to dostal na stůl, tak minimálně bych asi použil obdobu Yaccu a Lexu (dneska už je určitě něco lepšího), všechny možné a dostupné optimalizace (asi nad LLVM IR) atd. Určitě ne psaní od nuly (to by i té AI trvalo léta nebo spíše desetiletí nebo století stylem pokus-omyl).
Díky za odpověď. No jo, v dané době je dobré používat nástroje, které jsou v té době dostupné. Takže je asi opravdu nesmysl dnes psát kompilátor od nuly. A ano, yacc a lex mě také napadly. Holt, stará škola... Dnes už jsou zase jiné nástroje, dokonce jakýsi generátor generátorů - někdy před půl rokem jsem něco hledal a narazil na něj, bohužel si už jméno nepamatuji, jen že to bylo nějaké strašně složité. Možná jsem se měl zeptat AI, jak na to.
====
ale spíše "tady máš naprosto všechny zdrojové kódy z celého světa, které jsme získali, kašli na licenci, klidně z toho použij cokoli a nějak z toho zamixuj výsledek"
====
Autor v blogu (který je IMO velice poučný, zajímalo by mě, kdo z diskutujících si jej celý přečetl) uvádí, že modely neměly přístup k internetu, celý vývoj proběhl offline, nez jakýchkoliv dalších materiálů. Takže vzhledem k použitému Rustu se domnívám, že až tak moc "vykradených zdrojáků" tam nebude, protože rustích kompilátorů moc natrénovat nemohl.
Autor celkem detailně popisuje, jakým způsobem vývoj probíhal, jak si agenti (částečně) rozdělili role, jak to bylo především o obrovském množství testů (a failů). Jo, lidi by pracovali systematičtěji, ale uvidíme, jak to bude vypadat ještě za pár dalších iterací modelů. Osobně bych nebyl optimista, že to nebude mít zásadní vliv na práci lidských vývojářů.
Píše
====
This was a clean-room implementation (Claude did not have internet access at any point during its development); it depends only on the Rust standard library.
====
Takže měl k dispozici akorát natrénovaný model ve více instancích + rust knihovnu, bez ničeho dalšího. Žádné hotové implementace čehokoliv, na čem by mohl dál stavět.
Samozřejmě že všechno, co šlo sehnat. Někdo brání profesionálovi, aby přečetl všechno, co jde sehnat? Samozřejmě nemluvím o nelegálním přístupu k ukradeným zdrojům. Pokud někdo něco zveřejní, musí počítat s tím, že si to někdo/něco přečte a zaktualizuje si tím své synapse/parametry. A pak tu "znalost" využije v další činnosti. Ať je to člověk nebo LLM. Já v tom až tak velký rozdíl nevidím. V obou případech použije akorát znalosti získané učením. Já to nepovažuji za "obšlehnuté zdrojáky". Ale každý to vidí jinak, což je taky v pořádku.
Samozřejmě že to běží jednou, na všech těch vstupních datech, které jsou v daném čase k dispozici (je nepodstatné, zda trénink provádí samo LLM, nebo nějaké obslužné nástroje). Pak naučený model spustí, dají mu k dispozici znalosti ovládání svých agentů přes popisy v nějakých promptech (ani nemusí být lidsky čitelné, ale pořád jsou to návody), příp. nějaké programátorské postupy/prompty - tedy to co tvoří ten Claude Code. A dalším promptem tomu modelu s přístupem k pomocným nástrojům dali za úkol napsat ten kompilátor. Takže to co měl ten celý model k dispozici se pořád jenom to, co získal ve fázi učení + ty "vývojářské best practice" prompty. V čem se to liší od toho, co jsem napsal?
Nebo má Claude Code k dispozici nějakou lokální (bez přístupu na net) obrovskou databázi zkopírovaného ("obšlehnutého")/přechroupaného knowhow, kterou by přes RAG průběžně konzultoval? To bych se divil, protože tam už by si dost zahrávali s autorskými právy, ale třeba jo... Tak jak to je?
9. 2. 2026, 19:45 editováno autorem komentáře
Jak s touto diskusí souvisí velikost trénovacích dat? Nikdo tu nerozporuje, že se při tréninku (tj. ladění parametrů modelu) používá vše, co je v daný čas dostupné (ať při prvním tréninku, nebo někdy později při "dotrénování" - možná je desetinné číslo modelu verze dotrénování, nevím, ale není to zde důležité).
já nepsal natvrdo "obšlehnuté zdrojáky", ale ano, i tak by se to asi dalo hodnotit (jenže do těch modelů nevidíme, navíc současné modely nerady označují zdroje).
Pořád čekám, kdy se v IT objeví někdo, kdo na tom bude vydělávat po analýze zdrojáků (a teď se nebavím o morálce okolo celé genAI, to je na delší povídání někde u piva :-).