Vetu
"Encouragingly, we also haven’t seen any bugs that couldn’t have been found by an elite human researcher."
by som neprekladal ako
"Dosud jsme nenašli žádnou kategorii ani úroveň složitosti zranitelnosti, kterou by dokázali odhalit lidé, ale tento model nikoli."
ale presne naopak - t.j., že bugy ktoré našiel model, by našli aj ľudia.
Je to tak, díky za opravu. Potvrzuje to vlastně myšlenku, že jazykové modely nenacházejí žádné tajemné chyby, které by byly pro lidi neodhalitelné nebo nepochopitelné.
No ona ve zdroji je i ta opačná věta:
So far we’ve found no category or complexity of vulnerability that humans can find that this model can’t.
Nečetl jsem to celé. Asi to myslí tak, že momentálně modely nachází zhruba podobné věci co lidé.
To ano ale pre mna je najdolezitejsie to, ze tie chyby odhalili jazykove modely a nie ti elitny vyskumnici.
Sila tych modelov je v rychlosti ako to dokazu. Tomu ta elita nema sancu konkurovat.
Ale vypadá to, že už jsme na hranici. Že není moc daleko doba, kdy jazykové modely dokážou odhalit chyby, které budou příliš komplexní na to, aby je objevil člověk. Ne že by to byla nějaká úplně nová kategorie chyb, ale budou to chyby příliš komplikované na pochopení jedním člověkem.
Každopádně už teď je podstatné to, že AI agenti dokážou projít řádově víc kódu, než by dokázalo těch pár největších lidských expertů. A zároveň to pořád není náhrada práce těch expertů – jen mají k dispozici daleko výkonnější nástroj, ale posouzení kontextu je stále na těch expertech.
To ze jirsak nechape ani zakladni principy ... ze se divim ze?
Statisticky model dela to, ze veme chybu popsanou !clovekem! a hleda stejnou konstrukci. Pritom narozdil od cloveka ma velmi vyskoly false positive, protoze nedokaze zhodnotit okolnosti.
Tudiz zadnou jinou chybu ani teoreticky ani prakticky odhalit nemuze.
"zcela nové formy zranitelností, které přesahují naše současné chápání."
Připadá mi, že takové formy se historicky už jednou našly. Jsou to chyby zneužívající spekulativní zpracování instrukcí a jiné prvky CPU, nebo taky rowhammer. Na ty v kódu vůbec nepřijdete, protože ze sémantiky nevyplývají.
23. 4. 2026, 09:28 editováno autorem komentáře
V historii se určitě nešly nové formy zranitelností, třeba útoky na časování. Ale nad těmi zranitelnostmi CPU jsem právě přemýšlel, zda to byla zcela nová forma zranitelností, nebo jestli to byly jen známé typy zranitelností na novém místě. Podle mne je to tak na pomezí – technický princip chyby nový nebyl, ale způsob „využití“ technického principu byl dost inovativní.
Ale myslím si, že minimálně tu kategorii CPU chyb by i dnes mnohem snáz objevil člověk, než AI. Protože tam je podstatná znalost širokého kontextu, to AI moc neumí, ta umí jít naopak hodně do hloubky.
To srovnání s AISLE je nečestné. V AISLE vzali ten konkrétní kousek kódu (ještě z něj ručně vypustili nerelevantní části), napsali ručně velmi návodný kontext a sugestivně se zeptali, jestli tam náhodou není chyba. Čili dalo by se říci, že testovali, jestli model rozumí writeupu o zranitelnosti. To je úplně jiná disciplína než zranitelnost najít v surové codebase a ještě na ni vyvinout funkční exploit.
Proč by vymýcení bezpečnostních zranitelností mělo být nereálný cíl?
To jako nejde napsat kód bez chyb?
Chyba se stát může... ale to nikdo nedělá kontrolu a testy aby byla chyba objevena a opravena před vydáním?
(a nemyslím tím teď jenom Firefox ale každýho kdo tvoří kód/software)
To jako nejde napsat kód bez chyb?
Obecně nejde. Chyba v programu znamená, že se program nechová v souladu se zadáním. Když máte rozporné zadání, budou v programu chyby. Takže vaše otázka by se dala přeformulovat jako: „To jako nejde vytvořit bezrozporné zadání?“ A odpověď je, že pro složitější programy samozřejmě nejde.
Samozřejmě to neznamená, že nepůjde s AI opravit spoustu chyb a zranitelností. Spoustu ano, všechny těžko.
ale to nikdo nedělá kontrolu a testy aby byla chyba objevena a opravena před vydáním?
Samozřejmě že dělá. Ale nejdřív někoho nebo něco musí napadnout, že vůbec taková chyba může vzniknout, pak to teprve může kontrolovat a testovat. A také na to musí být zdroje.
Na základní škole nás už tehdy pan ředitel učil:
Nikdy neříkej že něco nejde, protože se vždycky najde nějakej blbec, kterej neví že to nejde a udělá to.
Pokud máte univerzální řešení, jak psát programy bez chyb, sem s ním. Krom toho, že na něj nedokázali přijít v největších technologických firmách, by vás nejspíš zaměstnali kdekoliv s pohádkovým platem.
Jediné, co máme, je analýza a testování (dnes dost často i automatizované přes CI, ale to samo o sobě nestačí) a i to pouze vychytá známé nebo zjevné chyby.
23. 4. 2026, 15:46 editováno autorem komentáře
Pisat bez beznostnych chyb nejde. No aj mozete napisat nejaky maly program, ktory bezpenostne chyby mat nebude, ale to plati vo velmi obmedzenom pripade, lebo ten program je zavysli na nejakych knizniciach, na operacnom systeme a ne nejakom hardveri... daju sa vyuzit ich chyby. A keby aj nie, prostredie okolo programu sa meni, napriklad nejaka kniznica zmeni defaultnu hodnotu premenej a vy mate bug, alebo chrome vyda aktualizaciu a uz mate dieru.
Zadání nebývá rozporné, ale spíš neúplné. Zadání říká co program dělat má. Ale obvykle nepopisuje do všech detailů, co dělat nemá, nebo jak má reagovat na všechny možné vady na vstupu. To je pak na vývojáři, jak tyhle případy dokáže předvídat, zvážit zneužitelnost a ošetřit.
Ty sa asi nezivis testingom vsak?
Nejde napisat kod bez chyb.
Vies ich len minimalizovat. Cim vecsia minimlaizacia, tym vecsie naklady na to.
V roznych odvedviach mas rozne definovane poziadavky na kvalitu/chybovost.
Mas na to normalne normy.
Ta kontorola, aj nasledna oprava a cely manazment okolo nieco stoji a tak si musis vybrat medzi nakladmi/cenou a kvalitou.
Proc tam vlastne hledaj chyby?
Nebylo by jednoduchsi dat prompt:
"Naprogramuj v Rustu multiplatformni browser s velmi rychlym vykreslovacim jadrem a bez bezpecnostnich chyb".
Firefox zahodim a mam novej suprovej browser.
Proc? Ja jsem slysel ze AI vibe koduje cely aplikace. Ze to je dokonce lepsi nedavat moc specificky prompt co presne jak udelat...ze AI si sama zvoli nejlepsi architekturu aplikace a vsechno.
Ze si AI udela nejdriv plan, rozvrhne praci a potom jednotlivy subagents s specifickymi skills delaj specifickou cast aplikace takze to dela appku paralelne a nakonec si napise i testy a otestuje...ze pry programator to jen sleduje na nejakym dashboardu kolik to spotrebovava tokenu.
Vsude to slysim ze to takhle funguje.
Fungovalo by to.
Ale melo by to presne stejny chyby jako ostatni browsery, protoze o tech taky vsichni tvrdej, ze zrovna ted zadnou chybu nemaj. A samozrejme by to melo spousty dalsich nedostatku a chyb jako bonus, protoze zadna definice neni kompletni a vsechny browsery obsahujou hromady ruznych hacku klidne i pro konkretni sajty.
Ostatne viz napriklad nekde kolem rozchozeni intelich cpu ve standardnich desktopovych deskach. A to prostrednicvim AIckem vygenerovaneho biosu (na cca 200sty pokus ... ).