By me zajimalo, k cemu je dobry mit neverejny zdrojaky, pokud jsou verejny binarky.
Tady nekdo zjevne nechape, ze hledani der v binarkach je pro stroj presne totez, jako to hledat ve zdrojacich. Ten kdo s tim ma problem je clovek.
"hledani der v binarkach je pro stroj presne totez, jako to hledat ve zdrojacich
"
Vážně je to tak?
Resp., jsem si jistej, že jsou přístupy kde to je přesně jak říkate. Ale v kontextu LLM bych čekal, že ty budou mnohem lépe pracovat s textovým vstupem a nikoli binárním. Uniká mi něco?
Unika ti ta drobnose, ze kdyz mam binarku, muzu ji snadno dekompilovat ... do principielne libovolnyho jazyka. Jen holt ten vysledek bude typicky pomerne spatne citelnej, coz vadi cloveku, ale ne stroji.
Pricemz ten stroj ani tou fazi dekompilace projit nemusi, ve skutecnosti i clovek si muze cist klidne rovnou strojak (= pekne hexa kody instrukci ...) jen je to jeste hur zpracovatelny (pro cloveka) nez ten dekompilovanej kod. Stroji je to uplne jedno.
A ano, llm na to musis natrenovat ... coz je otazka tomu predhodit par binarek se znamejma bugama, a pak ho nechat sacovat vsechny ostatni ze?
Nechce mi tu nekdo tvrdit, ze tohle jeste nikomu nedoslo ze ne?
Pokud se budem bavit o webu, tak sql injection (naprilkad) ti jako clovek otestuju na jednom behem par minut, stroj to zvladne za sekundy na milionech webu.
BTW: Vysvetli mi, jak to llm udela (sice strasnej ale ...) preklad hry, kdyz k tomu zadny zdrojaky nejsou, mas nekolik GB velkej binarni blob.
Ten stroj tomu kodu nerozumi, hleda vzory ktery mu nekdo predlozil. A je uplne jedno v jaky forme.
Popravdě řečeno. Živím se tvorbou agentic AI, nedávní jsem si jakonoet project napsal vlastního code agenta čistě v bash s několika málo dependencemi jako jq, curl, awk, sed, core utils. Jako LLM používám selfhosted gemma 4 31b pomocí llamacpp. Jak nejlépe to otestovat, no přece pomocí vibe coding, a ejhle I tenhle (poněkud “tupější” model) se odhodlal používat readelf a objdump kdy jsem používal binární dynamicky linkovanou knihovnu. A odtud k tomu o čem mluvíte je jen malinkatý kousek. A ti mluvíme o modelu na který vám stačí Ryzen AI Max 395+. Take jsem tomu předhodil wasm a bez problému si to s tim poradilo. Na druhou stranu nemyslím si ze Mythos je schopen odhalit nějakou novelty zero day vulnerability, přece jen transformer funguje na predikci paternu. Jako ano reasoning dokáže poskládat věci dohromady někdy zajímavým způsobem, někdy úplně debilním. Ale kreativní to opravdu není, proto trvám na svém výroku v předchozí větě.
Já bych se ve výstupu z nástroje Ghidra asi nevyznal. Ale LLM se v tom pravděpodobně vyzná velmi dobře. Obzvlášť, pokud se přitrénuje na dekompilačních výstupech, kde zdrojový kód známe.
Ale to je prece uplne jedno, pokud je to verejnej web nebo verejny API, coz predpokladam, tak je to presne totez.