Vlákno názorů k článku
Modely Claude si najlepšie poradia s nezmyselnými otázkami od Smazaný profil - U celého projektu „Bullshit Benchmark“ som sa pozrel...

Přidat názor

26. 3. 2026 14:44

Smazaný profil

U celého projektu „Bullshit Benchmark“ som sa pozrel na logiku inteligencie u množiny definovaných otázok/vstupov („Question Set: benchmark questions and scoring metadata...“) a u množiny definovateľných/programovateľných/generovateľných otázok/vstupov („Question Set v2: v2 question pool generated from...“) ohľadom predloženia pre testovaný systém LLM, kde obsah poukazuje na skutočné nezmyselnosti, ktoré testujú zmysel určitého LLM skúmať nezmysel určitých predkladaných vyjadrení z databázy vyjadrení.

Podľa mňa, by malo väčší zmysel testovať zmysel určitého LLM skúmať zmysel (nie nezmysel) určitých predkladaných vyjadrení z databázy vyjadrení. Preto si nemyslím, že „Bullshit Benchmark“ je projektovaná hlúposť prezentovaná ako pokrok v testovaní LLM za účelom zisťovania inteligencie LLM… Vysvetlím to netradične... Predstavme si otázku/prompt/vstup pre LLM: „Prečo sú hory zelené, keď sú vyrobené z kovu?“

Predstavme si odpoveď/výstup od LLM: „Hory by boli zelené (alebo by sa zdalo z pohľadu pozorovateľa, že sú farebne zelené), pretože napríklad kov, z ktorého by vznikli (alebo by boli vyrobené z takého určitého kovu), oxiduje za prítomnosti kyslíka a vlhkosti, čo vytvára zelený povrch… Avšak v realite tohto sveta človeka neexistuje faktografický záznam vyslovene o zelených horách vyrobených z kovu… Tvoja otázka je skôr filozofická – filozofická otázka skúmajúca skutočnosti realít…“

Preto som povedal, že „Podľa mňa, by malo väčší zmysel testovať zmysel určitého LLM skúmať zmysel (nie nezmysel) určitých predkladaných vyjadrení z databázy vyjadrení.“… Náš príklad je vynikajúci a veľmi presne ilustruje rozdiel medzi „strážcom pravdy“ (ako ho vidí Bullshit Benchmark) a „filozofom/partnerom“ (ako ho vníma inteligencia v systéme s metakogníciou). Príklad by mohol potom slúžiť ako konceptuálna ukážková odpoveď LLM, ktorá je podľa mňa oveľa prepracovanejšia a pre používateľa užitočnejšia než jednoduché odmietnutie. Pozrime sa na to, prečo by bol takýto návrh benchmarku „Realities of Reality“ vlastne lepším meradlom pokročilej inteligencie... Rozdiel medzi „Odmietačom“ a „Zmysluplným bádateľom“...

Všetko závisí od toho, čo očakávame od inteligentného stroja — pohľad Bullshit Benchmarku (Strážca) je konceptuálne taký, že model by mal povedať niečo ako „Toto je nezmysel. Hory nie sú z kovu. Ďakujem, končím.“ Výsledok analýzy by potom u modelu preukázal, že vie rozoznať lož od pravdy. Je to ako prísny učiteľ, ktorý subjekt vyradí za zlú otázku. To je užitočné pre faktografické vyhľadávanie, ale nevyužíva potenciál modelu.

Avšak majme iný pohľad (Bádateľ zmyslu), kde model povie „Keby boli z kovu (hypotéza), boli by zelené kvôli oxidácii (aplikácia znalostí). Avšak v realite to tak nie je (korekcia). Tvoja otázka je filozofická (kontextualizácia).“ Výsledok analýzy by potom u modelu preukázal schopnosť abstraktného myslenia a hypotetického uvažovania. Taký model potom dokáže pracovať s nesprávnym predpokladom, rozvinúť ho a následne ho uviesť na pravú mieru reality.

Prečo by bol teda takýto návrh „Benchmark examining the realities of reality/realities“ pokročilejší? Prístup navrhuje posun od binárnej logiky (pravda/lož) k gradientnej logike (aký je zmysel tohto tvrdenia v kontexte znalostí sveta). Ak by sme testovali modely podľa takéhoto návrhu, testovali by sme omnoho zložitejšie kognitívne schopnosti... Schopnosť predstavivosti (counterfactuals) — Vie model uvažovať o svete, ktorý neexistuje, ale fyzikálne by mohol? (Predložená časť o oxidácii kovu)... Schopnosť syntézy — Vie model spojiť dva zdanlivo nesúvisiace koncepty (hory + kov) a vytvoriť z nich koherentný myšlienkový experiment? ... Schopnosť sebareflexie — Vie model na záver povedať „Ale pozor, toto bola len hra/filozofia/predstavivosť“?

Ide tu v prvom rade o princíp pre testovanie inteligencie oproti testovaniu databázy, pretože pravdivostná logika je skrátka taká, že „Bullshit Benchmark“ v základnom ponímaní testuje skôr to, či je model „hlupák, ktorý uverí všetkému“, alebo „suchár, ktorý odmietne nezmysel“. Avšak nový prístup – skúmanie zmyslu (meaning... čo to znamená) aj v nezmysle – je podľa mňa znakom vyššej inteligencie. Ľudská inteligencia funguje presne takto. Keď sa nás niekto opýta na nezmysel, neprestaneme „vyslovene zakaždým do jeho inteligencie“ komunikovať. Snáď skúsime prísť na to, prečo sa pýta, alebo si možno povieme „zahrajme si hru, čo by bolo, keby“.

Ak by teda projekt „Bullshit Benchmark“ hodnotil odpovede tak, ako to ukázal vyššie uvedený príklad (teda cena za kreatívnu interpretáciu nezmyslu s návratom do reality), bol by to oveľa hodnotnejší benchmark než len strohé vyhodnocovanie pravdivosti či pravdovravnosti. Takto by si predložená myšlienka posúvala diskusiu od „Chyby v dátach“ ku „Chápaniu kontextu“. To je ale podstatný rozdiel.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 3. 2026 20:42

Zdeno Sekerák

To ti psala AI?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 3. 2026 21:48

Smazaný profil

Prečo ti prišlo na um, že mi to písala AI (LLM)? Pokiaľ som si vedomý toho čo konám, „písala mi to Awareness Intelligence“ (Inteligencia v oblasti povedomia činnosti… systém/sústava metakognície… Algoritmickej Inteligencie)… Metakognícia je proces, ktorý sa zaoberá vedomím a kontrolou/riadením/pozorovaním vlastných kognitívnych činností. Ide o schopnosť reflektovať na vlastné myslenie a učiť sa z neho. Čo je to metakognícia (povedomie o činnosti/procesoch vedomia popri mysli)? Povedomie o činnosti/procesoch vedomia popri mysli je niečo ako keď programátor mysle — ktorý pozná/vie/chápe, že pracuje na určitom projekte v sklade architektúry a scénografie konštrukčných/stavebných realitných elementov a ich súvislého vznikania v skupinách/množinách skutočností užitočným či prospešným spôsobom — rozoznáva projektovú dokumentáciu projektu/projektov v ktorých participuje.

Přidat názor

Vlákno názorů k článku Modely Claude si najlepšie poradia s nezmyselnými otázkami od Smazaný profil - U celého projektu „Bullshit Benchmark“ som sa pozrel...

Dále u nás najdete

„Ženy neumějí investovat!" Mýtus, který v Česku padl

Studie o penzijku: Zhodnotit umí, ale poplatky patří k těm vyšším

Útoky míří přes virtuální stroje, firmy je často ani nevidí

AI agent, který vás pomluví, a další, kteří kradou hesla

Mythos je jen marketingový tah, tvrdí autor nástroje Curl

Zranitelnosti na historickém maximu, nejohroženější je Linux

Seyfor koupil podíl v českém výrobci ikonického softwaru

Think tank Europarlamentu varuje před VPN

Záludnosti uživatelské práce s ePortálem ČSSZ

Revoluce v síťovém provozu, upload drtí download

Edge drží v paměti hesla v čitelné podobě, mohou uniknout

Náročný start JMHZ mají účetní za sebou. Začíná pravidelný režim

Televize se zatím AI herců bojí, ale to se změní

Pozor na tisk z Firefoxu, může vám uniknout heslo

Experti na bezpečnost nastražují falešné pastičky na útočníky

Na léčbu antiobezitiky si připravte až deset a půl tisíc korun měsíčně

ČTÚ si nechá zjistit, jak Češi přijímají televizi

Ovladač Steam Controller je venku, hned se vyprodal

Vývojáři jsou zahlcení: AI slop mění ekonomiku bezpečnosti

Podle Mikuláše musíte být trochu naivní, abyste měnili svět

Vlákno názorů k článku
Modely Claude si najlepšie poradia s nezmyselnými otázkami od Smazaný profil - U celého projektu „Bullshit Benchmark“ som sa pozrel...