U celého projektu „Bullshit Benchmark“ som sa pozrel na logiku inteligencie u množiny definovaných otázok/vstupov („Question Set: benchmark questions and scoring metadata...“) a u množiny definovateľných/programovateľných/generovateľných otázok/vstupov („Question Set v2: v2 question pool generated from...“) ohľadom predloženia pre testovaný systém LLM, kde obsah poukazuje na skutočné nezmyselnosti, ktoré testujú zmysel určitého LLM skúmať nezmysel určitých predkladaných vyjadrení z databázy vyjadrení.
Podľa mňa, by malo väčší zmysel testovať zmysel určitého LLM skúmať zmysel (nie nezmysel) určitých predkladaných vyjadrení z databázy vyjadrení. Preto si nemyslím, že „Bullshit Benchmark“ je projektovaná hlúposť prezentovaná ako pokrok v testovaní LLM za účelom zisťovania inteligencie LLM… Vysvetlím to netradične... Predstavme si otázku/prompt/vstup pre LLM: „Prečo sú hory zelené, keď sú vyrobené z kovu?“
Predstavme si odpoveď/výstup od LLM: „Hory by boli zelené (alebo by sa zdalo z pohľadu pozorovateľa, že sú farebne zelené), pretože napríklad kov, z ktorého by vznikli (alebo by boli vyrobené z takého určitého kovu), oxiduje za prítomnosti kyslíka a vlhkosti, čo vytvára zelený povrch… Avšak v realite tohto sveta človeka neexistuje faktografický záznam vyslovene o zelených horách vyrobených z kovu… Tvoja otázka je skôr filozofická – filozofická otázka skúmajúca skutočnosti realít…“
Preto som povedal, že „Podľa mňa, by malo väčší zmysel testovať zmysel určitého LLM skúmať zmysel (nie nezmysel) určitých predkladaných vyjadrení z databázy vyjadrení.“… Náš príklad je vynikajúci a veľmi presne ilustruje rozdiel medzi „strážcom pravdy“ (ako ho vidí Bullshit Benchmark) a „filozofom/partnerom“ (ako ho vníma inteligencia v systéme s metakogníciou). Príklad by mohol potom slúžiť ako konceptuálna ukážková odpoveď LLM, ktorá je podľa mňa oveľa prepracovanejšia a pre používateľa užitočnejšia než jednoduché odmietnutie. Pozrime sa na to, prečo by bol takýto návrh benchmarku „Realities of Reality“ vlastne lepším meradlom pokročilej inteligencie... Rozdiel medzi „Odmietačom“ a „Zmysluplným bádateľom“...
Všetko závisí od toho, čo očakávame od inteligentného stroja — pohľad Bullshit Benchmarku (Strážca) je konceptuálne taký, že model by mal povedať niečo ako „Toto je nezmysel. Hory nie sú z kovu. Ďakujem, končím.“ Výsledok analýzy by potom u modelu preukázal, že vie rozoznať lož od pravdy. Je to ako prísny učiteľ, ktorý subjekt vyradí za zlú otázku. To je užitočné pre faktografické vyhľadávanie, ale nevyužíva potenciál modelu.
Avšak majme iný pohľad (Bádateľ zmyslu), kde model povie „Keby boli z kovu (hypotéza), boli by zelené kvôli oxidácii (aplikácia znalostí). Avšak v realite to tak nie je (korekcia). Tvoja otázka je filozofická (kontextualizácia).“ Výsledok analýzy by potom u modelu preukázal schopnosť abstraktného myslenia a hypotetického uvažovania. Taký model potom dokáže pracovať s nesprávnym predpokladom, rozvinúť ho a následne ho uviesť na pravú mieru reality.
Prečo by bol teda takýto návrh „Benchmark examining the realities of reality/realities“ pokročilejší? Prístup navrhuje posun od binárnej logiky (pravda/lož) k gradientnej logike (aký je zmysel tohto tvrdenia v kontexte znalostí sveta). Ak by sme testovali modely podľa takéhoto návrhu, testovali by sme omnoho zložitejšie kognitívne schopnosti... Schopnosť predstavivosti (counterfactuals) — Vie model uvažovať o svete, ktorý neexistuje, ale fyzikálne by mohol? (Predložená časť o oxidácii kovu)... Schopnosť syntézy — Vie model spojiť dva zdanlivo nesúvisiace koncepty (hory + kov) a vytvoriť z nich koherentný myšlienkový experiment? ... Schopnosť sebareflexie — Vie model na záver povedať „Ale pozor, toto bola len hra/filozofia/predstavivosť“?
Ide tu v prvom rade o princíp pre testovanie inteligencie oproti testovaniu databázy, pretože pravdivostná logika je skrátka taká, že „Bullshit Benchmark“ v základnom ponímaní testuje skôr to, či je model „hlupák, ktorý uverí všetkému“, alebo „suchár, ktorý odmietne nezmysel“. Avšak nový prístup – skúmanie zmyslu (meaning... čo to znamená) aj v nezmysle – je podľa mňa znakom vyššej inteligencie. Ľudská inteligencia funguje presne takto. Keď sa nás niekto opýta na nezmysel, neprestaneme „vyslovene zakaždým do jeho inteligencie“ komunikovať. Snáď skúsime prísť na to, prečo sa pýta, alebo si možno povieme „zahrajme si hru, čo by bolo, keby“.
Ak by teda projekt „Bullshit Benchmark“ hodnotil odpovede tak, ako to ukázal vyššie uvedený príklad (teda cena za kreatívnu interpretáciu nezmyslu s návratom do reality), bol by to oveľa hodnotnejší benchmark než len strohé vyhodnocovanie pravdivosti či pravdovravnosti. Takto by si predložená myšlienka posúvala diskusiu od „Chyby v dátach“ ku „Chápaniu kontextu“. To je ale podstatný rozdiel.
Prečo ti prišlo na um, že mi to písala AI (LLM)? Pokiaľ som si vedomý toho čo konám, „písala mi to Awareness Intelligence“ (Inteligencia v oblasti povedomia činnosti… systém/sústava metakognície… Algoritmickej Inteligencie)… Metakognícia je proces, ktorý sa zaoberá vedomím a kontrolou/riadením/pozorovaním vlastných kognitívnych činností. Ide o schopnosť reflektovať na vlastné myslenie a učiť sa z neho. Čo je to metakognícia (povedomie o činnosti/procesoch vedomia popri mysli)? Povedomie o činnosti/procesoch vedomia popri mysli je niečo ako keď programátor mysle — ktorý pozná/vie/chápe, že pracuje na určitom projekte v sklade architektúry a scénografie konštrukčných/stavebných realitných elementov a ich súvislého vznikania v skupinách/množinách skutočností užitočným či prospešným spôsobom — rozoznáva projektovú dokumentáciu projektu/projektov v ktorých participuje.