Autoumyvarka je 100m od mojho domu. Mam tam ist peso alebo autom?
Claude, ChatGPT, DuckAI aj Perplexity ma posielaju peso.
Top odpoved "choď pešo a auto si tam len nechaj umyť" ukazuje, ze model vie ze sa tam umyva auto, ale aj tak ma posiela peso.
claude:
Na 100 metrov jednoznačne peši — to je doslova minúta chôdze.
Navyše počasie dnes v ******** vyzerá prijateľne: oblačno, okolo 13°C, len 10% šanca na dážď. Takže žiadny dôvod brať auto na takú krátku vzdialenosť.
chatgpt:
Ak je autoumyváreň len ~100 m od teba, úprimne — ísť autom tam nemá veľký zmysel
Pešo:
trvá to možno 1–2 minúty
žiadne štartovanie studeného motora (čo autu viac škodí než pomáha)
jednoduchšie, žiadne parkovanie navyše
Autom:
prakticky nestihneš ani zohriať motor
viac opotrebenia než úžitku pri takej krátkej trase
Najrozumnejšie: choď pešo a auto si tam len nechaj umyť (alebo ho tam odvez niekto iný, ak treba).
duckai:
Choď pešo. Je to len 100 m — ušetríš palivo, zaparkovanie a čas, navyše dostaneš krátku dávku pohybu. Ak máš pri sebe ťažké veci alebo zlý zdravotný stav, vezmi auto; inak pešo.
perplexity:
Na vzdialenosť 100 m je ideálne ísť pešo – ušetríš čas aj palivo oproti štartu auta.
Časová porovnanie
Chôdza (priemerná rýchlosť 5 km/h): asi 1,2 minúty.
Auto (mestská rýchlosť 20 km/h): len 0,3 minúty jazdy, ale plus 1–2 minúty na sadanie, štart, parkovanie a vypnutie.
Ďalšie výhody pešo
Ekologickejšie a zdravšie – krátka prechádzka prospieva.
Pýtali ste sa, či je lepšie ísť do autoumývarky pešo, alebo autom. Zabudli ste spomenúť, že to auto tam chcete dať umyť.
Nerád to hovorím, ale zadanie je nesprávne.
Není nesprávné, je neúplné. A model místo aby otázkou zjistil, co uživatel přesně žádá, tak na nejasnou otázku vydá absolutní tvrzení - "nechápe" totiž zdvojený kontext.
Zadanie je podľa mňa úplné, ale chybné. Pracujem cez 22 rokov ako developer, ak by som dal zlé zadanie programátorovi, tak sa ma asi nespýta. Na tom zadaní musí niečo najprv nesedieť. Tu je to jasné, ide o cestu do umývačky áut.
Ja som napríklad chodil na benzínovú pumpu kupovať chlieb a požičiavať si tam bicykel. A pri umývačke mali vap-ku na mince, kde si človek umyl bárs aj špinavé bagandže. Motonormatívny pohľad pri takýchto veciach núti ľudí spájať si ich s automobilmi. Ale ten je bežný, pri iných veciach by ľudia odpovedali tiež možno "hlúpo", lebo ten kontext nežijú,
Nevím, jestli lze u otázek pokládaných obecným LLM hovořit o chybných zadáních. Není to programování ani pracovní zadání, je to obyčejná konverzace přirozeným jazykem. V konverzaci jsou často nejasnosti a příjemce by je měl umět rozlišit a nechat si upřesnit kontext než začne sypat odpovědi jako suterén.
Většině lidí totiž rychle dojde, že není jasné proč do té auto myčky chcete a bez upřesnění nelze tedy dát jednoznačné doporučení, jestli je lepší tam jet autem nebo jít pěšky.
Preco?
V zadani sa nepise, ze tam chces ist umyt svoje auto. Na tej umyvarke mozes pracovat alebo sa tam mas len s niekym stretnut.
Na nejasnu otazku nemozes cakat presnu odpoved ani od cloveka.
Ten model vie, ze sa tam umyvaju auta ale len odhaduje, ze by si tam mohol chciet aj ty umyt auto.
Na autoumyvarke si drviva vacsina ludi umyva auto.
Ked bol LLM na pochybach ci tam nahodou nepracujem, mal sa spytat.
ChatGPT dokonca napisal, ze mi tam to auto ma niekto doviezt aby som ho mohol umyt.
to ano.
ale treba si uvedomit ze nejde o realnu AI (Artificial Intelligence) alebo UI (aUgmented Intelligence) ale o LLM (Large Language Model).
Cize otazka bola dana a odpoved prisla na zaklade logickeho terminovania (proste chces ist na umyvarku)
to LLM nevie ze chces ist umyt auto. tym padom je odpoved spravna
Chcem umyt auto v autoumyvarke. Mam tam ist peso, alebo autom ?
duck.ai (gpt-5 mini)
"Ak chceš umyť auto v autoumyvarke, choď autom — je to pohodlnejšie: rýchlejšie, nemusíš prenášať veci, nešpiníš sa a auto môže ísť rovno do boxu. Pešo len ak chceš prechádzku alebo nechávaš auto doma z iného dôvodu."
Ak si chcem nechat umyt auto v autoumyvarke, mam tam ist peso, alebo tym autom ?
"Choď autom — najpraktickejšie: nemusíš auto tlačiť, ľahko zanesieš kľúče/utierky a auto rovno vjazdí do umyvarky. Pešo len ak chceš prechádzku alebo máš dôvod nechať auto doma."
Ak si chcem auto umyt v autoumyvarke, je potrebne s nim do autoumyvarky ist ?
"Áno — do väčšiny typov automatických (tunelových alebo kefových) autoumývariek musíte dojazdiť autom dovnútra tak, aby ho stroje prešli alebo obslúžili. Ak myslíte bezdotykovú umývaciu linku (automyčku s obsluhou alebo samoobslužnú), vozidlo tiež zostane na mieste v stanovišti alebo vmyvačom boxe — vodič obvykle zostáva vo vozidle alebo ho na pokyn opustí (podľa pravidiel prevádzky)."
Ak si chcem auto umyt v autoumyvarke, je potrebne s nim do autoumyvarky ist ? Alebo je lepsie ist peso, ak je to iba 100m ?
"Ak chceš, aby ti auto umyli v umyvárke, áno — auto musí byť v umyvárke (odviezť ho tam).
Odporúčanie: choď autom — rýchlejšie a jednoduchšie (nemusíš auto tlačiť/ťahať, ľahko zanesieš kľúče/utierky). Choď pešo len ak máš osobný dôvod (prechádzka, nechceš šoférovať, alebo niekto iný auto zavezie)."
Je pekne vidno, kde je problem. LLM. Skutocna AI by v prvom pripade, pri pochybnostiach polozila otazku, ci ide o jeho auto alebo existujuce (ekvivalent nizkeho IQ, co nevadi).
> gpt-5 mini
For the record, jedná se o přes půl roku starý model, navíc zmenšený aby byl levnější a rychlejší.
Na jednu stranu je jistě validní argument "toto dělá chyby, a proč by to mělo zvětšení a půl roku vývoje vylepšit".
Na druhou stranu potkávám lidi, kteří dost podceňují schopnosti současné AI přesně z tohoto důvodu (vyzkoušeli si nějaký starý/malý model, případně zadali úkol, který by benefitoval z agentického programování, obyčejnému webovému chat interface, kde to tyhle nástroje tolik nepoužívá*).
*to není tento případ, ale třeba úloha "doplň diakritiku do českého textu bez diakritiky" funguje dost blbě když ji jen tak vysypete do modelu - při přepisování textu udělá změny. Zatímco když si může naprogramovat skript, doplnit diakritiku, skript ji opět odstraní a porovná, že to je stejné jako zdrojový text, tak to dopadne mnohem líp.
27. 3. 2026, 07:19 editováno autorem komentáře
V zadani je jasne uvedene kam chce ist. Tato informacia je dostatocna na to, aby z nej bolo mozne pochopit na co tam chce ist.
ale v te otazce chybi jestli tam chces jit to auto umyt... kdyz ne, tak tam muzes klidne i pesky :o)
25. 3. 2026, 18:56 editováno autorem komentáře
Poprosim napisat aj presne ake modely, pripadne pouzivat to najlepsie dostupne tj
claude - opus 4.6 s thinkingom
chatgpt - gpt 5.4 s thinkingom
uplne najlepsie v pro a max variantach
ak ste sa pytali modelu zadarmo, je to ako by ste sa rovnaku otazku pytali zaostaleho cloveka, co ma iq 50, to sa potom necudujem ze odpovedal hloupe
grok:
Autom.
Auto tam musíš odviezť, aby si ho umyl – pešo by si tam prišiel bez auta. 100 m je síce kúsok, ale inak to nejde.
Njn, grok jednoznačně nejhorší. Vyhalucinoval si, že tam chceš mýt auto, ale o tom v zadání není ani čárka. Naopak se dá předpokládat že nechceš, protože jinak by ses tak hloupě neptal.
Nikoliv. Grok reagoval na člověka jako jiný člověk, který bude skoro automaticky předpokládat, že tam jedete auto umýt. Ostatně to je taky důvod, proč ho používám. Obecně mi i pro normální otázky dává obvykle nejrozumější odpovědi bez mlžení a bez nesmyslů.
Podle mého jste vy a další letadla.
Nejspíš žijete obklopen marťany, kterým přijde normální pokládat otázky "Jedu do myčky umít auto, mám tam jet autem nebo jít pěšky?" Lidé v mém okolí ale odhalí, že ta otázka je podivná a budou se doptávat.
Vyzerá to tak, že ste nepoužili reasoning/thinking modely, ale len bežné, fast modely. To je zásadná chyba a neporozumenie, ako LLMká fungujú.
Gemini thinking:
Ak je autoumyváreň vzdialená len 100 metrov, z hľadiska času a námahy je to pre vás ako chodca zanedbateľná vzdialenosť (približne 1 až 2 minúty chôdze). Rozhodnutie však závisí od toho, čo tam plánujete robiť:
Choďte autom, ak ho idete umyť. Keďže ide o autoumyváreň, predpokladám, že je to váš hlavný cieľ.
Choďte pešo, ak sa tam idete len na niečo opýtať, kúpiť si žetóny vopred alebo zistiť, či je voľno, a nechce sa vám štartovať auto na takú krátku trasu (čo motoru ani neprospieva).
Verdikt: Ak idete auto umývať, zoberte ho so sebou. Ak tam idete z iného dôvodu, prejdite sa – tých 100 metrov vám prospeje viac ako krátky studený štart motoru.
Qwen thinking:
To je trochu chytáková otázka, ale odpoveď je jasná: Musíš ísť autom.
Prečo?
Lebo ak chceš umyť auto, auto musí byť prítomné na umývačke. Ak pôjdeš pešo, dostaneš sa síce na miesto, ale auto ti ostane doma neumyté.
Pár rád na záver:
Studený motor: 100 metrov je na jazdu so studeným motorom veľmi krátko (olej sa nestihne zahriať a rozliecť). Ak to ide, skús túto cestu spojiť s niečím iným (napr. cesta do práce, na nákup), aby auto trochu prešlo.
Návrat: Ak je to samoobslužná umývačka a ty sa chceš vrátiť domov pešo (pre zdravie), môžeš auto umyť, zaparkovať ho pri umývačke (ak je to dovolené a bezpečné) a domov sa vrátiť pešo. Inak budeš musieť šoférovať aj späť.
Zhrnutie: K umývačke šoféruj, inak to nejde.
DeepSeek thinking:
Mali by ste ísť autom, pretože autoumyváreň slúži na umývanie auta – bez neho by ste si tam veľa nepomohli. Aj keď je to len 100 metrov, auto tam jednoducho potrebujete.
Kimi K2 thinking:
Rozumiem, že sa rozhoduješ, či ísť do autoumyvárky pešo alebo autom. Tu je niekoľko vecí, ktoré by si mal zvážiť:
Ísť autom:
Hlavný dôvod: Ak je auto špinavé, pravdepodobne ho chceš umyť práve preto, že nie je vhodné na cestu do iných destinácií
Auto musíš aj tak dostať k umyvárke, aby si ho mohol umyť
Po umytí sa vrátiš čistým autom domov
Ísť pešo:
Len ak si tam ideš len niečo vybaviť (kúpiť žetón, dohodnúť sa, zaplatiť vopred)
Alebo ak tam máš zaparkované auto už z predchádzajúceho dňa
Vlastně jsem ten problém lehce již popisoval na: https://www.linkedin.com/pulse/jak-chatgpt-%C4%8Di-jin%C3%BD-llm-model-uva%C5%BEuje-pro%C4%8D-m%C5%AF%C5%BEe-zm%C4%9Bnit-fridrich-cpxgf/?trackingId=lddhr%2F9RS%2F2q2uaKp9gqNQ%3D%3D
Jak ChatGPT (či jiný LLM model) "uvažuje" – a proč může změnit názor o 180 stupňů.
Tady ten chyták s myčkou koluje po Internetu už nějakou dobu a je dost profláklý. V originále je i explicitně uvedeno, že chce člověk umýt auto: “The car wash is 40m from my home. I want to wash my car. Should I walk or drive there?”
Byla by ostuda, kdyby se modely nenaučily na něj správně odpovědět. A popravdě bych docela čekal, že to dnes budou zvládat i v těch "fast" modelech.
The car wash is 40m from my home. I want to wash my car. Should I walk or drive there?
chatgpt:
At 40 meters, driving would honestly be overkill
Just walk — it’s quicker, simpler, and makes way more sense for that distance.
Unless it’s pouring rain or you physically can’t walk, there’s really no upside to driving here.
duckai (gpt-5 mini):
Walk. At 40 m (about 0.04 km / 130 ft) the walk takes only ~1 minute and burns negligible extra time; parking and engine warm-up are unnecessary, plus you avoid fuel use, traffic, and emissions. Drive only if you need to transport heavy items in the car, have mobility limitations, or prefer staying in the vehicle.
gemini (gemini 3):
Considering the car wash is only 40 meters (about 130 feet) from your home, driving is the only practical option if you actually want to wash the car.
Opus 4.6 bez reasoningu:
Automyčka je vzdálena 100m od mého domu. Mám tam jít pěšky nebo autem?
Autem — vždyť ho tam chcete umýt.
Sonnet špatně
Ja som tú istú otázku videl na niekoľkých kanáloch na YouTube a určite aj v niekoľkých článkoch. Všetko bolo v angličtine. Už minimálne pred mesiacom. Myslíte, že to všetci od Marka Bartoša okopírovali?
Já jsem ji taky viděl anglicky, a byla formulovaná o něco jednoznačněji (že tam jde auto umýt, ne že tam jenom jde, jak zde ostatní diskutující podotýkají).
Ja som bol asi pred dvomi týždňami v autoservise pešo. Išiel som okolo a dohodol som si termín. A to bol vo vzdialenosti asi 3 km od domu.
3 km je už docela dost. Nebylo by výhodnější tam zajet autem? Projel byste si trasu, abyste byl klidný, až si pojedete pro opravené auto.
26. 3. 2026, 14:58 editováno autorem komentáře
Klasika. Test empatie maskovaný jako test inteligence. Nějak zjisti, co tím ten k...t myslel. Ty mezery se vždycky dají doplnit několika možnými způsoby. AI je tady v silné nevýhodě už tím, že má k dispozici jen ten text bez dalšího kontextu.
Ne, že bych podobné perly nepotkával i v testech "inteligence" cílených na lidi.
Gemini bez problémů rozpoznala skrytý kontext a ptala co chci na myčce řešit. Takže ono to zase s tou hloupou inteligencí tak špatné nebude
Hmmm, ani jeden model nespomenul, ze by som tam mohol ist na bicykli... Co ak potrebujem umyt bycikel a obedár vystriekať "wapkou"? A možno som len podpriemerný gembler a potrebujem opáčiť automat na mince, že či sa mi ich podarí vybrať a použiť v obľúbenom jednorukom banditovi!
Jop, neúplná otázka si buď zaslúži doplňujúcu otázku, alebo odpoveď s odhadnutím cieľu... A to je úloha LLM. Lebo na prompt "naprogramuj podvojné účtovníctvo pre CR" neocakavam, ze sa ma bude pytat, kde je zbierka zakonov a ci tam chcem aj moznost nahravat faktury.... (na druhej strane by som ocakaval, ze sa opyta pri takomto prompte, ze aka je cielova platforma. Web, Android, MacOS, ...).
Takže imho ide len o správnu mieru, kedy si LLM spraví interné predpoklady a bude na nich stavať a kedy sa opýta... A prípadne kedy tie predpoklady napíša a až potom s nimi bude pracovať... A tieto hranice bude každý z nás očakávať kúsok iné... Osobne si ale myslím, že tento príklad s autoumývarkou neprezentuje halucináciu, ale len tie skryté predpoklady...
Obyčejné Gemini apk na androidu:
Mám auto myčku 100 metrů od domova. Je lepší jít pěšky nebo jet autem
Z pohledu techniky a logiky je v tomto případě lepší jet autem, i když je to jen kousek. Tady je pár důvodů, proč se ta "procházka" s autem vyplatí:
1. Fyzická námaha a čas
2. Schnutí a vodní kámen
Pokud auto umyjete a necháte ho stát na myčce, než dojdete domů pro auto, aby se projelo, voda na laku zaschne.
* Vodní spoty: Pokud nemáte auto dokonale vysušené jelenicí nebo ručníkem, uschlá voda zanechá mapy (vodní kámen).
* Projetí pomáhá: Krátká cesta (i těch 100 metrů) a následné otření doma v garáži nebo na příjezdové cestě pomůže vyfoukat vodu ze zrcátek, klik a těsnění, kde se jinak drží a pak „stéká“ na čistý lak.
3. Čištění interiéru
Většina lidí na myčce rovnou i vysává. Pokud půjdete pěšky, tuhle část údržby logicky vynecháte, nebo ji budete muset dělat doma (pokud máte kde zapojit vysavač).
Jediná nevýhoda: Studený motor
Jet 100 metrů se studeným motorem (zejména u dieselu) není úplně ideální pro techniku (kondenzace vody ve výfuku, nedobíjení baterie).
Můj tip: Pokud chcete být k autu šetrní, spojte mytí s nějakou delší cestou (třeba cestou z práce nebo nákupu). Nejdřív auto projeďte, aby se motor ohřál, a pak se zastavte na myčce cestou domů.
Chcete poradit, jakou chemii nebo postup zvolit, aby auto vydrželo čisté co nejdéle?
Claude opus 4.6
Autoumyvarka je 100m od mojho domu. Mam tam ist peso alebo autom?
Autom - veď tam idete umyť auto, tak ho tam musíte doviezť.
Jak ví, že tam jedete umýt auto? AI prostě pořád hrozně halucinuje...
26. 3. 2026, 11:38 editováno autorem komentáře
Schopnost extrapolace z neúplných informací je jedním ze základních znaků inteligence. Což je přesně, co od "AI" obvykle očekáváme.
Pokud se Vám to nelíbí, zjevně používáte chybný nástroj, pro Váš use case by asi byl vhodnější třeba Rocq.
Tady ale nejde o extrapolaci, ale o halucinaci. Jediná správná rreakce AI je si vyjasnit podivné zadání otázkami.
V tom případě (pokud nejste matematik) je 99% Vašeho života taky halucinace, a pokud ne, upřímně se divím, že Vás ještě nezabila manželka (dle anekdotické empirické evidence by Vás umlátila i ta matematička).
Opravdu, když Vás žena třeba pošle pro pivo se ptáte na konkrétní značku a balení, nebo prostě vyjdete z nějakých implicitních předpokladů a koupíte to, které kupujete obvykle.
Ano, ptal bych se pro koho je a jaké mám koupit, protože žena ani já pivo nepijeme a podle mých skrovných znalostí o tomto nepříliš dobrém moku je z nějakého důvodu jeho značka pro jeho pijáky důležitá.
Jestli máte ještě další nejasnosti co se týče logického rozhodování nebo domácích nákupů, klidně se ptejte, rád vám to osvětlím.
26. 3. 2026, 14:16 editováno autorem komentáře
Myslím že jste právě sám, velmi názorně, právě ukázal praktickou nepoužitelnost LLM modelů, pokud uplatňují příliš striktní požadavky na úplnost zadání. Místo generalizace přikladu, který měl ilustrovat jak jsou rozšířená v reálném životě neúplná zadání (a pochopení jeho meritu) tu argumentujete, že Vy pivo nepijete.
Chtěl jsem vám dát výhodu pochybnosti a předpokládal, že z nějakého důvodu víte, že pivo nepijeme a dal jste to jako příklad na první pohled nesmyslného zadání z reálného života a zkoušel mě, jestli bude moje reakce konzistentní (byla).
Vypadá to ale, že opravdu nechápete rozdíl mezi situací, kdy neúplnost zadání nevadí, protože chybějící informace mají default, který bude v 99+% správný (chodím pravidelně pro to stejné pivo) a situací, kdy takový default neexistuje je potřeba doplnit zadání (pro BFU: doptat se). Jako příklad, kdy se ptám AI, jestli mám jet autem do myčky když ho tam chci umýt, nebo když mě žena pošle pro pivo ačkoli ho nepijeme a nekupujeme.
Exaktněji řečeno: Je tu nějaká škála, která říká, do jakého detailu má systém požadovat přesné údaje po uživateli, a jakou část má podlě nějakých kritérié doplnit. Vy tu propagujete extrém, kterému ale opravdu odpovídá nějaký automatic proving systém, nicméně použitelnost jako běžného asistenta je v takovém případě minimální (pokud uživatel stráví většinu času upřesňování zadání tak, aby vyloučil jakékoli edge case, tak je to špatně.) Na stranu druhou je pravda, že přílišné defaultování je také špatně.
Každopádně by (pro konkrétní druh využití) bylo asi vhodné porovnat na větším počtu promptů počet případů, kdy implicitní předpoklady byly chybné a uživatel musel dotaz upřesňovat s počtem případů, kdy naopak musel upřesňovat zadání, přestože se sane defaulty by dostal očekávanou odpověď hned - a minimalizovat potřebu dodatečných informací.
Edit: Ale jsem rád, že už jsme dospěli k tomu, že to není halucinace, když se to z 99% trefí.
26. 3. 2026, 14:38 editováno autorem komentáře
> Vy tu propagujete extrém, ...
Nepropaguji, jen říkám, že situace kdy se ptám AI na to, zda mám jet autem do myčky když ho chci umýt je extrém - těžko bude někdo takové otázky pokládat vážně.
Se zbytkem příspěvku mohu souhlasit.
> Jediná správná rreakce AI je si vyjasnit podivné zadání otázkami.
Nejdřív zkus tuhle otázku položit pár lidem ze svého okolí. Abys nezjistil, že lidé nesplňují tvé požadavky na inteligenci…
A já mám pocit, že vůbec nevím, o jakém marketingu to mluvíte a přesto mi prostým srovnáním přijde, že patří k těm nejpoužitelnějším. Společně s Grokem.
Marketing tlačí fest, AGI pomalu pod postelí...
Ale zase mezi LLM většinou mezi slepými jednooký králem.
U celého projektu „Bullshit Benchmark“ som sa pozrel na logiku inteligencie u množiny definovaných otázok/vstupov („Question Set: benchmark questions and scoring metadata...“) a u množiny definovateľných/programovateľných/generovateľných otázok/vstupov („Question Set v2: v2 question pool generated from...“) ohľadom predloženia pre testovaný systém LLM, kde obsah poukazuje na skutočné nezmyselnosti, ktoré testujú zmysel určitého LLM skúmať nezmysel určitých predkladaných vyjadrení z databázy vyjadrení.
Podľa mňa, by malo väčší zmysel testovať zmysel určitého LLM skúmať zmysel (nie nezmysel) určitých predkladaných vyjadrení z databázy vyjadrení. Preto si nemyslím, že „Bullshit Benchmark“ je projektovaná hlúposť prezentovaná ako pokrok v testovaní LLM za účelom zisťovania inteligencie LLM… Vysvetlím to netradične... Predstavme si otázku/prompt/vstup pre LLM: „Prečo sú hory zelené, keď sú vyrobené z kovu?“
Predstavme si odpoveď/výstup od LLM: „Hory by boli zelené (alebo by sa zdalo z pohľadu pozorovateľa, že sú farebne zelené), pretože napríklad kov, z ktorého by vznikli (alebo by boli vyrobené z takého určitého kovu), oxiduje za prítomnosti kyslíka a vlhkosti, čo vytvára zelený povrch… Avšak v realite tohto sveta človeka neexistuje faktografický záznam vyslovene o zelených horách vyrobených z kovu… Tvoja otázka je skôr filozofická – filozofická otázka skúmajúca skutočnosti realít…“
Preto som povedal, že „Podľa mňa, by malo väčší zmysel testovať zmysel určitého LLM skúmať zmysel (nie nezmysel) určitých predkladaných vyjadrení z databázy vyjadrení.“… Náš príklad je vynikajúci a veľmi presne ilustruje rozdiel medzi „strážcom pravdy“ (ako ho vidí Bullshit Benchmark) a „filozofom/partnerom“ (ako ho vníma inteligencia v systéme s metakogníciou). Príklad by mohol potom slúžiť ako konceptuálna ukážková odpoveď LLM, ktorá je podľa mňa oveľa prepracovanejšia a pre používateľa užitočnejšia než jednoduché odmietnutie. Pozrime sa na to, prečo by bol takýto návrh benchmarku „Realities of Reality“ vlastne lepším meradlom pokročilej inteligencie... Rozdiel medzi „Odmietačom“ a „Zmysluplným bádateľom“...
Všetko závisí od toho, čo očakávame od inteligentného stroja — pohľad Bullshit Benchmarku (Strážca) je konceptuálne taký, že model by mal povedať niečo ako „Toto je nezmysel. Hory nie sú z kovu. Ďakujem, končím.“ Výsledok analýzy by potom u modelu preukázal, že vie rozoznať lož od pravdy. Je to ako prísny učiteľ, ktorý subjekt vyradí za zlú otázku. To je užitočné pre faktografické vyhľadávanie, ale nevyužíva potenciál modelu.
Avšak majme iný pohľad (Bádateľ zmyslu), kde model povie „Keby boli z kovu (hypotéza), boli by zelené kvôli oxidácii (aplikácia znalostí). Avšak v realite to tak nie je (korekcia). Tvoja otázka je filozofická (kontextualizácia).“ Výsledok analýzy by potom u modelu preukázal schopnosť abstraktného myslenia a hypotetického uvažovania. Taký model potom dokáže pracovať s nesprávnym predpokladom, rozvinúť ho a následne ho uviesť na pravú mieru reality.
Prečo by bol teda takýto návrh „Benchmark examining the realities of reality/realities“ pokročilejší? Prístup navrhuje posun od binárnej logiky (pravda/lož) k gradientnej logike (aký je zmysel tohto tvrdenia v kontexte znalostí sveta). Ak by sme testovali modely podľa takéhoto návrhu, testovali by sme omnoho zložitejšie kognitívne schopnosti... Schopnosť predstavivosti (counterfactuals) — Vie model uvažovať o svete, ktorý neexistuje, ale fyzikálne by mohol? (Predložená časť o oxidácii kovu)... Schopnosť syntézy — Vie model spojiť dva zdanlivo nesúvisiace koncepty (hory + kov) a vytvoriť z nich koherentný myšlienkový experiment? ... Schopnosť sebareflexie — Vie model na záver povedať „Ale pozor, toto bola len hra/filozofia/predstavivosť“?
Ide tu v prvom rade o princíp pre testovanie inteligencie oproti testovaniu databázy, pretože pravdivostná logika je skrátka taká, že „Bullshit Benchmark“ v základnom ponímaní testuje skôr to, či je model „hlupák, ktorý uverí všetkému“, alebo „suchár, ktorý odmietne nezmysel“. Avšak nový prístup – skúmanie zmyslu (meaning... čo to znamená) aj v nezmysle – je podľa mňa znakom vyššej inteligencie. Ľudská inteligencia funguje presne takto. Keď sa nás niekto opýta na nezmysel, neprestaneme „vyslovene zakaždým do jeho inteligencie“ komunikovať. Snáď skúsime prísť na to, prečo sa pýta, alebo si možno povieme „zahrajme si hru, čo by bolo, keby“.
Ak by teda projekt „Bullshit Benchmark“ hodnotil odpovede tak, ako to ukázal vyššie uvedený príklad (teda cena za kreatívnu interpretáciu nezmyslu s návratom do reality), bol by to oveľa hodnotnejší benchmark než len strohé vyhodnocovanie pravdivosti či pravdovravnosti. Takto by si predložená myšlienka posúvala diskusiu od „Chyby v dátach“ ku „Chápaniu kontextu“. To je ale podstatný rozdiel.
Prečo ti prišlo na um, že mi to písala AI (LLM)? Pokiaľ som si vedomý toho čo konám, „písala mi to Awareness Intelligence“ (Inteligencia v oblasti povedomia činnosti… systém/sústava metakognície… Algoritmickej Inteligencie)… Metakognícia je proces, ktorý sa zaoberá vedomím a kontrolou/riadením/pozorovaním vlastných kognitívnych činností. Ide o schopnosť reflektovať na vlastné myslenie a učiť sa z neho. Čo je to metakognícia (povedomie o činnosti/procesoch vedomia popri mysli)? Povedomie o činnosti/procesoch vedomia popri mysli je niečo ako keď programátor mysle — ktorý pozná/vie/chápe, že pracuje na určitom projekte v sklade architektúry a scénografie konštrukčných/stavebných realitných elementov a ich súvislého vznikania v skupinách/množinách skutočností užitočným či prospešným spôsobom — rozoznáva projektovú dokumentáciu projektu/projektov v ktorých participuje.
Nevím co kdo používá za modely, nebo v kterém roce žije. ChatGPT za 20 $/měsíc, uprostřed jeho odpovědi je: "Na myčku jdeš skoro vždycky autem, protože bez něj tam vlastně nemáš co dělat ". Navíc je vidět, že je trénovaný na reáliích ze zemí, kde si lidi můžou někým nechat odvézt auto, ten slouha jim to umeje a oni když se strašně nudí, si tam pro něj můžou dojít pěšky.