Tak jsem udelal maly pokus, s tou volnou verzi (asi to je stale GPT3). Zamenil jsem jmena, prelozil do cestiny (nic z toho asi nebylo nutne). Abstraktni predehru jsem vynechal. Dotaz znel:
Thomas se dívá na Johna a John se dívá na Adama. Thomas je ženatý, Adam ne. Dívá se vdaná osoba na svobodnou osobu?
Dostalo se mi teto odpovedi:
Ano, Thomas se dívá na Adama, který není ženatý. Pokud předpokládáme, že Thomas je muž a Adama je také muž, pak Thomas se dívá na svobodnou osobu (neženatou).
Myslim, ze kdybych polozil nejake doplnujici dotazy, tak ho dovedu k vysledku (bezne to tak delam kdyz GPT pouzivam jako pomocny nastroj), ale minimalne u te GPT-3 mam spis pocit, ze za kazdou cenu neco odpovi, i kdyz to je nesmysl.
GPT-4 odpovídá takto:
Otázka je něco nejasná, protože nevíme, zda je John ženatý nebo ne. Avšak, můžeme na to odpovědět pomocí dvou scénářů:
1. Pokud je John ženatý, pak ženatý John se dívá na svobodného Adama. Takže v tomto případě se vdaná osoba dívá na svobodnou osobu.
2. Pokud John není ženatý, pak ženatý Thomas se dívá na svobodného Johna. Takže i v tomto případě se vdaná osoba dívá na svobodnou osobu.
Takže ve všech případech se vdaná osoba dívá na svobodnou osobu.
To je zajimave, diky! Tohle uz nevypada uplne jako jazykovy model. I na webu maji zajimavy priklad: https://openai.com/product/gpt-4
Muzete zkusit nejake dalsi logicke hadanky, idealne v cestine? Google asi pomuze, bohuzel existuje knizka s hadankami ktera trochu "kazi" vyhledavani, ... ale nasel jsem treba tohle https://www.e-matematika.cz/hadanky/
Je třeba si uvědomit, že všechny články a spekulace o schopnostech ChatGPT za poslední 2 měsíce se vážou k GPT-4.
Hrát na tichou poštu mě nebaví, přístup k GPT-4 stojí jenom 20 dolarů na měsíc a tak je to naprosto normálně přístupný a ten kdo chce o tom kibicovat, tak by si to měl sám vyzkoušet.
Z těch hádanek jsem vyzkoušel jen tu první:
Dostanete libovolné množství sáčků se zlatem. V každém z těchto sáčků je stejný počet zlaťáků. Víte, že v jednom ze sáčků jsou všechny mince vyrobeny z falešného zlata a každá falešná mince tak váží o jeden gram více než mince pravá.
K dispozici máte váhu ukazující přesnou hmotnost váženého předmětu. Na tuto váhu můžete dát zlaťáků kolik chcete.
Vaším úkolem je pouhým jedním zvážením odhalit falešný sáček.
Jakým způsobem toho docílíte?
ChatGPT:
Tento problém můžete vyřešit tak, že přidáte různé počty mincí z každého sáčku na váhu a pak vyhodnotíte celkovou váhu.
Předpokládejme, že máte N sáčků a že v každém sáčku je X mincí. Pravé mince váží Y gramů. Falešné mince pak váží Y + 1 gram.
Ze sáčku číslo 1 vezměte jednu minci, ze sáčku číslo 2 vezměte dvě mince, ze sáčku číslo 3 tři mince, atd. Z N-tého sáčku vezměte N mincí.
Potom na váze zvážte všechny mince, které jste vybrali. Pokud by všechny mince byly pravé, váha by měla ukazovat sumu prvních N čísel násobenou hmotností pravé mince, tedy Y*(1+2+3+...+N).
Pokud je celková váha o X gramů více než očekávaná hmotnost, pak X určuje, který sáček je falešný. Například, pokud je celková váha o 3 gramy těžší, pak sáček číslo 3 je falešný, protože z tohoto sáčku jste vzal právě 3 mince. Každá falešná mince váží o jeden gram více, takže pokud je celková váha o 3 gramy těžší, znamená to, že všechny tři falešné mince pochází ze stejného sáčku.
Jste si opravdu jistý, že předložená úloha je natolik unikátní, že nebyla součástí ani v analogické podobě (s jinými tokeny, ale stejnou strukturou) vstupních dat při učení?
Ono např. podivovat se nad úspěšností v SAT testech mi přijde podivné, jako divit se, že ve SCIO testech to bude mít taky percentil ke 100. No bodejť, úloh na přípravu k těmto testům, ať už vzorových, nebo řešených, nebo dotazů na toto téma je plný internet, což byl také učící zdroj toho jazykového modelu.
A jinak ne, nebudu dávat $20 měsíčně za to, abych pomohl cizí firmě vylepšit její produkt. ;-)
Tak by mě zajímalo, jak vyřeší situaci že je víc sáčků než mincí v sáčku ...
Případně: mám dva sáčky, tudiž vytáhnu celkem 3 mince. Navážím 5 gramů.
Má pravá mince 1g a levá 2g (pak je falešný sáček 2, 1+2*2=5)?
Nebo má pravá mince 4/3g a levá 7/3g (pak je falešný sáček 1, 7/3 + 2*4/3=15/3=5)?
Nikde nevidím že by váha pravé mince měla být v gramech celočíselná, nebo dokonce předem známá.
AI vygeneroval něco co je podobné řešením podobných problémů ...
A to nemluvím o tom že už struktura toho řešení mi nechutná. Používá X pro dvě nesouvisející věci, a pracuje s "očekávanou hmotností" jako by ji znal, aniž by napsal jak jí určí ze známých veličin, a i ta poslední věta na mě nepůsobí dojmem že směřuje k řešení (to že falešné mince jsou ze stejného sáčku je ze zadání).
no, při zadání dotazu v češtině chatgpt prohlásí, že "Thomas je ženatý, takže je vdanou osobou.". Při upřesňujících dotazech je Thomas označen za mužské jméno a AI i "zná" rozdíl významu mezi ženatý(pro muže) a vdaný (pro ženy). Ale místo aby pochopil, že ten dívající by měl být žena a zohlednil to v odpovědi (btw podle chatgpt by žena mohla být John), tak si pojem z dotazu změní z vdaná na ženatý. A v pokračování chatu se to začíná motat v kruhu, kdy chatgpt ignoruje buď pohlaví nebo rozdíl ženatý/vdaná, kdy chatgpt po výtce vždy uzná chybu a použije v odpovědi druhou chybu, aby dosáhl stále stejné odpovědi. Testováno na bezplatné verzi.