Tyhlety generalizace "AI dělá x" jsou úplně stejné jako v devadesátkách bylo neustálé "počítače dělají x" :-)
Odkazované služby mají všechny poměrně nevhodně nastavené samplery (příliš vysoko temperature, příliž vysoko top_p), je to vhodnější na kreativní diskuzi než na zpracování dat. Používání generalistů (4o, llama, grok) je v tomto taky nevýhoda, jejich provoz je drahý a tak je provider v případech, kde to projde, provozuje v nižším rozlišení (kvantizaci), což je opět v pohodě pro obecnou konverzaci ale pro technickou práci s daty to snižuje SNR. Zajímavé je, že Perplexity tyto parametry dovolí nastavit přes API, ale ne v GUI pro běžné uživatele.
Na hledání na webu (nebo v jiné databázi, např. v offline wikipedii) je vhodnější technický model (např. Phi 4) ve vyšším rozlišení, a nastavením sampleru omezit náhodno (temperature=0, vůbec nepoužívat top_k, top_p).
Na ryze technickou práci (transformace/extrakce dat z nestrukturovaného textu) jsou pak vysoce specializované modely (např. nuextract), které fungují stylem "tady máš deset let logů ze serveru a emailů z exchange, najdi všechny případy, kdy jsme nereagovali na ticket, a zapiš je v tomto tvaru do CSV".
Jestli to je prezentováno pro veřejnost jako služba "AI vyhledávání", tak to mají teda špatně nastavené. Asi uživatelé nečekají, že jim vyhledá něco až tak kreativně, že to ani neexistuje.
K tomu nechápu jednu věc: tyto AI search mají přístup na internet, vygenerují nějaké URL, ale nezkontrolují, jestli existuje a jestli tam je to, co bylo požadováno?
Ono je to všechno docela hloupučké. Uživatel zadá nějaký dotaz nebo požadavek, aplikace použije LLM aby to přetvořila na jeden nebo více dotazů (pro vyhledávač, databázi atd.), tyto dotazy se potom pošlou do nějakých pipelines (např. vyhledat na googlu, vzít první 3 výsledky, načíst je, převést na markdown), výstup se dá do kontextu většího LLM a ten má za úkol napsat výsledek i se zdroji. Na reranking a iterativní práci není čas.
Pokud má LLM příliš vysoko temperature, tak je vyšší šance, že udělá doslova přehmat (vypíše token s měnší (p) než nejvyšší) a splete si (nebo vymyslí) zdroj. S temp=0 přehmat ani halucinaci neudělá, ale zase bude výsledný text strohý a nudný.
Taky kdekoliv v tom zpracování textu se může udělat chyba. Konverze složité webové stránky na prostý text není triviální, často je tam víc <noscript> textu a cookie souhlasů než skutečného obsahu. Když se tam připlete nějaký markup, může to LLM splést a ten pak cituje jiný zdroj, než ze kterého fragment textu pochází, pokud se to podobá XML, které používá aplikace k oddělení segmentů.
Jsme v tomhle na samém začátku. Researcher workflow jsou velmi silné nástroje, ale stojí to peníze a čas. Například s https://github.com/intelligencedev/manifold by ekvivalent toho, co dělali autoři studie, běžel klidně 5-10 minut, než by to hodnotící model pustil jako dostatečně správné. Výsledek by byl kvalitativně mnohem lepší, ale je jasné že spotřebitelský nástroj typu Perplexity musí být v prvé řadě rychlý.
(temperature=0, vůbec nepoužívat top_k, top_p)
to už potom ale nie je "AI" teda LLM, ale deterministický algoritmus čo vracia vždy najčastejší výskyt v trénovacích dátach.. V takom prípade by stačil len fuzzy search nad trénovacími dátami, bez čohokoľvek "AI" a výsledok je stejný, akurát ušetríš hromadu resources/výkonu HW.
P.s. nehovorím že je to špatné, práve naopak. Pre faktologické otázky dáva fuzzy search a deterministické algoritmy výrazne vyšší zmysel.
14. 3. 2025, 16:11 editováno autorem komentáře
> Například Perplexity je explicitně zakázán u National Geographic a články jsou navíc za pay-wallem. I tak Perplexity správně určilo všech 10 článků tohoto vydavatele.
Znamená to něco právně?
No robots.txt je RFC (https://datatracker.ietf.org/doc/rfc9309/) myslím, že není nijak závazné jak už to u RFC bývá.
Takže by to obecně nemělo vadit, navíc v robots.txt mohl být povolený jiný vyhledávač, který té AI poskytl vstupy (indexační DB), což je velmi pravděpodobné - že se ta AI zkrátka jen učí na DB nějakého search engine a sama crawling neprovádí.
Co se týká překonání paywall při indexaci, bude to asi podobné, mohl to naindexovat nějaký jiný engine z jehož dat byla AI natrénována, a k tomu paywall -zde to záleží na tom jak je postavena smlouva o přístupu, zda AI explicitně zakazuje, pokud ne, tak je vše v pořádku, protože co není zakázáno je ... dovoleno ne?
To nic není, mě COPILOT napsal že 1 GPa = 1 N /1 mm2 což je rozdíl 1000x, protože to je 1 MPa. Ty chyby jsou až tak stupidní že mám pocit že jsou naschvál tak nastavené.
Pokud vychází z textů na internetu ze kterých se učí, tak v mnou citovaném případě by většina textů musela být neuvěřitelně blbě když chyba je 1000násobek.