Vlákno názorů k článku
AI vyhledávání špatně cituje zdroje v 60 % případů od Jakub Štech - Tyhlety generalizace "AI dělá x" jsou úplně stejné...

  • Článek je starý, nové názory již nelze přidávat.
  • 14. 3. 2025 10:52

    Jakub Štech

    Tyhlety generalizace "AI dělá x" jsou úplně stejné jako v devadesátkách bylo neustálé "počítače dělají x" :-)

    Odkazované služby mají všechny poměrně nevhodně nastavené samplery (příliš vysoko temperature, příliž vysoko top_p), je to vhodnější na kreativní diskuzi než na zpracování dat. Používání generalistů (4o, llama, grok) je v tomto taky nevýhoda, jejich provoz je drahý a tak je provider v případech, kde to projde, provozuje v nižším rozlišení (kvantizaci), což je opět v pohodě pro obecnou konverzaci ale pro technickou práci s daty to snižuje SNR. Zajímavé je, že Perplexity tyto parametry dovolí nastavit přes API, ale ne v GUI pro běžné uživatele.

    Na hledání na webu (nebo v jiné databázi, např. v offline wikipedii) je vhodnější technický model (např. Phi 4) ve vyšším rozlišení, a nastavením sampleru omezit náhodno (temperature=0, vůbec nepoužívat top_k, top_p).

    Na ryze technickou práci (transformace/ex­trakce dat z nestrukturovaného textu) jsou pak vysoce specializované modely (např. nuextract), které fungují stylem "tady máš deset let logů ze serveru a emailů z exchange, najdi všechny případy, kdy jsme nereagovali na ticket, a zapiš je v tomto tvaru do CSV".

  • 14. 3. 2025 12:36

    Fík
    Zlatý podporovatel

    Jestli to je prezentováno pro veřejnost jako služba "AI vyhledávání", tak to mají teda špatně nastavené. Asi uživatelé nečekají, že jim vyhledá něco až tak kreativně, že to ani neexistuje.

    K tomu nechápu jednu věc: tyto AI search mají přístup na internet, vygenerují nějaké URL, ale nezkontrolují, jestli existuje a jestli tam je to, co bylo požadováno?

  • 14. 3. 2025 13:12

    Jakub Štech

    Ono je to všechno docela hloupučké. Uživatel zadá nějaký dotaz nebo požadavek, aplikace použije LLM aby to přetvořila na jeden nebo více dotazů (pro vyhledávač, databázi atd.), tyto dotazy se potom pošlou do nějakých pipelines (např. vyhledat na googlu, vzít první 3 výsledky, načíst je, převést na markdown), výstup se dá do kontextu většího LLM a ten má za úkol napsat výsledek i se zdroji. Na reranking a iterativní práci není čas.

    Pokud má LLM příliš vysoko temperature, tak je vyšší šance, že udělá doslova přehmat (vypíše token s měnší (p) než nejvyšší) a splete si (nebo vymyslí) zdroj. S temp=0 přehmat ani halucinaci neudělá, ale zase bude výsledný text strohý a nudný.

    Taky kdekoliv v tom zpracování textu se může udělat chyba. Konverze složité webové stránky na prostý text není triviální, často je tam víc <noscript> textu a cookie souhlasů než skutečného obsahu. Když se tam připlete nějaký markup, může to LLM splést a ten pak cituje jiný zdroj, než ze kterého fragment textu pochází, pokud se to podobá XML, které používá aplikace k oddělení segmentů.

    Jsme v tomhle na samém začátku. Researcher workflow jsou velmi silné nástroje, ale stojí to peníze a čas. Například s https://github.com/intelligencedev/manifold by ekvivalent toho, co dělali autoři studie, běžel klidně 5-10 minut, než by to hodnotící model pustil jako dostatečně správné. Výsledek by byl kvalitativně mnohem lepší, ale je jasné že spotřebitelský nástroj typu Perplexity musí být v prvé řadě rychlý.

  • 15. 3. 2025 10:15

    Vít Šesták

    Kontrola URL je problematická věc. Do URL se mohou dostat (potenciálně citlivá) data z dotazu, která by se kontrolou odeslala. Navíc tomu, že se do té adresy dostanou potenciálně citlivá data, by mohla napomoct právě ta prohledávaná stránka, která by předala AI vhodné instrukce.

  • 14. 3. 2025 16:08

    Mlocik97

    (temperature=0, vůbec nepoužívat top_k, top_p)

    to už potom ale nie je "AI" teda LLM, ale deterministický algoritmus čo vracia vždy najčastejší výskyt v trénovacích dátach.. V takom prípade by stačil len fuzzy search nad trénovacími dátami, bez čohokoľvek "AI" a výsledok je stejný, akurát ušetríš hromadu resources/výkonu HW.

    P.s. nehovorím že je to špatné, práve naopak. Pre faktologické otázky dáva fuzzy search a deterministické algoritmy výrazne vyšší zmysel.

    14. 3. 2025, 16:11 editováno autorem komentáře

  • 14. 3. 2025 16:18

    Jakub Štech

    Pořád je to AI ve smyslu neuronová síť s mnoha vrstvami pracující s řadou vysokorozměrných embedding vektorů, ve kterých je zakódovaná sémantika smyslu textu daleko přesněji, než si ji zvládne uvědomit člověk. Je to jako právník držící se litery zákona, versus laik který si domýšlí.

  • 14. 3. 2025 17:14

    PEAK

    BTW počítač je rýchly blbec, éj áj je rýchla blbka (R)

    14. 3. 2025, 17:14 editováno autorem komentáře