Tohle ale přece nemá nic společného s trénovacími daty pro AI. Ti chatboti použili normální funkci internetového vyhledávače a použili výsledky vyhledávání jako jeden ze vstupů pro provedení zadaného požadavku (promptu).
Do trénovacích dat se to možná dostane později. Může to mít dopad na modely, které budou dostupné třeba za několik měsíců. A jsem přesvědčený o tom, že ten jeden článek bude mít na modely dopad hluboko pod hranicí měřitelnosti. Nebo-li pokud byste pak použili model bez přístupu k internetu, nebudete schopni zjistit, jestli součástí trénovacích dat daného modelu byl i ten jeden článek.
Presne tak... vtipne je, ze skoro ve stejnou dobu je o tomhle i jiny text:
https://www.root.cz/clanky/pgvector-embedding-a-semanticke-vyhledavani-binarni-vektory/