skalarni soucin se hodne dobre dela na GPU. V beznych NN to az tak neni problem (maly pocet vstupu), ale v LLM to jsou vektory od 1536 do 4009 hodnot a tam je to hodne kriticke misto, pokud se nepouzivaji indexy. Indexem je zde mysleno "odhadni vysledky" :)
I index potřebuje celý dot product. Index se používá hlavně proto, aby se těch dot productů udělalo třeba tisíc misto toho, aby se jich dělala miliarda.