Cache klicovych hodnot je key-value cache pro attentuon ktera slouzi jako context cache (aby se nemusela pokazde posilat cela konverzace a pokazde tokenizovat a embeddovat - s tim, ze delka contextu/konverzace neustale narusta), tak se na inferencnim serveru zacachuje jen attention a pri prichodu dalsiho promptu se inkrementalne aktualizuje bez nutnosti pocitat vsechno od nuly. Vice detailu viz napr. https://ngrok.com/blog/prompt-caching