Nový kompresní algoritmus TurboQuant snižuje paměťovou náročnost LLM 6×

26. 3. 2026

Google zveřejnil kompresní algoritmus TurboQuant, který zmenšuje paměťovou náročnost velkých jazykových modelů (LLM) a zároveň zvyšuje jejich rychlost. TurboQuant pracuje na vyrovnávací paměti KV, což je právě úzké hrdlo LLM. Abyste ušetřili paměť, můžete jednoduše snížit přesnost datových typů v KV, ale to může přinést horší kvalitu odpovědí.

TurboQuant funguje zhruba jako kvantizace při ztrátové kompresi JPEG. Obrázek je výrazně menší, avšak je stále podobný originálu. V tomto srovnání je zmiňované snížení přesnosti datových typů jako zmenšení hloubky barev. Takových kvantizací pro KV LLM existuje více (SnapKV, PyramidKV, KIVI), ale TurboQuant zachovává kvalitu odpovědí LLM LLaMa a Mistral téměř původní, přitom vyrovnávací paměť KV je 6× menší a rychlost 8× vyšší. Více informací najdete v článku.

(zdroj: arstechnica)

Vstoupit do diskuse (3 názory)

Zasílat nově přidané názory e-mailem

Našli jste v článku chybu?

Jan Fikar

První linux nainstaloval kolem roku 1994 a u něj zůstal. Později vystudoval fyziku a získal doktorát.

Témata:

Google

Sdílet

Autor zprávičky

Jan Fikar

Témata: