Vlákno názorů k článku Rozšíření PostgreSQL jménem pgvector, embedding a sémantické vyhledávání (1. část) od cc - Toto se vyplatí jen když člověk nemá těch...

Článek je starý, nové názory již nelze přidávat.

12. 8. 2025 20:43

cc

Toto se vyplatí jen když člověk nemá těch vektorů moc a potřebuje opravdu SQL jako filter. Zkoušel jsem to na jeden projekt a prostě to nešlo - když má člověk třeba 100m vektorů tak je potřeba mnohem lepší index a tuning. A když to filtrování není složité tak post-filter taky funguje celkem dobře.

Je to velký trade-off a ty funkce v pgvectoru mi a ni nepřišli nějak optimalizované. Třeba cosine distance a L2 distance může člověk udělat velmi podobně ryché, jen je k tomu potřeba normalizační koeficient těch vektorů (pro oba vektory co se porovnávají se dá předpočítat, a pro ty v DB dokonce uložit jako metadata).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 8. 2025 21:12

Pavel Tišnovský

Zlatý podporovatel

přesně tak, pro tak velké datové sady (100M, ale už klidně u 1M) už je exaktní vyhledávání strašně pomalé a je nutný použít IVFFlat nebo HNSW (nic dalšího pgvector zatím nepodporuje). Nebo jít do FAISS na GPU, když na to má firma peníze (což většinou nemá :-).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 8. 2025 10:49

cc

Nebo Vamana - to je podle mě top pro opravdu velký dataset. Jen je potřeba následovat tu implementaci od MS a ne to dělat podle toho jejich research paperu, který tam má snad i úmyslné chyby.

Vlákno názorů k článku Rozšíření PostgreSQL jménem pgvector, embedding a sémantické vyhledávání (1. část) od cc - Toto se vyplatí jen když člověk nemá těch...

Dále u nás najdete

Ve špičkových restauracích se dá díky festivalu najíst za půlku

Nedostatek vitaminu D se projeví únavou i špatnou náladou

Nedostatek vitaminu D se projeví nejen únavou

Spotřeba elektřiny v Evropě prudce poroste, může za to AI

T-Mobile má za sebou v tuzemsku pozitivní rok, rostly tržby i zisk

Pojišťovny zneužívají lenosti svých klientů. Ti za to platí

Vývojáři už kód nepíší, kočírují smečky AI agentů

Zuzana svým byznysem podporuje nigerijské trhovkyně

Na arytmii přišel díky hodinkám. Lékaři radí zkoušet tep pravidelně

Vedla knihovnu, teď pěstuje bylinky. Přírodní kosmetiku míchá jen s dobrou náladou

Zdeněk se cítil zdravý, pak ve spánku dostal mrtvici

Při podezření na rakovinu jděte za praktikem, nehledejte na internetu

V IT a podnikových službách už v Česku pracuje 200 tisíc lidí

Česko se přímo podílí na evropské strategii pro čipy

Firmy se vyhnou auditu, účetní závěrku 2025 ale ještě ověřit musí

Registrace cizinců podle JMHZV praxi

Konflikt na Blízkém východě: informace pro turisty

Velkým firmám nejsou lhostejní jejich klienti na Blízkém východě

Takto praktik zkontroluje játra, když budete chodit na prevenci

Řešení vysokých cen RAM a SSD hned tak nebude