Vlákno názorů k článku Knihovna FAISS a embedding: základ jazykových modelů od janczk - Dobrý den. Dobře zpracované téma, díky za to....

Článek je starý, nové názory již nelze přidávat.

29. 7. 2025 5:50

janczk

Dobrý den. Dobře zpracované téma, díky za to. zaujala možnost využití RAG systémů a konkrétně bych se rád zeptal na Vaše zkušenosti s modelem csmpt7B, který je finetunovaný na českých korpusech.

Jelikož se sám zabývám podobnou problematikou v českém kontextu, zajímalo by mě, jaké jsou Vaše praktické poznatky ohledně generování odpovědí s tímto modelem v RAG nastavení. Především bych se rád dozvěděl

Jaká je kvalita generovaných odpovědí v českém jazyce? Setkal jste se s nějakými specifickými jevy nebo chybami, které jsou typické pro češtinu (např. vázání, skloňování, koherence, nebo přenos znalostí z retrieveru)?

Jaké byly největší výzvy nebo úskalí, na které jste narazil při práci s csmpt7B a českými daty pro RAG? Bylo něco, co Vás překvapilo nebo co vyžadovalo zvláštní pozornost?

Pozoroval jste nějaké výrazné rozdíly ve výkonu oproti anglicky finetunovaným modelům nebo modelům trénovaným na obecnějších datech?

Měl byste nějaké doporučené postupy nebo tipy na optimalizaci pro dosažení lepších výsledků s csmpt7B v RAG kontextu pro češtinu?

Budu velmi vděčný za jakékoli Vaše postřehy a rady, které by mi pomohly v mém vlastním výzkumu.
Děkuji a přeji hezký den!
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
29. 7. 2025 14:39

Pavel Tišnovský

Zlatý podporovatel

Dobrý den,

my používáme jen modely primárně určené pro angličtinu. Ale nějaký výzkum se dělal na Masarykově univerzitě. Zeptám se tam známých a pošlu je sem do diskuze :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
29. 7. 2025 17:11

janczk

Děkuji. Zkouším csmbt7 a bohužel nedostávám očekávané výstupy. Ale může to být nevhodnou kvantizací.

Do ladění na českých korpusech jste se nepouštěli u vámi používaných modelů?

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Knihovna FAISS a embedding: základ jazykových modelů od janczk - Dobrý den. Dobře zpracované téma, díky za to....

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

Desítky rozšíření pro Chrome kradou uživatelská data

Sophos kupuje Arco Cyber, zpřístupní CISO organizacím

Domén s koncovkou .CZ přibývá, většina je podepsaných

Strojové učení slibuje rychlejší a levnější vývoj baterií

Malware, ransomware a další online hrozby: Jak se liší?

Příspěvek na produkty spoření na stáří a daň z příjmů

Budoucnost Office, digitálního pracoviště a e‑shopů

Vývojáři už kód nepíší, kočírují smečky AI agentů

Česko se přímo podílí na evropské strategii pro čipy

Statistiky o ransomware, které jste asi neznali nebo si neuvědomili

Stát dá svobodu důchodcům, které držel ve III. pilíři

Paramount získal Warnery a Netflix na tom vydělal

Rostoucí cena operačních pamětí zásadně zdražuje počítače

V USA povolili terapii Optune i pro léčbu rakoviny slinivky

V čem se EET 2.0 liší od EET 1.0? Přinášíme velké srovnání

Kdo se bude moct vyhnout EET a co bude muset splnit?

T-Mobile má za sebou v tuzemsku pozitivní rok, rostly tržby i zisk

Analýza rozebrala moderování Jílkové v Máte slovo

AI se snaží promlouvat i do stavebnictví

10 důvodů, proč lidi nenakoupí na vašem e-shopu