Vlákno názorů k článku Knihovna FAISS a embedding: základ jazykových modelů od janczk - Dobrý den. Dobře zpracované téma, díky za to....

  • Článek je starý, nové názory již nelze přidávat.
  • 29. 7. 2025 5:50

    janczk

    Dobrý den. Dobře zpracované téma, díky za to. zaujala možnost využití RAG systémů a konkrétně bych se rád zeptal na Vaše zkušenosti s modelem csmpt7B, který je finetunovaný na českých korpusech.

    Jelikož se sám zabývám podobnou problematikou v českém kontextu, zajímalo by mě, jaké jsou Vaše praktické poznatky ohledně generování odpovědí s tímto modelem v RAG nastavení. Především bych se rád dozvěděl
    Jaká je kvalita generovaných odpovědí v českém jazyce? Setkal jste se s nějakými specifickými jevy nebo chybami, které jsou typické pro češtinu (např. vázání, skloňování, koherence, nebo přenos znalostí z retrieveru)?
    Jaké byly největší výzvy nebo úskalí, na které jste narazil při práci s csmpt7B a českými daty pro RAG? Bylo něco, co Vás překvapilo nebo co vyžadovalo zvláštní pozornost?
    Pozoroval jste nějaké výrazné rozdíly ve výkonu oproti anglicky finetunovaným modelům nebo modelům trénovaným na obecnějších datech?
    Měl byste nějaké doporučené postupy nebo tipy na optimalizaci pro dosažení lepších výsledků s csmpt7B v RAG kontextu pro češtinu?

    Budu velmi vděčný za jakékoli Vaše postřehy a rady, které by mi pomohly v mém vlastním výzkumu.
    Děkuji a přeji hezký den!

  • 29. 7. 2025 14:39

    Pavel Tišnovský
    Zlatý podporovatel

    Dobrý den,

    my používáme jen modely primárně určené pro angličtinu. Ale nějaký výzkum se dělal na Masarykově univerzitě. Zeptám se tam známých a pošlu je sem do diskuze :-)

  • 29. 7. 2025 17:11

    janczk

    Děkuji. Zkouším csmbt7 a bohužel nedostávám očekávané výstupy. Ale může to být nevhodnou kvantizací.

    Do ladění na českých korpusech jste se nepouštěli u vámi používaných modelů?