Vlákno názorů k článku Tokenizace textu: základní operace při zpracování přirozeného jazyka od balkovic - Ďakujem za článok. Tokenizáciu a vyhľadávanie informácii sme...

Článek je starý, nové názory již nelze přidávat.

12. 3. 2024 8:22

balkovic

Ďakujem za článok. Tokenizáciu a vyhľadávanie informácii sme robili v rámci semestrálky na škole pre SAV.

Teším sa na ďalšie diely, toto je staré dobré old school spracovanie jazyka.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 3. 2024 11:02

ofilip_dev

Vůbec to není old-school. Naopak se jedná o subword-based tokenizaci, která se objevila v NLP v posledních cca 12 letech v souvislosti s neuronovými sítěmi a je to tokenizace používaná u (nejen) generativních modelů. Algoritmy pro tokenizaci se vyvíjely, ale podstata zůstala stejná - získat slovník subword tokenů zadané veikosti, které maximalizují kvalitu modelu. tiktoken je knihovna od OpenAI.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 3. 2024 17:23

Pavel Tišnovský

Zlatý podporovatel

přesně tak, díky za doplnění
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 3. 2024 21:24

balkovic

Ok diky za upozornenie, musím si pozrieť, v čom je to nejak iné oproti tomu, čo sme robili, sme sa tam nejak drbali s morfémami a riešili, že v Slovenčine sa slová stále menia.

Toto bude asi niečo kind of novšie s lepším prístupom. Aj hento si musím oprášiť, ak nájdem, kde mám strčené materiály.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 3. 2024 9:42

atarist

jo pro nektere jazyky je to slozitejsi. Paradoxne je to trivialni v pripade cinstin, tam moc slova neohybaji. Ale nehledej za tim raketovou vedu, pri konstrukci slovniku tokenu se moc nedivaji na jazyk, jen na frekvenci sekvence znaku (AFAIK).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
13. 3. 2024 11:20

MarSik

Což si mohou dovolit u těch LLM modelů, protože ty si kontext a význam koncovek "odvodí" statisticky. Tradiční zpracování by s tím u našich jazyků pořád mělo problém.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 3. 2024 17:22

Pavel Tišnovský

Zlatý podporovatel

Díky. Ona se tokenizace používá i s moderními LLM, například pro udržení rozumně velikého kontextu (protože delší kontext znamená platit víc a většinou to spíš zhoršuje odpovědi).

Vlákno názorů k článku Tokenizace textu: základní operace při zpracování přirozeného jazyka od balkovic - Ďakujem za článok. Tokenizáciu a vyhľadávanie informácii sme...

Dále u nás najdete

Je tu první vydání magazínu CIOtrends v tomto roce

Při podezření na rakovinu jděte za praktikem, nehledejte na internetu

Pálení žáhy zhoršuje nevhodná večeře. Vadí přejídání i kafe

AI se snaží promlouvat i do stavebnictví

Malware, ransomware a další online hrozby: Jak se liší?

Registrace zaměstnance od 1. dubna 2026 pro účely JMHZ

Nový model OpenAI kóduje 15krát rychleji než jeho předchůdce

Školkovné se vrací. S jakou obměnou?

Rostoucí cena operačních pamětí zásadně zdražuje počítače

Česko se přímo podílí na evropské strategii pro čipy

Deset kroků pro maximální zabezpečení Google účtu

Stát se za data retention omluvil, ale údaje sbírá dál

Sociální sítě: od seznamování k debatám o bezpečnosti

Zmatky u superdávky: přerušeno, zpracovává se a kdy dokládat

AMD přichází se značkou Ryzen AI do segmentu stolních počítačů

Paramount získal Warnery a Netflix na tom vydělal

EET 2.0 bude děravá jako ústa staré ženy

V Česku už seženete exkluzivní ASUS ProArt GoPro Edition

AI prolomila celou firemní infrastrukturu za 21 hodin

Registrace zahraničního zaměstnance pro účely JMHZ