Vůbec to není old-school. Naopak se jedná o subword-based tokenizaci, která se objevila v NLP v posledních cca 12 letech v souvislosti s neuronovými sítěmi a je to tokenizace používaná u (nejen) generativních modelů. Algoritmy pro tokenizaci se vyvíjely, ale podstata zůstala stejná - získat slovník subword tokenů zadané veikosti, které maximalizují kvalitu modelu. tiktoken je knihovna od OpenAI.