Kdyby se ten postup ze slovnikem a tokenizaci pouzil i pro bezne jazyky, jak by ten slovnik musel byt zhruba velky? Me pripadne, ze u beznych jazyku (rekneme anglictina, cestina, rustina, nemcina) by mohl byt slovnik mega maly a ze ty programovaci jazyky to maji slozitejsi. Protoze treba int, void, while, if, return je skoro vsude :)
Např. neural machine translation běžně pracuje s 20k-100k slovníkem (https://arxiv.org/abs/1709.07809 str. 61); záleží na jazyku a jeho morfologii. Na klasifikaci se používají word embeddings nebo character embeddings (doporučuji např. http://dx.doi.org/10.1613/jair.4992 ). Naopak, one-hot encoding při velkých slovnících to má těžší než u malých slovníků protože je velmi sparse, proto ty word embeddings (viz předchozí link).