Vlákno názorů k článku Framework Torch: konfigurace struktury neuronových sítí, rozpoznávání programovacího jazyka od Rozpoznani beznych jazyku - Kdyby se ten postup ze slovnikem a tokenizaci...

18. 1. 2018 9:03

Rozpoznani beznych jazyku (neregistrovaný)

Kdyby se ten postup ze slovnikem a tokenizaci pouzil i pro bezne jazyky, jak by ten slovnik musel byt zhruba velky? Me pripadne, ze u beznych jazyku (rekneme anglictina, cestina, rustina, nemcina) by mohl byt slovnik mega maly a ze ty programovaci jazyky to maji slozitejsi. Protoze treba int, void, while, if, return je skoro vsude :)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
18. 1. 2018 13:41

-- (neregistrovaný)

Např. neural machine translation běžně pracuje s 20k-100k slovníkem (https://arxiv.org/abs/1709.07809 str. 61); záleží na jazyku a jeho morfologii. Na klasifikaci se používají word embeddings nebo character embeddings (doporučuji např. http://dx.doi.org/10.1613/jair.4992 ). Naopak, one-hot encoding při velkých slovnících to má těžší než u malých slovníků protože je velmi sparse, proto ty word embeddings (viz předchozí link).

Dále u nás najdete