Normalizovat hledání provedením lowercase ještě pochopím, ale odstranění diakritiky? WTF??? Už kolikrát se mi stalo, že jsem hledal nějaké české slovo, které má bez diakritiky úplně jiný význam než s diakritikou a našlo mi to samozřejmě hlouposti. Na konkrétní příklady si teď nevzpomenu, ale jsou...
Podle mne je to tím, že počítač standardně udělá co mu řeknete a ne co chcete. Jestliže většina uživatelů nedokáže říct co chce, srovnává se to takovými pokročilými nástroji. Vedlejší efekt pak je, že kdo řekne co chce, dostane něco co třeba nechtěl :-)
Aneb: "Pamatujte si pane: Kryton to ví nejlíp."
Já se na tvorbě pár takových, řekněme lehce lehoučce sofistikovanějších, vyhledávacích featurách podílel. Víte, vy ve zkutečnosti nemůžete vědět, jestli se uživatel prostě v jenom písmeně sekl a chtěl hledat pásek
místo písek
, nebo prostě píšete bez diakritiky z nudy, nevědomosti nebo přesně. Úplně stejně např. pas
a pás
, pasy či pásy...
Nejsem vyhledávací vědec, ale je zřejmé, že uhodnout záměr uživatele není možné. Hledat přesnou shodu, to by bylo moc jednoduché. Já bych to řešil nabídkou možných náhrad (někteří lidi neumí nebo nemohou diakritiku) ale dnes je trend věštit ...
27. 10. 2021, 21:02 editováno autorem komentáře
[Poleno]
Tohle je problem, ktery netrapi jen vyhledavace, ale vlastne vsechny aplikace, kde je potreba presne ohodnotit vyznam textu. Nedavno, jsem narazil na vyraz, ktery jsem nebyl schopny bez interpunkce prelozit (v Google prekladaci), a to i pres to, ze jsem vylozene pozadoval preklad z Cestiny do Latiny. Musel jsem pockat az domu, a az tam na PC se mi to povedlo...
28. 10. 2021, 00:15 editováno autorem komentáře
@D.A. Tiger
Řekl bych, tipuji, že čeština > latina není tak vytrénovaná na Google.
S překladači je tu ještě další problém, který si člověk neuvědomí, dokud dělá angličtinu (jazyk) jenom v ČR. Správně přeložený text vám ještě nezaručí, že je to opravdu to co máte říct nebo napsat v dané situaci, i když je to přeloženo správně. Často se to referuje jako Čenglish, v případě angličtiny. To je ještě další úroveň problému kladený na automaty.
V takových chvílích si říkám: Automatu co je automatovo, člověku co je člověkovo
. Podle mě je tady určitý limit, za kterým jakýkoliv automat prostě nemůže vědět, co se komu honí v hlavě a vsadil bych spíš na nějaké inteligentní ověření ze strany automatu, než šílených algoritmů. On je tam totiž ještě jiný problém. Často, pokud se vychytá jedna věc, rozladí se druhá. Uvolníte nějaká pravidla kvůli X a pak jsou volná i pro F a musel byste definovat celou abecedu. Si říkám, jestli to není něco jako běhání se lžičkou vody ...