Malinko offtopic, ale jádro problemu je v UTF homoglyfech (nebo také confusables) a těch je dnes přes 1500, některé více očividné některé méně. Loni jeden z mých teamů pracoval na realtime scam detection v user to user trade chatu jedné globální společnosti. Celkem nás to potrápilo při normalizaci textů, ale nejen to, jeden z dalších oříšků je například L E T S G O T O (whatever), toto je klasicky platform poaching scam a využívají mezer mezi písmeny a dvojitou jako mezeru mezi slovy. Tohle spolehlivě rozbíjí jednoduzsi pravidla na detekci. K naší smůle, naše platforma také umožňovala in-line obrázky ve zprávě, takže jsme museli nasadit také OCR a posléze i QR detection a decoding. A v tu chvíli udržení platformy relativně bezpečné bylo finančně a mentálně nárocné, provozovat toto všechno společně s AI language modelem.
Akorát že tahle otázka je trochu vágní, aby se dala nějak autoritativně zodpovědět. Respektive posouvá to ten problém jen o kousek dál. Jmenuje se ten známý projekt "Keepass", "Keepas" nebo "Keeppass"? Jak podobné jméno už je cajk si zaregistrovat? Není to dost podobné situaci kolem bot "Nikke" nebo "Adidass"?
Takže to vlastně není primárně problém DNS, nebo IT problém. Je to něco daleko obecnějšího.