ad 1 - Překlep je pro člověka v tomto filtru jednoznačný, dělal jsem spousty pokusů a vždy z kontextu věty lze přesně říct o jaký překlep se jedná. Zda to bude použitelné pro slepé uživatele nedokážu posoudit - bez OCR tak jako tak ne.
ad 3 - Zkuste si pokusně napsat nějaký příspěvek do konkrétní implementace v diskusi na kregion.cz a nezadávejte kód: bude Vám po chybném zadání kódu zobrazen text příspěvku a můžete ho poslat e-mailem. Konkrétní přítupnost záleží na implementaci.
> a až si zmiňovaný "speciální webový prohlížeč s OCR" stáhne spammer, tak co? Pak tam ty obrázky nemusí být vůbec. Autor v tom nemá moc jasno.
Spamer už OCR má s tím se počítá. Spamer si musí vyhodnotit větu, ve které jsou překlepy a správně se rozhodnout, který čtverec bude číst. Čtverců může být více, barev také.
Milej zlatej, $reload_protection jsem navrhnul vypnout, protože je napadnutelná opakovaným reloadem a dojde k zablokování diskusního fóra. Chyba bude vyřešena v budoucí verzi rozpoznáváním reloadu podle IP adresy.
Chechtej se dál, pane chytrej, když nic jiného neumíš jen zkritizovat druhé a sám nic nedělat, podle hesla: Kdo nic nedělá, nic nezkazí, kdo nic nezkazí je povýšen, kdo je povýšen, nic nedělá. Tohle heslo je z komunistické éry, jestli si to nepamatuješ :-)
Píšu to do diskují nerad a velmi výjimečně, ale tady platí na celé čáře:
Jste totálně trapný, Zoubku!
Autor zkrátka napsal zajímavý skriptík a očekává věcnou diskusi nad principy, nad kódem, nebo aspoň tichou ignoraci linuxových géniů i "linuxových géniů". Jestli máte kousek soudnosti, pak napište v klidu a míru, že termín "konečné řešení" není zrovna v historickém kontextu košér, napište, že ty PNG jsou relativně dost OCRabilní a že pokud nebude velmi velká pestrost otázek, pak lze i náhodně přidaný šum (falešné znaky) z textu odfiltrovat, nebo že s tím budou mít problém barvoslepí.
Ale jelikož vás devizou zvanou slušnost Pánbůh neobdařil, pak zůstaňte, prosím, protentokrát nad věcí a nerejpejte do někoho, kdo se o něco užitečného snaží!
Nemyslím, že by to bylo tak složité. Google dneska taky umí vyfiltrovat porno a warez minimálně z prních stránek vyhledávání, tak proč by to pro technorati a spol. mělo být o tolik težší? Už dneska technorati umí třídit blogy podle jejich významu (obdoba google page rank) a spameři asi nebudou moc vysoko - kdo by je linkoval? Až se spameři začnou linkovat navzájem, tak budou muset nastoupit složitější algoritmy určování významu, ale opět google je příkladem, že filtrovat uměle nadhodnocené stránky +- lze.
Hlavní je, že každý spam bude mít URL v nějaké doméně, která někomu patří. Tudíž bude jednodužší spam identifikovat (narozdíl od autorem článku vyvíjeného řešení na bázi IP adres). A registrovat si každou chvíli novou neposkvrněnou doménu by se spamerům dost prodražilo.
Čistě teoreticky by přiřazení URL spamu mohlo umožnit i snadnější právní postih spamerů. Po úpravě zákonů... a jen v některých zemích.
Myslím, že největší slabina tohoto řešení není technická, ale sociální. Aby to začalo fungovat, museli by uživatelé výrazně změnit své chování (sehnat si domény, založit si vlastní blogy,...) a hlavně provozovatele diskuzí by je museli zrušit. A to se asi nestane dokud nebude spam opravdu všudypřítomný, protože každý provozovatel diskuze (root.cz nevyjímaje) je velmi rád, když na jeho stránky chodí lidi, přispívají a hlavně tam čtou reklamu.
Dnešní záplata řeší kontrolu IP. Default verze nyní nepoužívá univerzální reload kontrolu a kontroluje reloady z konkrétní IP adresy. Starou kontrolu reloadu lze též použít s rizikem odstavení diskusního fóra.
Ochrana je řešena zápisem všech přístupů do databáze za poslední týden (lze zvolit i jiný interval). Není pravda, že se nekontroluje nic. Týdenní limit tam sice je, ale lze jej vyčerpat podle týdenního limitu, pokud se nepřesáhne 24 hodinový, hodinový limit atd. Nelze to provést během chvilky. Můžete si to zkusit na diskusi na kregion.cz. Tam je i opravená verze s kontrolou IP.