Hlavní navigace

Názor ke zprávičce Král spamerů se přiznal: hrozí mu 26 let od anonym - Spamassasin stojí na "tréninku" jen částečně. To trénování...

  • Aktualita je stará, nové názory již nelze přidávat.
  • 19. 3. 2008 23:25

    bez přezdívky
    Spamassasin stojí na "tréninku" jen částečně. To trénování krmí mozek Bayes filtru, ale jeho hodnocení má relativně malou váhu v celkovém rozsudku (záleží samozřejmě na nastavení). SA dělá mnohem víc checků a ideální je, když má přístup na Internet. Pak kromě "statického" vyhodnocování obsahu hlaviček mailů (trasa, relaye, konformance SMTP, identifikátory, etc) ještě komunikuje s kolaborativními on-line projekty a to pak teprv jede.

    Já Bayes filtr netrénoval, takže v podstatě nic neuměl (vaše situace) a už tenkrát mi SA z cca 250-320 spamů denně (do jedné schránky) bezpečně vyeliminovat vše až na jeden (za den). Nikdy neoznačil regulérní mail za spam a to cca polovinu mojí schránky tvoří anglické maily z ciziny a stovek domén. Byl jsem spokojený, protože účinnost 99.6667% a chybovost 0% mi bohatě stačila.

    Pak jsem si řekl proč ne a zkusil celou svoji schránku nacpat Bayesu najednou jako ham (regulérní poštu) a obsah složky JUNK (jen za posledních pár dní) jako spam. Vzhledem k tomu na jakém principu Bayes funguje a taky kvůli faktu, že spammeři svoje maily statisticky "vyvažují" normál slovy, čekal jsem, že se účinnost nezlepší (krom toho jednoho ruského textového spamu neměla ani kam) a že SA možná i začne označovat regulérní maily jako spam.

    Mýlil jsem se - od té doby stále žádné falešné pozitivum a už mi to filtruje i ten ruský neřád, který díky šikovnému a korektnímu odesílání přes legitimní a čisté relaye dřív penetroval vše. Stačilo jedno učení spam/ham ~ 1000/600.

    Takže vážený, na SA já nedám dopustit. Léta prakticky nevím co to spam je.

    Než něco zavrhnete, zkuste se s tím nejdřív naučit zacházet. Pokud jste ho netrénoval a měl všechny ostatní checky vypnuté jako v defaultu, nemůžete se divit. Od vypnutého spam filtru těžko můžete čekat výsledky. A to ani nemluvím o extra rozšířeních jako je OCR "nového" typu spamů v podobě jediného obrázku, v němž je reklama vyrenderovaná. Ostatně i tento typ dokáže SA odchytit bez podobně krkolomného a CPU náročného procesu pomocí heuristiky a vyššího bodování mailů s jedním obrázkem o určitých parametrech.

    SA + 2sec gray + Bayes + Razor, atp + custom úpravy některých skóre = SPAM free :)