Hlavní navigace

Jak funguje antispam Bogofilter

Pavel Chalupa

V diskusi pod článkem o implementaci Bogofilteru v KMail se objevilo mnoho čtenářů, kteří by rádi podrobně vysvětlili princip filtrování pomocí tohoto účinného nástroje. Zde je podrobné vysvětlení celé technologie. Jak Bogofilter pracuje? Jak je účinný? Jaké výhody má pro uživatele?

Základním principem je Bayesovský filtr (Thomas Bayes *1702 +1761 britský matematik). Jedná se o statistickou metodu klasifikace dokumentů. V případě klasifikace e-mailů použitím Bogofilteru se jedná o statistickou analýzu jednotlivých slov obsažených v e-mailu. K masovému rozšíření této metody došlo následně po publikování prvního a druhého článku Paula Grahama. Autorem Bogofilteru je Eric S. Raymond, který napsal první verzi. Od roku 2002 se na tvorbě podíleli David Relson, Matthias Andree, Greg Louis a mnoho dalších open source vývojářů.

Bogofilter klasifikuje slova celého e-mailu včetně hlavičky, což je důležité. Klasifikace pouhého textu a titulku by nebyla příliš účinná a docházelo by k omylům filtru. Stačilo by, aby spam obsahoval nejčastější běžná slova vyskytující se v běžných e-mailech a prošel by přes spam filtr. Po zpracování každého e-mailu se Bogofilter naučí pravděpodobnost výskytu slov v e-mailu a čím více normálních e-mailů a spamu jím projde, tím lépe je později schopen spam rozpoznávat. Slova jsou ukládána do databáze a ke každému slovu je přiřazena tato klasifikace a četnost výskytu v již dříve zpracovaných e-mailech. Metoda je vylepšena o rozdílnou klasifikaci slov podle toho, v které části e-mailu se nacházejí. Například jinou klasifikaci má slovo obsažené v titulku a jinou v těle zprávy apod.

To se provádí zařazením slova do databáze ne ve formě „slovo”, ale „titulekslovo” nebo „těloslovo”, tím je možno přiřadit různou klasifikaci. Klasifikace je prováděna desetinným číslem od 0 do 0.99, kdy nejvyšší hodnota znamená, že se jedná o spam. Klasifikaci pro ruční třídění, které je zpočátku nutné, můžete sami nastavit zadáním parametru do Bogofilteru. Nejvhodnější kombinace je 0.4 a 0.9, kdy 0.9 určuje spam a 0.4 se osvědčilo jako střední mezní hodnota. To jsou hodnoty, které se používají pro třístavový provoz Bogofilteru a osvědčily se. Pro učení jsou zpracovávána všechna slova z e-mailu, ale pro vyhodnocení ne, protože by opět docházelo k omylům filtru.

Při zpětném zpracování je vyhodnocováno jen určité množství slov z e-mailu (např. 15) a to podle jejich četnosti v databázi Bogofilteru. Jinak řečeno, každé slovo má svoji váhu, podle toho, jak často se v e-mailech vyskytuje, a jeho aktuální klasifikace uložená v databázi má při vyhodnocování vyšší nebo nižší prioritu. Největší zbraní Bogofilteru je lokální databáze každého uživatele a její obsah podle toho, jaký obsah přijímá daný uživatel. Spamer tedy nemůže vytvořit e-mail, který by univerzálně prošel spam filtry 90 % uživatelů.

Konkrétní příklad by mohl být na slovu Nigerie, které se často ve spamech vyskytovalo. Pokud by filtr fungoval podle jednoznačné klasifikace slov a označoval za spam všechny e-mailu obsahující slovo Nigerie, nemohl by toto slovo nikdo používat. Bogofilter je však schopen se naučit, že toto slovo používáte ve svých e-mailech a třídit e-maily dokáže podle výskytu dalších N slov. To je pro případ, že by vám chodily e-maily se spamem, který obsahuje slovo Nigerie a přitom vy sami byste slovo používali při komunikaci e-mailem.

Účinnost Bogofilteru je vyšší než 99 % a pokud některý spam projde, jsou to jednotlivé kusy, které člověka již zdrží minimálně. Navíc v případě třístavového provozu se spamy objevují roztříděné ve složce „nejisté”, nemusíme je tudíž třídit okamžitě a neobtěžují v příchozí poště. Wizardem defaultně nastavený filtr nechává e-maily v příchozí poště, pokud si není jistý, zda se jedná o spam. To je také jeden z důvodů proč je vhodné použít nastavení publikované v mém předchozím článku a nepoužívat wizarda pro nastavení Bogofilteru.

Anketa

Máte potíže se spamem?

Našli jste v článku chybu?

30. 12. 2006 19:15

mila (neregistrovaný)
Ja mam Bayese pouziteho asi na spatnem miste. Snazim se tagovat postu, ktera filtrem prochazi asi pro 500 uzivatelu. Delim je do kategorii typu marketing, financni, reklamacni ... v blahove vire, ze mnozsvi informaci bude vlastnosti filtru vylepsovat. Zpetnou vazbu meli zajistovat uzivatele, jejichz prispevky mely filtr ucit. Bohuzel nejspis vyse uvedene pripady mi zacaly fitr otravovat az z toho totalne zblbnul .. na druhou stranu, kdyz jsem prohlizel vyukovy material, ani jsem se mu nedivil.
M…

30. 12. 2006 1:18

Filip N. (neregistrovaný)
Ano Greylisting nam hodne pomohl...nasadili jsme Merak Mail Server pro Linux a ten ho uz obsahoval..zprvu ponekud slozitejsi nastaveni ale da se
Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Lupa.cz: Propustili je z Avastu, už po nich sahá ESET

Propustili je z Avastu, už po nich sahá ESET

Vitalia.cz: Mondelez stahuje rizikovou čokoládu Milka

Mondelez stahuje rizikovou čokoládu Milka

Měšec.cz: Sleva na dítě a manželku pro OSVČ je zpět. Ale..

Sleva na dítě a manželku pro OSVČ je zpět. Ale..

Vitalia.cz: Taky věříte na pravidlo 5 sekund?

Taky věříte na pravidlo 5 sekund?

Podnikatel.cz: Chaos u EET pokračuje. Jsou tu další návrhy

Chaos u EET pokračuje. Jsou tu další návrhy

Vitalia.cz: Paštiky plné masa ho zatím neuživí

Paštiky plné masa ho zatím neuživí

Vitalia.cz: Láska na vozíku: Přitažliví jsme pro tzv. pečovatelky

Láska na vozíku: Přitažliví jsme pro tzv. pečovatelky

Vitalia.cz: Když přijdete o oko, přijdete na rok o řidičák

Když přijdete o oko, přijdete na rok o řidičák

DigiZone.cz: Rádio Šlágr má licenci pro digi vysílání

Rádio Šlágr má licenci pro digi vysílání

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Lupa.cz: Insolvenční řízení kvůli cookies? Vítejte v ČR

Insolvenční řízení kvůli cookies? Vítejte v ČR

Vitalia.cz: Nejlepší obranou při nachlazení je útok

Nejlepší obranou při nachlazení je útok

Vitalia.cz: Spor o mortadelu: podle Lidlu falšovaná nebyla

Spor o mortadelu: podle Lidlu falšovaná nebyla

Lupa.cz: Teletext je „internetem hipsterů“

Teletext je „internetem hipsterů“

Podnikatel.cz: Podnikatelům dorazí varování od BSA

Podnikatelům dorazí varování od BSA

Podnikatel.cz: Chtějte údaje k dani z nemovitostí do mailu

Chtějte údaje k dani z nemovitostí do mailu

120na80.cz: Co všechno ovlivňuje ženskou plodnost?

Co všechno ovlivňuje ženskou plodnost?

Lupa.cz: Co se dá měřit přes Internet věcí

Co se dá měřit přes Internet věcí

Vitalia.cz: Pamlsková vyhláška bude platit jen na základkách

Pamlsková vyhláška bude platit jen na základkách