Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia TopDrive KupDnes Navrcholu NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Hlavní navigace

Jak funguje antispam Bogofilter

V diskusi pod článkem o implementaci Bogofilteru v KMail se objevilo mnoho čtenářů, kteří by rádi podrobně vysvětlili princip filtrování pomocí tohoto účinného nástroje. Zde je podrobné vysvětlení celé technologie. Jak Bogofilter pracuje? Jak je účinný? Jaké výhody má pro uživatele?

Tweetni to Twitter Jaggni to! Jagg Del.icio.us Delicious

Základním principem je Bayesovský filtr (Thomas Bayes *1702 +1761 britský matematik). Jedná se o statistickou metodu klasifikace dokumentů. V případě klasifikace e-mailů použitím Bogofilteru se jedná o statistickou analýzu jednotlivých slov obsažených v e-mailu. K masovému rozšíření této metody došlo následně po publikování prvního a druhého článku Paula Grahama. Autorem Bogofilteru je Eric S. Raymond, který napsal první verzi. Od roku 2002 se na tvorbě podíleli David Relson, Matthias Andree, Greg Louis a mnoho dalších open source vývojářů.

Bogofilter klasifikuje slova celého e-mailu včetně hlavičky, což je důležité. Klasifikace pouhého textu a titulku by nebyla příliš účinná a docházelo by k omylům filtru. Stačilo by, aby spam obsahoval nejčastější běžná slova vyskytující se v běžných e-mailech a prošel by přes spam filtr. Po zpracování každého e-mailu se Bogofilter naučí pravděpodobnost výskytu slov v e-mailu a čím více normálních e-mailů a spamu jím projde, tím lépe je později schopen spam rozpoznávat. Slova jsou ukládána do databáze a ke každému slovu je přiřazena tato klasifikace a četnost výskytu v již dříve zpracovaných e-mailech. Metoda je vylepšena o rozdílnou klasifikaci slov podle toho, v které části e-mailu se nacházejí. Například jinou klasifikaci má slovo obsažené v titulku a jinou v těle zprávy apod.

To se provádí zařazením slova do databáze ne ve formě „slovo”, ale „titulekslovo” nebo „těloslovo”, tím je možno přiřadit různou klasifikaci. Klasifikace je prováděna desetinným číslem od 0 do 0.99, kdy nejvyšší hodnota znamená, že se jedná o spam. Klasifikaci pro ruční třídění, které je zpočátku nutné, můžete sami nastavit zadáním parametru do Bogofilteru. Nejvhodnější kombinace je 0.4 a 0.9, kdy 0.9 určuje spam a 0.4 se osvědčilo jako střední mezní hodnota. To jsou hodnoty, které se používají pro třístavový provoz Bogofilteru a osvědčily se. Pro učení jsou zpracovávána všechna slova z e-mailu, ale pro vyhodnocení ne, protože by opět docházelo k omylům filtru.

Při zpětném zpracování je vyhodnocováno jen určité množství slov z e-mailu (např. 15) a to podle jejich četnosti v databázi Bogofilteru. Jinak řečeno, každé slovo má svoji váhu, podle toho, jak často se v e-mailech vyskytuje, a jeho aktuální klasifikace uložená v databázi má při vyhodnocování vyšší nebo nižší prioritu. Největší zbraní Bogofilteru je lokální databáze každého uživatele a její obsah podle toho, jaký obsah přijímá daný uživatel. Spamer tedy nemůže vytvořit e-mail, který by univerzálně prošel spam filtry 90 % uživatelů.

Konkrétní příklad by mohl být na slovu Nigerie, které se často ve spamech vyskytovalo. Pokud by filtr fungoval podle jednoznačné klasifikace slov a označoval za spam všechny e-mailu obsahující slovo Nigerie, nemohl by toto slovo nikdo používat. Bogofilter je však schopen se naučit, že toto slovo používáte ve svých e-mailech a třídit e-maily dokáže podle výskytu dalších N slov. To je pro případ, že by vám chodily e-maily se spamem, který obsahuje slovo Nigerie a přitom vy sami byste slovo používali při komunikaci e-mailem.

Účinnost Bogofilteru je vyšší než 99 % a pokud některý spam projde, jsou to jednotlivé kusy, které člověka již zdrží minimálně. Navíc v případě třístavového provozu se spamy objevují roztříděné ve složce „nejisté”, nemusíme je tudíž třídit okamžitě a neobtěžují v příchozí poště. Wizardem defaultně nastavený filtr nechává e-maily v příchozí poště, pokud si není jistý, zda se jedná o spam. To je také jeden z důvodů proč je vhodné použít nastavení publikované v mém předchozím článku a nepoužívat wizarda pro nastavení Bogofilteru.

Anketa

Máte potíže se spamem?

       

Pavel Chalupa

Pavel Chalupa

Pavel Chalupa je redaktorem zpráviček a příležitostným pisatelem článků na Root.cz.

Školení: SQL pro začátečníky

Kdo nezná jazyk SQL jako kdyby nebyl. Tak lze stručně charakterizovat dnešní význam SQL v IT. Pokud se chcete naučit tento jazyk, tak navštivte naše školení SQL. Školení je určené začátečníkům, a proto se začíná od skutečných základů.

Kromě samotného SQL se účastíci školení seznámí i se základy PostgreSQL, což je databáze, která se díky své shodě se standardem ANSI SQL a komfortem, který poskutuje svým uživatelům, zvlášť hodí pro výuku SQL.

Podrobnější informace a přihláška

Ohodnoťte jako ve škole:
Průměrná známka 2,94

Přehled názorů

Chybička
Ferda 22. 12. 2006 02:53
Nový
└ 
Re: Chybička
Věra Rybářová 22. 12. 2006 12:46
Nový
 
└ 
Re: Chybička
anonymní uživatel 22. 12. 2006 13:19
Nový
 
 
└ 
Re: Chybička
Věra Rybářová 22. 12. 2006 13:53
Nový
Rozdil od Spamassassinu?
Jirka 22. 12. 2006 11:18
Nový
├ 
Re: Rozdil od Spamassassinu?
Zdenek 22. 12. 2006 11:27
Nový
└ 
Re: Rozdil od Spamassassinu?
Michal Kára 22. 12. 2006 12:27
Nový
Thunderbird
IGL Design 22. 12. 2006 12:19
Nový
├ 
Re: Thunderbird
anonymní uživatel 22. 12. 2006 13:21
Nový
└ 
Re: Thunderbird
Petr Andrš 22. 12. 2006 22:16
Nový
Podrobnejsi popis
Michal Kára 22. 12. 2006 12:26
Nový
└ 
Re: Podrobnejsi popis
mys 22. 12. 2006 13:30
Nový
Nepravdive tvrzeni
Michal Krsek 22. 12. 2006 12:43
Nový
├ 
Re: Nepravdive tvrzeni
matej 22. 12. 2006 13:09
Nový
├ 
Re: Nepravdive tvrzeni
Pavel Čejka 22. 12. 2006 13:12
Nový
├ 
Re: Nepravdive tvrzeni
Zdenek 22. 12. 2006 14:13
Nový
├ 
Re: Nepravdive tvrzeni
Yenya 22. 12. 2006 15:14
Nový
│
└ 
Re: Nepravdive tvrzeni
Michal Krsek 27. 12. 2006 13:11
Nový
└ 
Re: Nepravdive tvrzeni
gilhad Gilhad 22. 12. 2006 15:49
Nový
Greylisting
mmmmm 23. 12. 2006 10:48
Nový
└ 
Re: Greylisting
Filip N. 30. 12. 2006 01:17
Nový
 
└ 
Re: Greylisting
Filip N. 30. 12. 2006 01:18
Nový
Spoléhat jen na Bayese se nevyplatí
miner 26. 12. 2006 21:45
Nový
└ 
Re: Spoléhat jen na Bayese se nevyplatí
Petr 27. 12. 2006 19:32
Nový
 
└ 
Re: Spoléhat jen na Bayese se nevyplatí
mila 30. 12. 2006 19:15
Nový
       

Tento text je již více než dva měsíce starý. Chcete-li na něj reagovat v diskusi, pravděpodobně vám již nikdo neodpoví. Pro řešení aktuálních problémů doporučujeme využít naše diskusní fórum.

Zasílat nově přidané příspěvky e-mailem