Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia TopDrive KupDnes Navrcholu NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Hlavní navigace

Názory k článku
Sagator (4): První hrst konfigurace

Michal Kára
Michal Kára (neregistrovaný)
22. 4. 2005 8:12 Nový

SpamAssassin

celé vlákno
Mozna by nebylo spatne dat priklad pouziti i nejakeho lepsiho antispamu, nez zastaraleho SpamAssdassina ;-) Jinak ale dobre.
SAL
SAL (neregistrovaný)
22. 4. 2005 8:50 Nový

Re: SpamAssassin

celé vlákno
SpamAssassin sa mi zda byt najvhodnejsi. Ma tak velke mnozstvo testov,
ze pri spravnom nastaveni a troske ucenia je velmi efektivny.
Je sice trocha pomalsi, ale zato uzivatel dostane nastroj, ktory je velmi konfigurovatelny.
V tej ukazje je ale jedno, ktory antispam pouzijes. Kludne si to zamen. :)
Michal Kára
Michal Kára (neregistrovaný)
22. 4. 2005 12:59 Nový

Re: SpamAssassin

celé vlákno
> ... pri spravnom nastaveni a troske ucenia je velmi efektivny.

A v tom je prave kamen urazu SA. Nastavit ho spravne je NP problem. SA navic nedava zadne nastroje k analyze spatne urcenych zpav a urceni optimalnich hodnot toho nastaveni. Navic se to nastaveni musi prubezne upravovat podle situace...
HKMaly aura:99
22. 4. 2005 13:30 Nový

Re: SpamAssassin

celé vlákno
Puvodne jsem chtel napsat neco vtipneho na tema, ze kdyz je neco NP problem, tak to neni tak vazne, horsi by bylo kdyby to NP problem nebyl. Pak me ale napadlo neco horsiho: on to dost dobre NP problem byt nemusi. Velikost zprav, ktere bychom potrebovali otestovat, muze byt vice nez polynomialni vzhledem k velikosti konfigurace spamassasina ....

Jinak predpokladam, ze jste mel na mysli, ze problem je NP-tezky, tedy stejne tezky jako vsechny NP-uplne problemy.
Michal Kára
Michal Kára (neregistrovaný)
22. 4. 2005 16:04 Nový

Re: SpamAssassin

celé vlákno
Ja nejsem zas tak dobry teoretik :-) Ale ja chapu NP tridu jako "vse co neni P". Tudiz kdyz neco neni NP, tak to bud neni algoritmicky resitelne (coz by, pravda, bylo horsi), nebo je to P (coz by bylo lepsi).

Jestli je problem NP uplny jsem netvrdil (NP-uplne problemy jsou podmnozina NP). Algoritmus nalezeni optimalnich vah spociva ve vyzkouseni (po nejakem kroku) vsech kombinaci nastaveni a vezme se ta, ktera na testovacich datech dava nejpresnejsi vysledky (t.j. slozitost A^N kde A je pocet ruznych zkousenych vah pro test a N je pocet testu). Nenapada mne ted zjevny prevod na nejaky NP-uplny problem...

Takovy problem lze resit za pomoci metod umele inteligence na prohledavani stavoveho prostoru. Program, ktery to umi existuje, ma ho autor SpamAssassina. Vyrabi mu vzdy vychozi nastaveni pro dalsi release, Ale AFAIK neni volne dostupny. (Predchozi verze udajne pouzivala geneticky algoritmus, soucasna jakousi neuronovou sit.)

Ale proc to delat takhle slozite, kdyz staci ty vystupy hodnotit Bayesianskym filtrem...
puco
puco (neregistrovaný)
22. 4. 2005 16:29 Nový

Re: SpamAssassin

celé vlákno
To chapete zle triedu NP. NP je trieda problemov, ktore vieme riesit nedeterministicky v polynomialnom case. Kazdy jazyk z P je aj v NP (opacne sa to zatial nevie). Existuju triedy jazykov, ktore nepatria do NP a daju sa algoritmicky riesit.
Michal Kára
Michal Kára (neregistrovaný)
22. 4. 2005 16:42 Nový

Re: SpamAssassin

celé vlákno
Mate pravdu, diky za pripomenuti. Porad zapominam, co znamena to N u NP ;-) Jinak ten problem nastavovani vah ale jako (optimalizacni) NP vypada...
HKMaly aura:99
22. 4. 2005 18:02 Nový

Re: SpamAssassin

celé vlákno
Problem nastaveni vah je NP v pripade, ze nastavujeme pro pevne danou (tedy konstantni) mnozinu mailu. Ale neni zcela jasne ze je tohle ten pripad ... spis bychom chteli, aby spamassasin vyhodnotil spravne kazdy mozny mail a ne jen maily z te konstantni mnoziny ....
Michal Kára
Michal Kára (neregistrovaný)
22. 4. 2005 18:27 Nový

Re: SpamAssassin

celé vlákno
> spis bychom chteli, aby spamassasin vyhodnotil spravne kazdy mozny mail

No, to bychom samozrejme chteli :-) Ale problem je, ze u tech "vsech moznych" mailu nemuzeme zjistit spravnou klasifikaci takoveho mailu. Takze se to musi ucit na mnozine mailu, ktere tomu predtim nekdo (clovek) oklasifikoval. Ta mnozina samozrejme neni konstatni, muze se s casem menit, ale pro jedno uceni je konstantni.
HKMaly aura:99
22. 4. 2005 18:32 Nový

Re: SpamAssassin

celé vlákno
Ale "urceni optimalnich hodnot toho nastaveni" je prave o tom co bychom chteli, ne o tom co muzeme dostat. Proto je take nalezeni optimalnich hodnot tak tezke, ale nastesti existuji jednodussi algoritmy, jejihz vysledky se optimalnim hodnotam blizi.
Michal Kára
Michal Kára (neregistrovaný)
22. 4. 2005 18:58 Nový

Re: SpamAssassin

celé vlákno
> nastesti existuji jednodussi algoritmy, jejichz vysledky se optimalnim hodnotam blizi.

Ted nevim, jestli myslite jine algoritmy na fltrovani spamu (treba Bayesianske filtry), nebo jine algoritmy na urcovani vah. Problem SpamAssassina je v tom, ze neexistuje zadny volne dostupny prohram na hledani tech vah. O tom to cele je.
HKMaly aura:99
22. 4. 2005 19:10 Nový

Re: SpamAssassin

celé vlákno
Mam na mysli jine algoritmy na urcovani vah.

A ano, pokud se vratime k puvodnimu problemu, take si myslim, ze by mel byt dostupny nejaky program implementujici jeden z techto algoritmu.
Michal Kára
Michal Kára (neregistrovaný)
22. 4. 2005 20:43 Nový

Re: SpamAssassin

celé vlákno
To ano. Ale neni dostupny.

I tak by nemohl fungovat v realtime (po kazdem mailu), jako Bayes. Rovnez nevim, jak moc je vhodne to, ze nektere jevy ohodnocuje uplne jinym zpusobem, nez druhe (specialni testy versus vyskyt slov v Bayesovske casti).

No nic :-)
maa01
maa01 (neregistrovaný)
22. 4. 2005 15:18 Nový

Re: SpamAssassin

celé vlákno
napriklad?
Michal Kára
Michal Kára (neregistrovaný)
22. 4. 2005 16:05 Nový

Re: SpamAssassin

celé vlákno
dspam
SAL
SAL (neregistrovaný)
26. 4. 2005 10:15 Nový

Re: SpamAssassin

celé vlákno
Dspam je sice dobry filter, ale bez spoluprace pouzivatelov je takmer nepouzitelny. Bohuzial vacsina pouzivatelov internetu nieje natolko
zdatna (alebo im v tom brani lenivost?), aby rucne triedili spam/nonspam. Bez toho ale Dspam nieje funkcny, kedze vie triedit len podla naucenych hodnot.

Pricom spamassassin mozte prevadzkovat na servroch aj bez spoluprace pouzivatelov. Pri zakladnych nastaveniach vie pomerne presne urcovat, ci je nieco spam alebo nie, jeho dalsimi nastaveniami ho viete jednoducho prinutit na oznacovanie spamu o Rolexkach, ...

Idealna je ale kombinacia viacerych antispamov. Opat ale spamassassin ich ma v sebe zahrnutych viac, takze po jeho vhodnom nakonfigurovani vpodstate dalsi ani nepotrebujete.
Zasílat nově přidané příspěvky e-mailem