Zu viel SPAM

Das ist doch langsam wirklich krank… Hier die Einstufungsstatistik meines SPAM-Filters:

SPAM & co.

In der Kategorie „4cheaters“ werden mir alle neuen Forums-Beiträge von 4cheaters.de einsortiert. Diese Mails sollte man also nur bedingt mitzählen, da es Mails sind, die ich mir selbst zuschicke.

Bleiben insgesamt etwa 44.000 andere Mails, die seit dem 14. Mai (seit da wird die Statistik ermittelt) bei mir eingetrudelt sind. Abgesehen davon, daß ich durchschnittlich jeden Monat 5.000 Mails bekomme (tendenz steigend): knapp 90% meiner Mails sind SPAM. Wo soll das noch hinführen?

SPAM in Farbe – und bunt!

Zum Thema „SPAM-Mails“ konnte ich mir gerade eine Antwort nicht verkneifen…

Hallo XXXXXXXXXX,

nachdem ich Ihre Mail mit der Einladung zum XXXXXXXXX jetzt schon drei mal mit rotem Hintergrund und zwei mal in blau erhalten habe: Kann ich sie vielleicht auch noch mal in grün haben? So ein sattes dunkelgrün wäre sicherlich nett und würde die Sammlung vervollständigen 😉

Mit freundlichen Grüßen,

Dominik Deobald
Produktentwicklung

[Update 5.10.2005]

Heute ist eine Mail von denen zurückgekommen, stilecht mit grünem Hintergrund. Habe mich kringelig gelacht, als ich die Mail heute Morgen gesehen habe.

Hallo Herr Deobald,

wir haben die mail eigentlich nur zweimal rausgeschickt, einmal mit rot und einmal mit blauem Hintergrund.
Dann waren Sie wohl doppelt in der Liste. Das tut mir leid. Immerhin scheint die Mail aufgrund Ihrer Farbgebung ja auf Ihre Aufmerksamkeit gestoßen zu sein 😉

Ich nehme Sie auf jeden Fall aus der Liste, sodass Sie sich zukünftig nicht mehr mit Mails rechnen müssen, sofern Sie nicht als Besucher kommen.

Mit freundlichen Grüßen
XXXXXXXXXXXXXX

So ist brav – Schön, daß manche Leute Spaß verstehen *g*

It spamed me!

Es hat mich gespamt! Mein Blog hatte heute Abend auf einen Schlag 250 neue Kommentare! Hätt ich doch bloß schon vor ein paar Tagen, als ich auf der Suche nach einem Cache für den Blog war, den SPAM-Schutz Hashcash installiert…

Hab ich jetzt getan. AusgeSPAMt – zumindest via Bot!

Bayesian Filter in PHP

Aktuelles Update: Mein Spider für RSS-Index hat sich durch das Web gefressen und inzwischen knapp 2.000 RSS- und ATOM-Feeds aufgegabelt, die jetzt indiziert werden. Inzwischen sind etwa 25.000 Posts in der Datenbank.

Ich werde vermutlich der Software etwas Intelligenz einhauchen, indem ich ihr einen bayesschen Filter verpasse. Eine entsprechende Implementierung in PHP habe ich auf xhtml.net gefunden (englische Übersetzung).

Einen bayesschen Filter kann man dazu verwenden, um Texte zu Kategorisieren. Diese Technik wird häufig in SPAM-Filtern verwendet, um Mails in SPAM / NOSPAM zu kategorisieren. Man ist allerdings nicht unbedingt auf zwei Gruppen beschränkt. Man könnte (so, wie zum Beispiel im Mail-Klassifizierungs Programm POPFile) auch sagen, es gibt SPAM, NOSPAM und NEWSLETTER oder derartiges.

Auf RSS-Index werde ich das ganze erst mal dazu einsetzen, um Feeds in ihre Sprachen zu Kategorisieren. Das sollte sehr einfach und sehr genau funktionieren. Mal sehen, wie schnell die Implementierung ist, die ich gefunden habe. Wenn das flott genug geht, dann kann ich mich vielleicht sogar trauen, die Feeds in Unterkategorien im Verzeichnis einzusortieren…

… übrigens hat der Spider während ich diesen Beitrag geschrieben habe weitere 7 Feeds gefunden…

SPAM® vs. SPAM™

Leute, zieht euch warm an: Hormel, der Hersteller des „Nahrungsmittels“ Spam® (Spiced Ham) hat laut Heise.de jetzt auch die Namensrechte an Spam™ im Zusammenhang mit Software erhalten – genaugenommen für ihren Bildschirmschoner, den es seit geraumer Zeit zum Downloaden gibt.

Abmahnungswelle, ik hör dir tapsen?