Bayesian Filter in PHP

Aktuelles Update: Mein Spider für RSS-Index hat sich durch das Web gefressen und inzwischen knapp 2.000 RSS- und ATOM-Feeds aufgegabelt, die jetzt indiziert werden. Inzwischen sind etwa 25.000 Posts in der Datenbank.

Ich werde vermutlich der Software etwas Intelligenz einhauchen, indem ich ihr einen bayesschen Filter verpasse. Eine entsprechende Implementierung in PHP habe ich auf xhtml.net gefunden (englische Übersetzung).

Einen bayesschen Filter kann man dazu verwenden, um Texte zu Kategorisieren. Diese Technik wird häufig in SPAM-Filtern verwendet, um Mails in SPAM / NOSPAM zu kategorisieren. Man ist allerdings nicht unbedingt auf zwei Gruppen beschränkt. Man könnte (so, wie zum Beispiel im Mail-Klassifizierungs Programm POPFile) auch sagen, es gibt SPAM, NOSPAM und NEWSLETTER oder derartiges.

Auf RSS-Index werde ich das ganze erst mal dazu einsetzen, um Feeds in ihre Sprachen zu Kategorisieren. Das sollte sehr einfach und sehr genau funktionieren. Mal sehen, wie schnell die Implementierung ist, die ich gefunden habe. Wenn das flott genug geht, dann kann ich mich vielleicht sogar trauen, die Feeds in Unterkategorien im Verzeichnis einzusortieren…

… übrigens hat der Spider während ich diesen Beitrag geschrieben habe weitere 7 Feeds gefunden…

ebay und 3… 2… 1…

Die Rechtssprechung ist schon irgendwie seltsam. Da benutzt eBay nachweislich seit Oktober 2003 den Werbeslogan „3… 2… 1… meins“, und dann darf trotzdem ein viertel Jahr später noch jemand herkommen und sich das ins Markenregister eintragen lassen und dann eBay nachträglich verbieten, den Slogan zu verwenden. Zumindest für drei Warenklassen gehört’s jemand anderem. So ein Schmu…

Siehe auch Heise, Webmaster-Verzeichnis.de, Jack Geronimo und online-stichworte.de

Der böse Link zu AllofMP3

Vielleicht hat der eine oder andere mitbekommen, was momentan mit der Webseite AllofMP3 so abgeht. Es handelt sich dabei um eine rissische Webseite, die – nach deren eigenen Meinung – legal MP3s zum Download anbietet. Die Musikindustrie ist anderer Meinung und sagt, daß in Deutschland von dort heruntergeladene Lieder nicht legal wären. Und so mahnt sie ab – nämlich Webseitenbetreiber, die zur fraglichen Seite verlinken.

Jedenfalls finde ich das hier frech: Heise berichtet darüber, und was findet man im allerersten Satz?

Der freche Link

Drei mal dürft ihr raten, wo der Text „AllofMP3“ hin linkt…

Und drei Abschnitte weiter:

Nicht nur Privatpersonen, sondern auch mehrere Medienunternehmen haben eine solche Abmahnung erhalten. […] In mehreren Artikeln von heise online, so auch in diesem, ist die Web-Adresse des russischen Musik-Portals im Rahmen der journalistischen Berichterstattung verlinkt.

Einfach köstlich 🙂

Aber mal ’ne andere Frage: Darf ich DAS? (Ich habe übrigens absolut keinen Einfluß darauf, was Google in die Suchergebnisse schreibt und distanziere mich hiermit offiziell vom Inhalt des an dieser Stelle verlinkten Webangebotes)

Postbank-Phishing – Sie haben deutsch gelernt!

Hey, die Phisher haben deutsch gelernt…

Wenn sie jetzt noch lernen, daß wir das Jahr 2005 haben, dann fall ich sogar mal drauf rein. Nur hab ich dummerweise gar kein Konto bei der Postbank 😉 – Dumm gephisht 😉

Aber es klingt doch toll, oder? Und wenn man dann auf die Seite geht…

Sehr geehrter Kunde,

Die PostBank macht sich Sorgen wegen der Sicherheit von unseren Kunden, darum entwickeln wir ständig neue Sicherheitsmethoden.
In der letzten Zeit wurden die Diebstahlversuche der Geldmittel von den Bankkonten regelmäßiger geworden. Das System der Anwendung der TAN-Liste hat sich nicht in vollem Maße bewährt. Die Missetäter haben gelernt mit dieser Schutzart umzugehen.
Wir haben äußerst aufmerksam jeden Geldmitteldiebstahlfall von den Konten untersucht und haben somit eine Kriterienliste der verdächtigen Operation zusammengestellt.
Gegenwärtig haben wir ein neues elektronisches Schutzsystem, um den Zutritt zu den Bankkonten zu verhindern, das auf der Feststellung von diesen Kriterien basiert, entwickelt und es ist praktisch einsatzbereit. Wenn die Transaktion verdächtig scheint, stellt das System eine Geheimfrage. Wenn es darauf keine Antwort bekommt, so werden laufende Transaktion und Konto, von dem sie gemacht wurde, bis zur Klärung der Umstände blockiert.
Um das System funktionieren zu lassen, bitten wir Sie, die Form der zusätzlichen Autorisation auszufüllen (Achtung! Wir bitten Sie login und Passwort von Ihrem elektronischen Konto anzugeben).

Nur dumm, daß die URL Underscores statt Slashes enthält…

Mehr Infos (?) auch bei Heise

MSN Search mit neuen Algorithmen

Die MSN-Suche wurde anfang der Woche der Suchalgorithmus geändert. Im MSN Search’s Weblog gibt’s dazu eine sehr visuelle Beschreibung:

This new ranker also is based on technology with an awesome name – it’s a neural net, which we internally call „RankNet“. For you Star Trek fans out there – I keep thinking of the android Data powering our search engine.

Jedenfalls beschwere ich mich absolut gar nicht. Sieht sehr schön aus, wenn ihr mich fragt 🙂

Amazon verleiht

Amazon steigt in’s DVD-Verleih-Geschäft in Deutschland ein. Für 9.99 Euro im Monat darf man sich drei DVDs ausleihen. Die kommen dann frei Haus per Post, und wenn man sie gesehen hat, schickt man einfach die DVDs versandkostenfrei wieder zurück.

Ich bin noch am überlegen, ob das dem klassischen Video-Verleih Probleme bereiten wird… Zu einem gewissen Maße vermutlich schon, aber wenn ich mich so zurückerinnere, wie meine Videotheken-Zeiten ausgesehen haben (jetzt kommen die Leute zu mir und leihen sich DVDs aus 😉 )… „Hey, lass uns heute Abend ein Video schauen.“ – „Okay… Komm, wir gehen in die Videothek!“ – Und mit einer Lieferzeit von „frühestens morgen“ geht das nicht…

[siehe auch Heise und Golem]

Google-Zahldienst: Ja oder Nein

Sie wollen mich verwirren… Ich weiß es genau. Heise berichtet, Google bestätige, einen Zahldienst zu entwickeln, Golem schreibt, Google dementiere die Entwicklung eines PayPal-Konkurrenten.

Genaugenommen widersprechen sie sich damit nicht, aber wenn man nahezu die gleiche Überschrift bei den beiden Seiten findet, die sich aber durch ein gegensätzliches Verb auszeichnt, dann schaut man doch mal genauer. Reuters bringt Licht in’s Dunkel:

Web search leader Google Inc. is developing an online payment system to tackle „new problems in e-commerce,“ but is not building a direct rival to eBay Inc.’s PayPal, Chief Executive Eric Schmidt said on Tuesday.