Aktuelles Update: Mein Spider für RSS-Index hat sich durch das Web gefressen und inzwischen knapp 2.000 RSS- und ATOM-Feeds aufgegabelt, die jetzt indiziert werden. Inzwischen sind etwa 25.000 Posts in der Datenbank.
Ich werde vermutlich der Software etwas Intelligenz einhauchen, indem ich ihr einen bayesschen Filter verpasse. Eine entsprechende Implementierung in PHP habe ich auf xhtml.net gefunden (englische Übersetzung).
Einen bayesschen Filter kann man dazu verwenden, um Texte zu Kategorisieren. Diese Technik wird häufig in SPAM-Filtern verwendet, um Mails in SPAM / NOSPAM zu kategorisieren. Man ist allerdings nicht unbedingt auf zwei Gruppen beschränkt. Man könnte (so, wie zum Beispiel im Mail-Klassifizierungs Programm POPFile) auch sagen, es gibt SPAM, NOSPAM und NEWSLETTER oder derartiges.
Auf RSS-Index werde ich das ganze erst mal dazu einsetzen, um Feeds in ihre Sprachen zu Kategorisieren. Das sollte sehr einfach und sehr genau funktionieren. Mal sehen, wie schnell die Implementierung ist, die ich gefunden habe. Wenn das flott genug geht, dann kann ich mich vielleicht sogar trauen, die Feeds in Unterkategorien im Verzeichnis einzusortieren…
… übrigens hat der Spider während ich diesen Beitrag geschrieben habe weitere 7 Feeds gefunden…