Ich habe gestern mal wieder eine neue „Domain ungenutzt“-Seite gebaut. Die letzte war meinen Mitbewohnern auf dem Server etwas zu Adult-Lastig. Jetzt ist sie dem angepasst und kann mit verschiedenen Skins geladen werden (z.B. die normale Skin, die Game-Skin und natürlich die Adult-Skin).
Natürlich logge ich auch mit, was da so abgeht. Erstens sehe ich, daß knapp die hälfte der Requests von den IPs 67.15.6.71 und 66.98.184.27 kommen, die versuchen, unseren Server als Proxy zu verwenden (rufen login.icq.com auf). Und zweitens bin ich beeindruckt, was für Web-Spider es gibt… In den letzten 20 Stunden sind da vorbei gekommen:
- Googlebot/2.1 (+http://www.google.com/bot.html)
- Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
- msnbot/1.0 (+http://search.msn.com/msnbot.htm)
- Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
- sohu-search
- findlinks/0.973 (+http://wortschatz.uni-leipzig.de/findlinks/)
- cupriBOT [http://www.cfmx.de/webspider]
- NutchCVS/0.8-dev (Nutch; http://lucene.apache.org/nutch/bot.html; nutch-agent@lucene.apache.org)
Google, MSN und Yahoo! kennt man ja, aber wer sind SOHU, Wortschatz.Uni-Leipzig, CFMX und Nutch?!?
Außerdem versuchen „libwww-perl/5.65“ und „libwww-perl/5.803“ von den IPs 207.44.158.30 und 64.151.70.108 die Domain www.google.com von unserem Server abzurufen…
NEIN, wir sind kein offener Proxy… Nicht mehr…
2 Antworten auf „Es spidert das Web…“
Kommentare sind geschlossen.