Internet – Seite 2 – blog.deobald.org

2009-03-18

Domain-Weltkarte von United Domains

United Domains hat im Moment eine Aktion laufen:

Sie bieten eine Domain-Karte zum Kauf von 29 Euro an. Wenn man aber als Blogger – so wie ich hier zum Beispiel – in seinem Blog über die Karte und die Aktion schreibt, dann bekommt man diese Karte im Großformat 120x60cm für umme. Sozusagen gesponsertes virales Marketing… 🙂

Wie auch immer. Ich mache mit, denn so eine Karte macht sich sicher schick in meinem tollen neuen Büro in der neuen Wohnung… Sobald diese halt irgendwann mal gefunden sein mag… Hach je… Alles nicht so einfach 🙂

via netzhure.de

2009-01-20

News im Web 2.0

Das „Web 2.0“ mit seinem User-Generierten Content hebt Nachrichten auf ein ganz neues Niveau. Noch nie kamen News schneller vom Ort des Geschehens in die Welt heraus.

Klar – dem ganzen fehlt bei „Schnellmeldungen“ dann insgesamt noch die Tiefe eines gut recherchierten Artikels, aber eine Kurzmeldung in einem Newsticker bietet die auch nicht.

Kevin Sablan hat sich mal die Mühe gemacht, das ganze am Beispiel des Flugzeugabsturzes in New York zu zeigen, indem er Meldungshäppchen von Twitter, Flickr, YouTube und Vimeo zusammengetragen hat: Hudson crash, lifestreamed by storytlr. Einfach auf das Bild des Flugzeugs im Wasser klicken, dann startet die Slideshow.

Es fängt mit Meldungen von Leuten direkt vor Ort an: „There’s a plane in the Hudson. I’m on the ferry going to pick up the people. Crazy.“, dann kommen immer mehr Details, wie etwa „plane from LaGuardia to Charlotte, NC“, „Airbus A320“ und erste Meldungen von schockierten Beobachtern „OMFG!!! a US Air flight just crashed right into the Hudson river right outside my apartment window!! NOW!“ und geht bis zur Info, wer der Pilot war, der die Katastrophe zum Unfall reduzieren konnte: „The hero of Flight 1549: The hero of Flight 1549 was pilot Chesley B. Sullenberger III. http://tinyurl.com/7w29ca“ und „It’s official: Chesley B. “Sully” Sullenberger, III is the new Chuck Norris“.

Nachrichten in einer neuen Dimension.

2008-12-16

Sinnlosen Bot-Traffic vermeiden

Im WWW wimmelt es inzwischen ja nur so von verschiedenen Bots. Manche füttern Suchmaschinen, manche machen anderes. Manche sind sinnvoll für Webseiten-Betreiber, manche nicht.

Ich habe inzwischen angefangen, besonders sinnlose, störende oder sogar schädliche Spider auszusperren, die unsere Webseiten herunterladen wollen. Immerhin verbrauchen die unsere Bandbreite und unsere Rechenleistung, die wir an anderer Stelle besser einsetzen können.

Einige Bots sind ja noch so nett und schauen erst mal in die robots.txt, ob sie Daten abrufen dürfen. Andere greifen einfach zu. Und die allerschlimmsten sind die, die sich noch nicht mal als Bot identifizieren. Gegen die ist nicht so leicht anzukommen – denn man erkennt sie einfach nicht.

Ein paar von dieser Sorte sperre ich grundsätzlich in der .htaccess anhand der IP aus:

SetEnvIfNoCase Remote_Addr "^82.99.30." banned
SetEnvIfNoCase Remote_Addr "^69.58.178." banned
SetEnvIfNoCase Remote_Addr "^69.84.207." banned
SetEnvIfNoCase Remote_Addr "^91.205.124." banned
SetEnvIfNoCase Remote_Addr "^86.162.11.102" banned
SetEnvIfNoCase Remote_Addr "^82.99.30." banned

order allow,deny
allow from all
deny from env=banned

Das ist allerdings nur ein Tropfen auf den heißen Stein… Diese IPs sind sehr spezifisch und sind einfach ein paar, die mir negativ aufgefallen sind.

Bei den folgenden Bots / User Agents ist das einfacher. Damit diese Regeln funktionieren muss vorher mod_rewrite mit „RewriteEngine On“ eingeschaltet werden.

RewriteCond %{HTTP_USER_AGENT} ^BAGL/Nutch-0.9 [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^CCBot [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^Java/ [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^Microsoft\ URL\ Control [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^Python-urllib [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^sonarv [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^Touche [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^Yanga [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^Yeti/ [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^BPImageWalker/ [OR,NC]
RewriteCond %[HTTP_USER_AGENT} ^QRVA [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*NaverBot/ [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*DBLBot/ [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*discobot/ [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*DotBot/ [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*MJ12bot/ [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*VoilaBot [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*Pockey [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*NetMechanic [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*SuperBot [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*WebMiner [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*WebCopier [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*Web\ Downloader [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*WebMirror [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*Offline [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*WebZIP [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*WebReaper [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*Anarchie [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*Mass\ Down [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*BlackWidow [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*WebStripper [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*WebHook [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*Scooter [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*swish-e [OR,NC]
RewriteCond %{HTTP_USER_AGENT} ^.*Teleport[NC]
RewriteRule ^.*$ - [F,L]

Was sperren diese Regeln aus?

Eine Hand voll Tools, die komplette Webseiten herunterladen
Etwa Teleport oder WebReaper. Es gibt keinen wirklichen Sinn, das zu tun. Hier könnten und sollte eigentlich auch wget mit drin stehen, aber das verwenden wir stellenweise intern.
Diverse „Libraries“, die Programmierer verwenden können, um Webseiten abzurufen
Etwa Java, Python-urllib und Microsoft URL Control. Diese Libraries werden oft verwendet, um SPAM-Bots zu schreiben oder um Webseiten zu „rippen“, um sie auf dem eigenen Webserver mit eigener Werbung zu spiegeln. Natürlich wird auf diesem Weg nicht die Library selbst ausgesperrt, sondern nur die User, die sich mit den Standard-UserAgents identifizieren. Ähnlich wie oben wget wäre hier auch auf Wunsch noch cURL einzufügen.
Einige asiatische Suchmaschinen
Zum Beispiel Baidu oder Naver. Auf diesem Weg verhindern wir vielleicht, dass manche Personen uns finden, aber Asien gehört nicht wirklich zu unserer Zielgruppe.
Einige sinnlose Suchmaschinen
Das sind Suchmaschinen, die einfach (noch?) keine Relevanz haben oder die in unserer Zielgruppe keine Relevanz haben. Hier wären beispielsweise Yanga und Voila zu nennen. Stellenweise habe ich auch Cuil ausgesperrt (nicht in dieser Liste oben). In diesen Fällen steht die durch die Bots erzeugte Last auf unseren Servern in keiner Relation zu den auf diesem Weg erreichten Besuchern. Wenn beispielsweise ein Bot jeden Tag 1000 Dateien abruft, dann aber nur ein Besucher im Monat gebracht wird, dann macht das einfach keinen Sinn.
Einige komplett sinnlose Bots
Da zu nennen wären beispielsweise der MJ12bot und der CCBot. Die sammeln einfach nur Daten und behaupten, irgendwann mal was sinnvolles damit zu tun. Von Majestic12 gibt es immerhin inzwischen eine Alpha-Version von der Suchfunktion. Die Relevanz ist allerdings gleich null.

Etwas anders – der Vollständigkeit halber aber auch erwähnt – ist das hier:

RewriteRule wp-login\.php - [F,L]
RewriteRule xmlrpc\.php - [F,L]
RewriteRule wp-atom\.php - [F,L]
RewriteRule login_page\.php$ - [F,L]
RewriteRule include\.php$ - [F,L]
RewriteRule php.*my.*admin - [NC,F,L]
RewriteRule mysql - [NC,F,L]
RewriteRule typo3 - [NC,F,L]
RewriteRule xampp - [NC,F,L]
RewriteRule w00tw00t - [F,L]

Damit sperre ich diverse URLs, die gerne von Hackern aufgerufen werden, die einfach mal schauen, was es für Angriffsflächen gibt, und beantworte sie mit 403 FORBIDDEN.

Eigentlich ziemlich sinnlos, denn die entsprechenden Dateien gibt’s auf den Servern ohnehin nicht – und wenn doch, dann will man sie normalerweise auch aufrufen können. Aber es werden auf diese Weise doch ein paar Bytes gespart, da die 403 FORBIDDEN Fehlermeldung im Normalfall kleiner ist als die 404 NOT FOUND Datei.

Außerdem sind 404 NOT FOUND Seiten oft auch irgendwie mit der Datenbank verknüpft. Die 403 FORBIDDEN Seite kann man einfach ausgeben, während man das 404 NOT FOUND in der Regel mit einer Hilfestellung für die User verbinden möchte. Hackern ist es in der Regel egal, ob sie einem den Server durch viele schnell aufeinander folgende Aufrufe lahmlegen. Von daher: einfach eine statische 403 FORBIDDEN Seite rausjagen. Das erzeugt nahezu keine Server-Last.

And last, but not least: Man kann dann in der Log-Datei die entsprechenden Aufrufe leichter identifizieren.

2008-11-26

If you want to delete your site from my spam list…

Habe gerade folgenden Beitrag im 4cheaters-Forum gefunden:

to: Admin – If You want to delete your site from my spam list, please visit this site for instructions: remove-url.co.cc

Also: JavaScript und Java ausgeschaltet und die Seite mal aufgerufen… Die Domain ist nicht (mehr?) registriert, so weit ich das sehen kann.

Aber: DAS ist doch schon zeimlich frech, oder? Und vermutlich ein Versuch, noch mehr SPAM-Adressen zu sammeln.

Wenn man bei Google nach „Admin – If You want to delete“ sucht, dann bekommt man gesagt, dass über 400.000 Seiten gefunden würden. Teilweise soll man Mails an verschiedene Mail-Adressen schicken, manchmal irgendwelche Webseiten besuchen.

Und ich bin sicher, danach gibt’s bestenfalls noch mehr SPAM…

2008-11-14

Zwei Drittel weniger Spam

So einfach kann’s sein… Da klemmt man einfach eine Colo vom Internet ab, und auf ein mal gibt’s 60% weniger SPAM-Mails im Netz…

Kaum hatte man dem Provider McColo am Dienstag den Saft abgedreht, schon konnte man einen Knick in den Grafiken sehen, die das SPAM-Volumen anzeigen.

Es wird zwar vermutet, dass die Spammer schnell eine neue Möglichkeit finden, um ihre Viagra-Pillchen unter’s Volk zu bringen – aber für die nächsten paar Tage könnte es etwas ruhiger bleiben…

Hoffen wir mal…

Mehr Infos:

2008-10-15

OpenID und seine Probleme

Ich beobachte die OpenID-Thematik inzwischen seit einiger Zeit und beabsichtige auch, unsere zukünftigen Seiten mit OpenID-Unterstützung auszustatten – da ich für die Technik Potential sehe, das es sich zu unterstützen lohnt. Dummerweise krankt OpenID noch an einigen Problemen, weshalb es derzeit fatal wäre, OpenID als einzige Option sich einzuloggen anzubieten.

Die wichtigsten Probleme fassen Dare Obasanjo und jetzt auch Yahoo zusammen:

End-Nutzer kennen OpenID nicht

Wenn man die Möglichkeit anbietet, sich mit seiner OpenID einzuloggen, dann wissen die User oft nicht, was das überhaupt ist. Viele Leute haben bereits eine, weil sie bei Yahoo, Blogger oder einer anderen Webseite angemeldet sind – aber dass sie dadurch auch eine OpenID haben, das ist was ganz neues.

URL als Login-Name

Warum bitte eine URL? Wenn ich mich einlogge, dann bin ich https://me.yahoo.com/a/USERNAME? Das kann sich erstens niemand merken und zweitens ist es absolut ungewohnt. USERNAME@me.yahoo.com wäre doch viel einprägsamer. Mit E-Mail Adressen einloggen kennt jeder. Es muss ja noch nicht mal eine funktionierende Mail-Adresse sein – nur eine Pseudo-Adresse. Das würde schon reichen, um die Technik auch Laien etwas näher zu bringen. Was dann intern „unter der Haube“ passiert, um den Login aufzurufen, das ist eine ganz andere Frage.

Zu offen?

Einer der großen Stärken von OpenID ist auch eine große Schwäche: Jeder kann OpenID Provider werden. Oder noch „schlimmer“: Jeder kann SEIN EIGENER OpenID Provider werden. Als Spammer würde ich mir gar nicht die Mühe machen, mich bei Yahoo zu registrieren, um mich dann bei Seiten mit OpenID-Login einloggen zu können. Ich würde einfach einen einfachen OpenID Autentifizierungs-Server irgendwo hin stellen, der alle Anfragen mit okay bestätigt. Und schon kommt man überall rein…

Alles in allem noch einige Hürden, die OpenID nehmen muss, bevor es den großen Durchbruch schaffen kann. Dennoch: Es wird kommen. Irgendwann wird es zu viel mit 1000 Logins und Passwörtern für ebensoviele Seiten und Communities…

2008-10-07

Bot My Ass

Mein Gott, es ist voller Sterne… äääh… Bots… das Netz…

Über meinen Beitrag von vor drei Jahren kann man da eigentlich nur noch lachen… Acht Spider waren es damals in 20 Stunden…

Dieses mal sind es 36 Stunden – also fast doppelt so viel Zeit. Hier die Bots (die mir beim lesen der Log-Files aufgefallen sind):

BAGL/Nutch-0.9 (BaglBot; http://www.bagl.co.uk; MyEmail)
Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
Baiduspider+(+http://www.baidu.com/search/spider.htm)
boitho.com-dc/0.86 ( http://www.boitho.com/dcbot.html )
CCBot/1.0 (+http://www.commoncrawl.org/bot.html)
curl/7.16.4 (i386-redhat-linux-gnu) libcurl/7.16.4 OpenSSL/0.9.8b zlib/1.2.3 libidn/0.6.8
Googlebot-Image/1.0
ia_archiver
ia_archiver-web.archive.org
ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com)
Java/1.4.1_04
Java/1.6.0_03
Java/1.6.0_04
kalooga/KaloogaBot (Kalooga; http://www.kalooga.com/info.html?page=crawler; crawler@kalooga.com)
Microsoft URL Control – 6.00.8169
Mozilla/4.0 (compatible; NaverBot/1.0; http://help.naver.com/delete_main.asp)
Mozilla/5.0 (compatible; askpeter_jeanie_2009_bot/5.0; +http://www.askpeter.info)
Mozilla/5.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en/docs/about/webmasters.shtml)
Mozilla/5.0 (compatible; Charlotte/1.1; http://www.searchme.com/support/)
Mozilla/5.0 (compatible; DBLBot/1.0; +http://www.dontbuylists.com/)
Mozilla/5.0 (compatible; discobot/1.0; +http://discoveryengine.com/discobot.html)
Mozilla/5.0 (compatible; DotBot/1.1; http://www.dotnetdotcom.org/, crawler@dotnetdotcom.org)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 (compatible; MJ12bot/v1.2.3; http://www.majestic12.co.uk/bot.php?+)
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)
Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (support.voilabot@orange-ftgroup.com)
Mozilla/5.0 (Yahoo-MMCrawler/4.0; mailto:vertical-crawl-support@yahoo-inc.com)
MSMOBOT/1.1 (+http://search.msn.com/msnbot.htm)
msnbot/1.1 (+http://search.msn.com/msnbot.htm)
msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)
Python-urllib/1.17
Snoopy v1.2
Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
sonarv2/1.16
SonyEricssonK800i/R1ED Browser/NetFront/3.3 Profile/MIDP-2.0 Configuration/CLDC-1.1 (Mediobot/1.0 +http://bot.medio.com)
Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)
SurveyBot/2.3 (Whois Source)
Touche (+http://www.touche.com.ve)
Yandex/1.01.001 (compatible; Win16; I)
Yanga WorldSearch Bot v1.1/beta (http://www.yanga.co.uk/)
Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)
Yeti/1.0 (+http://help.naver.com/robots/)

Ausserdem kamen noch von folgenden IP-Adressen Zugriffe, die sich zwar als Browser ausgegeben haben, aber mit Sicherheit auch Bots sind:

38.100.41.113 (IE7)
38.105.83.12 (IE7)
58.107.82.216 (kaputte Browser-Kennung)
65.94.162.29 (IE6 – fragt robots.txt ab)
65.94.7.199 (IE6 – fragt robots.txt ab)
67.68.21.233 (IE6)
69.58.178.26 – 41 (Firefox 1.0.7 – fragt robots.txt ab)
70.99.174.23 (IE7)
76.65.77.73 (IE6 – fragt robots.txt ab)
84.166.237.84 (IE6 auf Win98 🙂 )
89.149.241.118 (kaputte Browser-Kennung)
92.75.218.76 (Firefox 3.0.3)

Eigentlich toll, dass es so viele Sicherheits-Kopien aller Webseiten gibt… 😉

2008-08-19

Georgien… Georgia…

Kann so was ernst gemeint sein?!?

2008-07-09

Du bist das Internet!

… und das bin ich:

BlaM bei sevenload
BlaM bei klamm.de
BlaM bei Stumbled On
BlaM im XNA Creators Club
BlaM4c bei Twitter
BlaM4c bei Flixster
BlaM4c bei Flickr
BlaM4cheaters bei YouTube
Dominik Deobald bei wer-kennt-wen.de
Dominik Deobald bei XING
Dominik Deobald bei yasni
Dominik Deobald bei studiVZ
Dominik Deobald bei Amazon
sbytes bei SourceForge
sbytes bei dooyoo
sbytes bei ciao.com

… und viele andere mehr… Nennt man das dann multiple Persönlichkeiten?

Dank Yahoo Pipes kann ich hier aber auch einen gesammelten RSS-Feed anbieten 😉

2008-06-19

Schlagwort: Internet