Another Bad Bot: cyberscan.io

In my robots.txt I have an fake entry disallowing access to a special path which is not linked anywhere. No bot should ever visit this entry, but a few months ago a bot accessed this URL. The bot has the UA "cyberscan.io" and according to Google it is "Your next generation Cybersecurity Tool!". Whatever, the UA may be faked, but this another entry for the block list..

Bad-Bot aus Deutschland: PixRay

Eigentlich wollte ich keinen eigenen Text schreiben sondern einen Kommentar auf den Post "Der RES ist ihnen egal" auf  barrierefreie-webloesungen.de verfassen, aber leider hat der Besitzer die Kommentarfunktion deaktiviert. Trotzdem ist der Text dort empfehlenswert, viele Ungereihmtheiten vom PixRay-Bot werden dort angesprochen. 

Kurz erklärt ist der Pixray-Bot ein Bot der das Web durchkämmt auf der Suche nach Urheberrechtsverstößen bei Bildern. Allerdings ist  das Ding ausnahmsweise mal ein deutsches Produkt. Bei mir ist der Bot über den User-Agent  "*pixray*" schön länger gesperrt. Eben war er nochmal getarnt da, aufgefallen ist er mir nur weil AWStats die IP zu "node-5-9-25-73.cluster.eu.webcrawler.pixray.com" aufgelöst hat. Laut den Logs kam der Aufruf wirklich von der IP 5.9.25.73, die aber nur 30 min später nur noch zu " static.5-9-25-73.clients.your-server.de" auflöst. Anscheinend möchte Pixray nicht erkannt werden. Der User-Agent (UA) war übrigens dieser halbe Roman: 

"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; WOW64; Trident/4.0; BTRS124307; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.5.21022; .NET CLR 3.5.30729; .NET CLR 3.0.30618; InfoPath.2; .NET4.0C; eMusic DLM/4; .NET CLR 1.1.4322; .NET4.0E;

Es sind verdammt viele .Net CLRs installiert.. auf einer Debian Kiste. Woher ich das weiss? Öh, ich muss dann mal weg. Wenn man Project Honeypot zu der IP befragt, dann kriegt man folgende User-Agents genannt: 

  • Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; WOW64; Trident/4.0; BTRS124307; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.5.21022; .NET CLR 3.5.30729; .NET CLR 3.0.30618; InfoPath.2; .NET4.0C; eMusic DLM/4; .NET CLR 1.1.4322; .NET4.0E;
  • Pixray-Seeker/2.0 (Pixray-Seeker; http://www.pixray.com/pixraybot; crawler@pixray.com)

Da ist er wieder, der Pixray-Bot. Er tut also alles  um sich zu tarnen. Vielleicht hat er es bei mir mit den anderen UAs probiert, weil er bei mir als Pixray-Seeker schon gesperrt ist. So als verdeckter Ermittler, obwohl Pixray behauptet "Wir sind keine Schnüffler"

Gehostet werden die Pixray-Crawler übrigens u.a. bei Hetzner, meiner Meinung nach übrigens der größte Dreckschleuder-Hoster in Deutschland. Viele deutschsprachige Spammails kommen direkt von Hetzner-Kunden oder die beworbenen Webseiten sind bei Hetzner gehostet. Ich schicke die Mails brav an Spamcop, aber Spamcop schickt keine Meldungen an Hetzner. Meldung ist "reports disabled for abuse@hetzner" ohne Angabe weiterer Gründe. Ob Spamcop nicht mit Hetzner will oder Hetzner nicht mit Spamcop, das bleibt leider offen. 

Nachtrag 03.10.2012

in den letzten 14h war der Bot noch 67 mal da, von 15 weiteren IPs und mit diesem Tarn-UA von oben. Für diese IPs habe ich selbst frühere Einträge mit dem korrekten Pixray-UA. Alle Server sind wieder bei Hetzner gehostet:

  • 5.9.25.67
  • 5.9.25.68
  • 5.9.25.70
  • 5.9.25.71
  • 5.9.25.72
  • 5.9.25.73
  • 5.9.25.74
  • 5.9.25.75
  • 5.9.25.77
  • 5.9.25.79
  • 5.9.25.80
  • 5.9.25.81
  • 5.9.25.83
  • 5.9.25.84
  • 5.9.25.85

5.9.25.67 - 85 sind übrigens auch bei Project Honeypot als Pixray Seeker bekannt. Alle übrigens wieder ohne Reverse-DNS Namen. Wer will kann mit 5.9.25.64/27 die IPs 5.9.25.64-95 in einem Rutsch sperren. Wer denkt dass von Hetzner eh nur Schrott kommen kann der nimmt 5.9.0.0/16 und sperrt das Hetzner-AS AS24940 komplett.

Aber nein, Pixray schnüffelt nicht... 

Rubrik: 

Bot-Block: TurnitinBot

Und der nächste Bot der geblockt wird: Turnitinbot. Aufgefallen ist mir der Kerl weil er ungültige URLs aufgerufen hat, die zu SQL Fehlern geführt haben. Ich muss noch gucken wo Drupal Eingaben nicht sorgsam genug  überprüft, denn das ist auch ein Ding der Unmöglichkeit. 

Wie auch immer, Turnitbot ist ein Crawler der das Netz durchkämmt um Plagiate für Universitäten zu finden

This robot collects content from the Internet for the sole purpose of helping educational institutions prevent plagiarism. In particular, we compare student papers against the content we find on the Internet to see if we can find similarities.

Tja, beim Guttenberg hat's nicht geholfen, das war noch ein offliner. Ob mein Müll wissenschaftlichen Anforderungen genug bezweifle ich mal, also ist der Bot bei mir verkehrt. An seine eigenen Regeln hält der sich übrigens auch nicht: 

For versions Turnitinbot/1.4 and below, we cache the robots.txt file for 48 hours before we refresh our copy. As of version Turnitinbot/1.5, we dropped this value to 12 hours to better suit the needs of webmasters.

Der letzte Zugriff auf die robots.txt ist 44h her und die Bot-Version ist 2.1. Zudem ruft der gerne irgendwelche ungültigen generierten Pfade auf, selbst auf Domains die jahrelang nur eine index.html hatten und bestimmt vorher nicht andersweitig in Gebrauch waren. Einen Referer zeigt leider auch nicht an, sonst könnte man vielleicht rausfinden wo er diese Adressen her hat.

Wie auch immer. Kein Bot, den ich brauche. 

 

Rubrik: 

Böser Crawler: Yasni

Yasni ist eine Personensuchmaschine. Sie versucht zu einer Person alle im Netz verfügbaren Daten zu aggregieren, und das nicht nur aus dem einfachen Web, nein, auch aus öffentlichen Datenbanken und Social Whatever Seiten (Facebook, Google+, etc). Ich hab's gerne mal benutzt um zu gucken wie mein Internetprofil aussieht. 

Jetzt ist deren Crawler auf meiner Homepage aufgeschlagen. Erkennbar nur durch den Reverse-DNS-Eintrag *.yasni.de. Den Crawler selber tarnen die wohl lieber als einfachen Browser ""Mozilla/5.0 (X11; Linux i686; rv:6.0) Gecko/20100101 Firefox/6.0". Eine Wartezeit zwischen den Aufrufen ist nicht zu erkennen, der Crawler macht auch gerne parallele Anfragen. Oh, und einen Treffer auf die robots.txt konnte ich nicht finden, also wird er sie wohl auch ganz ignorieren ;) 

Anfragen kamen von: 

  • abcd-ovh4.yasni.de 94.23.225.68
  • abcd-ovh3.yasni.de 176.31.246.150
  • abcd-ovh1.yasni.de 176.31.244.198

Yasni an sich ist ja ganz okay, aber der Crawler ist pfui.. darum geblockt!

 

Rubrik: