Bot-Block: TurnitinBot

Gespeichert von eazrael am/um Mo, 01. Okt 2012 03:16:42

Und der nächste Bot der geblockt wird: Turnitinbot. Aufgefallen ist mir der Kerl weil er ungültige URLs aufgerufen hat, die zu SQL Fehlern geführt haben. Ich muss noch gucken wo Drupal Eingaben nicht sorgsam genug überprüft, denn das ist auch ein Ding der Unmöglichkeit.

Wie auch immer, Turnitbot ist ein Crawler der das Netz durchkämmt um Plagiate für Universitäten zu finden:

This robot collects content from the Internet for the sole purpose of helping educational institutions prevent plagiarism. In particular, we compare student papers against the content we find on the Internet to see if we can find similarities.

Tja, beim Guttenberg hat's nicht geholfen, das war noch ein offliner. Ob mein Müll wissenschaftlichen Anforderungen genug bezweifle ich mal, also ist der Bot bei mir verkehrt. An seine eigenen Regeln hält der sich übrigens auch nicht:

For versions Turnitinbot/1.4 and below, we cache the robots.txt file for 48 hours before we refresh our copy. As of version Turnitinbot/1.5, we dropped this value to 12 hours to better suit the needs of webmasters.

Der letzte Zugriff auf die robots.txt ist 44h her und die Bot-Version ist 2.1. Zudem ruft der gerne irgendwelche ungültigen generierten Pfade auf, selbst auf Domains die jahrelang nur eine index.html hatten und bestimmt vorher nicht andersweitig in Gebrauch waren. Einen Referer zeigt leider auch nicht an, sonst könnte man vielleicht rausfinden wo er diese Adressen her hat.

Wie auch immer. Kein Bot, den ich brauche.

Tags:

Rubrik:

Evil Azraels Stänkerblog

Bot-Block: TurnitinBot

Newsfeeds