Momentan spiel ich ein bisschen mit mod_security für Apache rum. Nix wildes, man könnte alles auch mit Apache Bordmitteln machen. Ziel ist es meine Statistiken wieder sauber zu kriegen, die derzeit vor allem von Bots verhunzt werden. Da ist wirklich eine menge Schrott dabei.
Drei Bots sind mir besonders aufgefallen:
-
netEstate FOAF crawler
-
netEstate NE Crawler
-
netEstate RSS crawler
Weniger durch ihr Verhalten sondern eher eher weil sich im Netz nicht sonderlich viel dazu findet. Am ehesten landet man man auf der Homepage von der Firma dahinter (netestate.de), die Selbstdarstellung lautet "netEstate ist seit 1997 erfolgreich als online-Agentur und Systemhaus tätig." Hm, ich hab erfolgreich 15 Jahre lang nichts von denen gehört. Was mich ein bisschen stutzig macht ist das sonst keinder was zu den Crawlern schreibt. Entweder sind die so neu oder werden aus anderen Gründen totgeschwiegen.
Ich hab die jetzt mal auf meinen mir unterstellten Servern geblockt. Warum? Der Einsatzzweck der Crawler und der gesammelten Daten hört sich für mich nicht an als wenn man als Webseitenbetreiber so erfasst werden möchte.
Da wäre der Impressumscrawler:
Der Impressums-Crawler von netEstate ist in der Lage, die Impressumsseite einer Website zu finden und daraus Adressen, Kontaktdaten und Firmennamen aus Deutschland, Österreich und der Schweiz zu extrahieren. Er kann als Webservice oder per Batch-Verarbeitung genutzt werden und eignet sich besonders als Werkzeug zur Adressprüfung.
Aha, wer kann da Adressen prüfen? Der Seitenbetreiber selber? Die Konkurrenz und dann gegebenfalls abmahnen und irgendwelche Firmen die entweder dann die Firma vollspammen oder ihre eigenen Datenbanken verifiieren wollen? Oder zum Aufspüren von Nebentätigkeiten? Also mir fällt nix ein warum man da auftauchen wollen möchte.
Der Imagecrawler:
Der Image-Crawler von netEstate versucht dasjenige Bild auf einer einzelnen Seite (URL) zu finden, welches den Inhalt der Seite am besten repräsentiert.
Ich empfehle für meine Seite ein Arsch mit Ohren.. dürfte wohl am besten passen. Ups, dafür muss ich den ja auf meine Homepage hochladen. Wie sinnvoll sowas ist und ob's der erzeugte Traffic wert ist, das darf jeder für sich selber entscheiden. Oh, oder dient so eine Imagedatenbank vielleicht noch anderen Zwecken (Urheberrechtsüberrprüfungen?), denkbar wär's.
Der Suchmaschinen-Crawler (sengine.info)
Unsere Website search engine durchsucht die Metadaten von mehr als 78 Mio Websites. Sie können Listen von dabei entdeckten Domains bei uns erwerben: Domain-Datenbank.
Hm, was könnte man mit einer Liste aller Domains anfangen? Domains grabben? Irgendwelche Statistiken drüber fahren? Ehrlich gesagt. Keine Ahnung. Blocken hilft hier aber nicht, die Domain-Datenbank wird über Links und DNS gefüttert. Die Suchmaschine selber hmm ist nicht sehr hilfreich. Mein ultimativer Suchmaschinentest "Was findet man unter dem Suchbegriff PuTTY" zeigt wie unbrauchbar die Suchmaschine ist. Na gut, steckt vielleicht in den Kinderschuhen, warten wir mal eine Generation.
Sorry, mein Traffic ist mir der Schrott nicht wert -> Block
Recent comments