Content Diebstahl – Google Bug unterstützt Content Diebstahl

Sie befinden sich hier:
»
»
Content Diebstahl – Google Bug unterstützt Content Diebstahl
9. Juli 2007 | 7.474 klicks

Seit einigen Monaten bereits beklagen vielerorts Webmaster ein Problem mit Google, speziell was die Unterscheidung von Original Content und Duplicated Content angeht. Dabei basiert das Problem höchstwahrscheinlich auf einem Google Bug, der für betroffene Webmaster negative Konsequenzen im Google Ranking nach sich zieht. Gemeint sind dabei sogenannte Reverse Proxys, welche die Inhalte der eigenen Webseite 1zu1 kopieren und auf der eigenen Seite ins Internet stellen. Gelangt jetzt Google auf eine im Proxy komplett eingespiderte Seite, hat Google das Problem zu erkennen, was ist der Original Content und was ist der Duplicated Content.

Stößt man als Webmaster auf eine Kopie der eigenen Seite (siehe Screenshoot 1), welche im Original bei einem Proxy ausgegeben wird, denkt man natürlich sofort daran, das es sich hier um gemeinen Content Diebstahl handelt und ist erstmal schockiert. Schlimmer jedoch, wenn man es zu spät mitbekommen hat, das ein Reverse Proxy sich des Contents der eigenen Seite bemächtigt hat, kann es passieren das die eigene Seite aus dem Index genommen wird und der Proxy als Original-Content Besitzer im Index bleibt. Das wiederum hat zur Folge, das von einem Tag auf den anderen, plötzlich massive Besucherrückgänge zu spüren sind, ebenso wie verwunderte Kundenmitteilungen, das die eigene Webseite wohl aus dem Index gekickt wurde, da man sie nicht mehr findet.

Suchmaschine seekXL - gefangen im Proxy von nzzm.com
Screenshoot 1 – Suchmaschine seekXL – gefangen im Proxy von nzzm.com

Hierbei ist zu unterscheiden, das der Reverse Proxy nicht absichtlich losgeht und sich die besten Seiten schnappt, um diese zu übernehmen und von deren guten Inhalt zu partizipieren, sondern ebenso ein Dienst Anbieter ist im Netz, wie auch Gästebuch Services, SMS Ticker oder Anbieter sonstiger Internet Dienstleistungen. Solch ein Service kann schon das einfache Angebote für chinesische Nutzer sein, welche über den Proxy Internetseiten erreichen können, die normal gesperrt wären, bei einem direkten Zugriff auf das Ziel. Leider gibt es auch einige Individuen im Netz, welche sich diesen Google Fehler gezielt zu Nutze machen und damit versuchen Konkurrenten abzuschiessen. Sie sorgen auf unterschiedlichsten Plattformen für Linkbait für die Proxy URL und verleihen dieser URL somit mehr Gewichtung im Index, wie die eigentliche Seite wo der Original Content liegt. Somit fängt Google langsam an, das betroffene Original Stück für Stück aus dem Index zu nehmen, bis diese komplett verschwunden ist.

Dadurch das der Reverse Proxy eine Unmenge an Seiten auf diese Art einspidert und in seinem Proxy zur Verfügung stellt, kommt auch noch ein weiterer Effekt zum tragen, welcher sich ebenso negativ auf die vom Content Diebstahl betroffene Präsenz auswirkt. Kommt man vom Linkpower auf ungefähr gleiche Stärke, muss Google trotzdem irgendwie festlegen, welche Seite ist Original und welche Duplicated Content, welche bleibt im Index und rankt und welche nicht. Hier werden die Präsenzen gegeneinander gestellt und den Berechnungen für Duplicated Content unterzogen. Dabei wird der Proxy mit seiner riesigen Menge an Unterseiten, der Proxy hat ja eine riesige Menge unterschiedlicher Seiten bereits gespidert und hält diese für Google bereit, oft schon allein deshalb stärker gewichtet und die Seite welche den Original Content erstellt hat, wird aus dem Index genommen.

Ein sehr kritischer Fehler, der ganze Existenzen bedrohen kann, wenn man zum Beispiel als Betreiber eines Internet Shop, auf das Medium Internet als Geschäftsbereich angewiesen ist. Schwach von Google, da der Fehler bereits seit mehr als 5 Monaten in Deutschland bekannt ist und er bis Heute nicht korrigiert ist.

Was kann man tun wenn man als Webmaster von Content Diebstahl, durch Reverse Proxy Hijacking betroffen ist?

– Die einfache Lösung ist, den betroffenen Proxy per Htaccess Datei auszusperren. Hierzu ermittelt man die IP-Adresse des störenden Proxys und schreibt in seine htaccess-Datei Bsp. deny from 1.2.3.x. Kommt der Proxy auf die eigene Webseite, bekommt er die Meldung Forbidden/Verboten zu sehen und gelangt nicht an den Content. Ein Nachteil dieser Lösung ist, das man es viel Fleissarbeit erfordert, die Liste der bösen Proxys alleine aktuell zu halten. Denn ändert der Proxy seine IP-Adresse, muss auch die IP in der htaccess-Datei geändert werden. Weiterer Nachteil ist, das nicht jeder eine htaccess-Datei in seinem Webverzeichnis anlegen kann bzw. diese im gewählten Webhosting Paket unterstützt wird. Vorteil bleibt jedoch, das, sobald man in Kenntnis eines starken und bösen Proxys, man diesen Sofort aussperren kann.

– die automatisierte Lösung ist der Einsatz des „Page Redistrictor“ Scriptes aus dem Bot-Trap Forum. Das Script basiert auf einer Blackliste, welche bereits schädliche Proxy Server zusammengetragen hat und diese automatisch auf IP-Änderungen und Veränderungen überprüft und das installierte Script sich automatisch aktualisiert. Der Vorteil liegt dabei klar auf der Hand. Dadurch das das Team von Bot Trap täglich sein Script erweitert und neue schädliche Proxys aufspürt, spart man Zeit und braucht sich nicht selbst, im Einzelkampf auf die Suche, nach bösen Proxys machen und ebenso auch nicht, ob sich dort was verändert hat, da sich der Page Redistrictor automatisiert updatet. Ein weiterer nicht unerwähnter Vorteil aus meiner Sicht – das „Page Redistrictor Script“ ist kostenlos. Nachteil aus meiner Sicht ist jedoch die Sicherheit, da man dem Redistrictor-Script schon eine Menge an Rechte auf der eigenen Präsenz zuweisen muss. Ein weiterer Nachteil ist für mich, das man PHP fähigen Webspace benötigt, damit das „Redistrictor Script“ seinen Einsatz tätigt, was nicht bei jedem Betroffenen der Fall sein wird.

Suchmaschine seekXL geschützt vor Zugriff von nzzm.com
Screenshoot 2 – Suchmaschine seekXL geschützt vor Zugriff von nzzm.com

Hat man das Page Redistrictor Script im Einsatz, bekommt ein Besucher, welcher über die Proxy URL auf den Original Content zugreifen möchte, eine Mitteilungsseite, das es sich hier um entwendeten Content handelt, sowie einen Verweis zur Original Webseite, welche den Original Content bereitstellt. Kommt der Google Bot vorbei und will die Proxy URL spidern, sieht er nicht mehr wie bei der Erstspiderung den Titel, die Beschreibung, die Keywords und den Content der bestohlenen Original Seite auf der Proxy URL, sondern gleiches Bild wie der Besucher (siehe Screenshoot 2), womit der Duplicated Content ausgehebelt wurde.

Das der Google Bug wirklich ein Problem riesigen Ausmaßes ist, spiegelt auch nachfolgende Pressemeldung von die-endverbraucher.de wieder, welche ich auf openPR gefunden habe.

(openPR) – Fürth 09.07.2007 – Seit einigen Tagen „kopiert“ eine russische Internetseite – nzzm.com – den Inhalt von anderen Webseiten und stellt diesen 1 zu 1 ins Internet. Laut verschiedenen Internetforen sind mittlerweile weit über 10.000 Webseiten betroffen. Allein schon dieser dreiste Klau von geistigem Eigentum empört viele. Völlig unverständlich ist jedoch das Verhalten der Suchmaschine Google. Entgegen jeglichem gesunden Rechtsempfinden werden die Originalseiten, wie beispielsweise die-zahnarztempfehlung.com, von Google aus den Suchergebnissen entfernt und durch die „plumpen Kopien“ des russischen Servers ersetzt.

Die hochgelobte Suchtechnologie offenbart hier gewaltige Defizite. Dieses Vorgehen ist ähnlich absurd, als würde Markenpiraterie dadurch bekämpft, die Originale von Prada, Dior oder Gucci zu vernichten, um für illegale Plagiate Platz zu schaffen.

Doch damit nicht genug. Je länger kleine Internetfirmen grundlos ausgesperrt werden, desto mehr Arbeitsplätze sind in diesen oft jungen Unternehmen massiv gefährdet. Denn der Großteil an Umsatzverlusten entsteht paradoxer Weise erst durch Google. Eine Überlegung die den Konzern-Verantwortlichen offensichtlich völlig fremd ist. Auch mit der Richtigstellung solch gravierender Fehler scheint es Google nicht sonderlich eilig zu haben. Oder wie sonst ist es zu erklären, dass dieser Weltkonzern in Deutschland nur über eine Email-Adresse verfügt.

Hier wäre echte Manpower gefordert, um zeitnah und vor allem zielführend handeln zu können. Wenn auch Sie unsere Meinung teilen, unterstützen Sie uns, indem Sie einen Link auf diese Meldung setzen und ihr damit mehr Gewicht verleihen (www.die-zahnarztempfehlung.com/presse/google_1.php). Denn dies war mit Sicherheit nicht der letzte „Hackerangriff“ dieser Art und ihre eigene Website könnte das nächste „Opfer“ werden. Auch eine Solidaritäts-Email an Google (support[at]google.com) kann helfen. Vielleicht müssen ja erst die Drähte glühen.

Die Endverbraucher
DieEndverbraucher sind eine von Verbrauchern gegründete und betriebene Internetplattform. Unser Ziel ist es, mit Schwerpunkt auf dem Medizinsektor, dem Verbraucher Patient wichtige und hilfreiche Informationen zur Verfügung zu stellen.

Die Endverbraucher Ltd. & Co. KG
Heinrich-Stranka-Str. 3-5
DE-90765 Fürth, Bayern

Telefon: +49 (911) – 78 74 309
Telefax: +49 (911) – 78 72 749
Web: www.die-endverbraucher.de

Wer selbst betroffen ist von einem Proxy und wirklich nicht mehr weiter weiss, den kann ich anbieten über die Kommentar Funktion mir sein Problem zu schildern, das man gemeinsam schaut was machbar ist bzw. selbst im Bot-Trap Forum vorstellig zu werden.

Eine Reaktion zu “Content Diebstahl – Google Bug unterstützt Content Diebstahl”

  1. University Update – Google – Content Diebstahl – Google Bug unterstützt Content Diebstahl Am 9. Juli 2007 um 19:03 Uhr

    […] Link to Article google Content Diebstahl – Google Bug unterstützt Content Diebstahl » Posted […]