[Spam] Mit falschem Warez-Content Traffic generieren

Wie ich mit tausenden automatisch generierter Seiten Long-Tail-Rankings für Suchanfragen nach illegalen Downloads generiert habe
09.04.2014 von Justus

Ich mache hin und wieder ein paar Tests und baue kleine Projekte dafür. Die Domain, die ich heute vorstellen möchte ist

watchtheshows.com

Ziel des Tests war es, automatisiert Seiten zu erstellen, um für Longtail-Suchen nach „Index of apache [Serienname]“ zu ranken.
Normalerweise ist das eine oft genutzte Möglichkeit, um offen konfigurierte Webserver zu finden, auf denen Serien und Filme abgelegt sind und somit zum kostenlosen (und damit illegalen) Download zur Verfügung stehen:

index-of-friends

Dafür gibt es sogar praktische Tools wie GooLoad, das Vorgehen scheint also recht verbreitet zu sein.

Tatsächlich gibt es auf „WatchTheShows“ natürlich keine Filme und Serien, das ist schließlich nicht erlaubt. Nach zunächst wahrscheinlich großer Freude ob der gefundenen Seriensammlung wird der User dementsprechend beim Klick auf den vermeintlichen Link zur Serienepisode mit einer mahnenden Meldung konfrontiert:

aha-looking-for-stuff

Die Datenbasis

Die Liste der Serien habe ich von der wahrscheinlich ebenfalls nicht besonders legalen Streamingseite WatchSeries.to gescraped.

  1. Die Seriennamen erhält man dank der übersichtlichen Auflistung nach Anfangsbuchstaben noch relativ einfach mit der Chrome-Extension Scraper, die über XPath-Ausdrücke Daten aus der aktuellen Website exportiert.
    Damit erhält man eine handliche Liste von 10.659 Serien und URLs zu deren Episodenlisten.
  2. Mit einem einfachen Skript (in meinem Fall in PHP) kann diese Liste nun automatisiert abgefragt werden. Mit DOMXPath habe ich die 499.279 Folgen dazugehörigen Episodentitel extrahiert und in eine MySQL-Datenbank gespeichert.
    Zur besseren Ansprache einzelner Serien werden aus den Seriennamen eindeutige Slugs generiert, die später für den Aufbau der URLs zuständig sind.
  3. Ein weiteres PHP-Skript sorgt dafür, dass beim Aufruf einer URL nach dem Muster /series/[slug] die Serie und ihre Episoden aus der Datenbank abgefragt und in das mehr als einfach gestrickte Template überführt werden.

„Optimierung“

Um Google die Indexierung zu erleichtern habe ich zusätzlich eine XML-Sitemap angelegt und sie in den Webmaster Tools eingetragen. Bis dato gab es dort zwar ein paar 404 Fehler, weil ich bei den Slugs unordentlich gearbeitet habe, aber sonst keine negativen Meldungen.

Ein paar Links von Fiverr kommen auch noch dazu und schon begann Google fleißig, die Seite zu indexieren.

Traffic

watchtheshows-stats

Am 08. Dezember 2013 kam der erste Traffic und reißt bis heute nicht ab. Bisher sind so insgesamt etwas mehr als 6.000 eindeutige Besucher zusammengekommen. Nicht wirklich viel, aber für solchen Schrott-„Content“ nicht schlecht.

Was ich an der Stelle viel interessanter finde ist die hohe Anzahl an Seiten / Besuch und die niedrige Absprungrate. In Anbetracht der Tatsache dass sich zahlreiche User mehr als 20 Seiten angeschaut haben wird der Test wohl einigen Serienjunkies schlechte Laune bereitet haben.

Das Publikum war wie erwartet international:

internationales-publikum

Aus Zeitmangel blieben meine Monetarisierungsversuche leider beim ersten erfolglosen Test und ich habe es nicht geschafft, Geld aus dem Traffic zu schlagen. Offenbar lassen sie sich ungerne dazu überreden, ihre Dateien in der cloud storage von Mega.co.nz unterzubringen.
Hier ließe sich möglicherweise mit einem positiv ausgerichteten Usenet-Affiliateprogramm mehr erreichen als mit meiner Sicherheits-Panikmache.

Die Daten zum Download

Wer selbst einmal mit Seriendaten herumspielen möchte und Zeit sparen will, kann sich hier die kompletten Daten der internationalen Serien von WatchSeries als CSV mit Serienname, Staffel, Folge und Episodenname herunterladen (~21 MB).

CSV-Vorschau

Eure Erfahrungen

Welche Erlebnisse hattet ihr in der jüngeren Zeit mit automatisch generiertem Content? Habt ihr selbst schon Experimente mit besser aufbereiteten Inhalten gemacht als ich in diesem Versuch?



Kommentare

  1. Hallo Justus!

    Ich hatte Anfang/Mitte letztes Jahr auch ein paar ähnliche Spamtests gemacht.

    Einige habe ich mit Spin-Content (inkl. Variablen zum Suchbegriff) versehen, andere möglicht „frei“ von Content gehalten und nur die entsprechenden Variablen eingebunden. Je mehr Content auf den Seiten war, desto schwieriger wurde es die Seiten länger im Index zu halten. Nur bei einem extrem stark gespinnten Text hat es funktioniert. Und geht auch heute noch, fast 1 Jahr später. Habe recht konstant über 1.000 Besucher monatlich. Allerdings sind diese aus unterschiedlichen Gründen nicht besonderers viel Wert.

    Viel mehr will ich hier dazu gar nicht schreiben, bei Interesse kann man mich ja kontaktieren.

    P.S.: Deine Liste habe ich mir mal heruntergeladen, wäre ein interessanter Ansatz für weitere Tests. Danke dafür!

    Viele Grüße,
    Georg

  2. Ja, die Erfahrung mache ich auch immer wieder. Viele schlimm-autogenerierte Texte aus der Steinzeit ranken ganz hervorragend. Nur die Besucher lassen sich diese Wortunfälle nicht gefallen, die Conversion ist auf den Seiten nicht wirklich gut.

  3. […] einfach einkaufen. Auch der Missbrauch von bestehendem Traffic auf anderen Seiten ist möglich: Webspam-, Warez- und/oder Porn-basiertes Portal mit massig Besuchern aufbauen und die Zielseite im unsichtbaren iFrame […]

Schreib deinen Kommentar