dmexco 2016 kostenloses Ticket von lunapark

Fake-Traffic und Referrer-Spam in Google Analytics loswerden

Nicht jeder Traffic, der in Google Analytics ankommt, ist echter Traffic. Fake-Traffic durch Referrer Spam verfälscht eure Zugriffszahlen. Um eine saubere Statistik aus Google Analytics zu erhalten, ist es wichtig diese ungebetenen Besuche loszuwerden, und zwar so schnell wie möglich. Wir zeigen, mit welchen Filtern man den Spam in Google Analytics stoppt!

Update (24.03.2016)

Aktuellen Beobachtungen zu Folge ist Google inzwischen in der Lage, Spam-Traffic weitgehend selbstständig aus den Analytics Konten herauszufiltern. Weiterführende Infos dazu gibt es bei TheSEMPost und Search Commander, und auch im Local Search Forum wurden diese Beobachtungen diskutiert.

Was ist Fake-Traffic durch Referrer Spam?

Es handelt sich hier um keinen echten Website-Besuch. Oft wird er in den Analytics Berichten angezeigt als ein Verweis (engl.: Referrer), z.B. 4webmasters.org, aber er kann ebenfalls als ein Suchbegriff, eine Seite oder als Direktzugriff angezeigt werden.

Es werden wiederholt Anfragen erstellt (evtl. mit einem automatischen Script), damit dieser Verweis in Reports und Logs für diese Webseiten angezeigt wird.

Beispiel Screenshot Referral Spam

Screenshot Referral Spam

Screenshot Referral Spam

Wie wird ein Referrer (Verweis) übergeben?

Ein Verweis (engl. Referrer) ist eine Bezeichnung, welche übergeben wird, wenn ein Browser von einer Website zu einer anderen Website wechselt (durch einen http header) um anzuzeigen, woher der Nutzer kommt.

Wo liegt das Ziel der Ersteller?

Das Ziel des Referrer Spam ist meistens die Generierung von Traffic. Der Mensch ist von Natur aus neugierig und will wissen, was auf seiner Website passiert. Beim Betrachten der Reportings wird er neugierig gemacht und auf die Verweis-URL gelockt. Manchmal um eine andere Website zu bewerben, manchmal um den User zu einem Online Store umzuleiten oder um Schadsoftware oder Trojaner anzubringen.

Diese Spammer treffen tausende von Google Analytics Konten. So kann man sich die Gesamtmenge an Zugriffen vorstellen, welche mit dieser Methode generiert wird.

Wie wird der Spam erzeugt?

Die Spammer benutzen üblicherweise 2 Methoden: Ghost Spam oder Crawler Spam.

Ghost Spam

z.B. hulfingtonpost.com

Bei den meisten Referrer Spams handelt es sich um Ghost Verweise in Google Analytics. Der Name „Ghost Spam“ beruht darauf, dass bei diesen Verweisen niemals eure Website betreten wird; es gibt keine Interaktion mit eurer Website.

Grafik Analytics Spam

Wie kommt Fake Traffic zustande?

Um dies zu ermöglichen, wird das Measurement Protocol ausgenutzt, welches es Entwicklern ermöglicht, Daten direkt zum Google Analytics Server zu schicken. Hierzu wird lediglich eine GA Tracking ID benötigt, der Rest geht fast von alleine. Meist werden die Tracking-IDs zufallsgeneriert. Anschließend wird ein automatisiertes Script benutzt, um Fake-Daten zu den Reports zu schicken.

Crawler Spam

z.B. semalt.com, buttons-for-website.com, best-seo-solution.com

Ein Web-Crawler ist ein Internet Bot, welcher Webseiten absurft, normalerweise um Web Indexierungen vorzunehmen. So wie Google Bots, welche Seiten und Indexe auslesen, so dass diese in der organischen Suche gefunden werden können; hierbei handelt es sich um sinnvolle Crawler.

Ein Crawler Spam surft ebenfalls über Websites aber zu einem anderen Zweck, wie schon oben beschrieben. Dieser Crawler ignoriert alle Regeln wie z.B. die robots.txt, welche vorgeschlagen werden, um bestimmte Bereiche nicht zu crawlen.

Was ist der Unterschied zwischen Ghost und Crawler Spam?

Crawler Spam stattet eurer Website tatsächlich einen Besuch ab. Ghost Spam benutzen einen Fake Hostnamen, da vorab nicht bekannt ist, wessen Website getroffen wird.

Wie kann ich Referrer Spam erkennen?

Verweis-Hostname checken

Um den Hostnamen zu finden, geht ihr im Google Analytics Konto in den Zielgruppebericht – Technologie – Anbieter.
Wählt den Hostnamen als Dimension aus.

Verweis-Hostname

Verweis-Hostname

Ghost Spam hat einen Hostnamen, der nicht zum eigenen Website-Bereich gehört, da dem Ersteller bei dieser Methode nicht bekannt ist, wen er trifft.

Auf dem Screenshot ist der tatsächliche eigene Hostname nicht zu sehen, da er noch nicht einmal unter den Top 8 gelistet ist.

Beispiel Screenshot Crawler Spam

Screenshot Crawler Spam

Screenshot Crawler Spam

Der Crawler Spam hingegen benutzt einen gültigen Hostnamen aus dem eigenen Website-Bereich.

Einige Beispiele für Spammer:

Neueste Spammer

Beispiele für Spammer

Wie stoppe ich den Google Analytics Spam?

Mit folgenden 2 Filtern stoppt ihr nahezu alle Spam Zugriffe in Google Analytics:

  1. Ein Hostname Filter, welcher allen Ghost Spam in Google Analytics filtert (Referral, organisch oder fake Direktzugriffe)
  2. Ein Kampagnenquellen Filter mit einem regulären Ausdruck, welcher allen bekannten Crawler Spam filtert.

Wie erstelle ich den Hostname-Filter?

Wichtig ist hierbei, eine Liste aller gültigen Hostnamen zu erstellen, damit kein legaler Traffic verloren geht.

Im Zweifelsfall gibt es ja noch die Rohdaten-Ansicht ohne jegliche Filterung.

Unser Tipp: Immer eine Rohdaten Ansicht ohne jegliche Filterung von jeder Property anlegen. Wenn ihr einmal Filter in der Datenansicht anwendet, sind die ausgeschlossenen Daten für immer verloren.

  1. Geht in Google Analytics auf Zielgruppe / Technologie / Anbieter und wählt hier den Tab „Hostname“
  2. Dort seht ihr eine Auflistung von Hosts wie in diesem Beispiel:

    Hostname

    Hostname

  3. Findet alle zu eurer Website gehörenden Hostnamen.
    In diesem Beispiel ist es lediglich der 7. Eintrag (es handelt sich um eine einzelne Blogseite).
    Ebenfalls kann es weitere Seiten geben, auf denen ebenfalls dieselbe Tracking ID integriert wurde, z.B. auf Drittanbieter-Seiten für den Warenkorb oder den Zahlungsprozess.
    Wenn man viele Besucher aus unterschiedlichen Ländern hat, welche einen Übersetzungsservice benutzen, dann erscheinen diese ebenfalls als valide Hostnamen.
    Dies sind z.B. translate.googleusercontent.com (Google Translate), webcache.googleusercontent.com (Google’s gecachte Website-Version), translateservice.com, und web.archive.org (das Internet-Archiv)
    Alle anderen Hostnamen, welche man nicht aus der eigenen Website-Umgebung kennt, sind nicht valide. Achtung auch bei bekannt vorkommenden Namen wie google.com oder amazon.com (Spammer benutzen diese Namen, um Nutzer zu täuschen), ebenfalls wenn der Hostname „not set“ ist.
  1. Entwerft mit Hilfe eines regulären Ausdruckes einen Hostnamen-Filter für alle zur Website gehörenden validen Hostnamen. Tipp: Hilfe zur Erstellung von regulären Ausdrücken: Geht in Google Analytics auf Verwalten / Filter

    Filter verwalten

    Filter verwalten

  2. Neuer FilterNeuer Filter
  3. Benennung: gültige Hostnamen
    Filtertyp: benutzerdefiniert
    Einschließen Hostname: regex (xxx)
    Tipp: unbedingt auf Testen klicken, um zu sehen, ob der reguläre Ausdruck funktioniert.

    Filter zu Datenansicht hinzufügen

    Filter zu Datenansicht hinzufügen

Wenn ihr sicher seid, dass alle validen Daten enthalten sind, klickt auf Speichern.

Bitte beachten: Wenn ein neuer Hostname im Website-Bereich integriert wird, dann muss unbedingt auch der Hostnamen Filter angepasst werden.

Bitte beachten: Dieser Filter gilt ab dem Tag der Einrichtung und schützt euch vor zukünftigem Ghost Spam. Um historische Daten gefiltert anzuschauen, müsst ihr mit diesem Filter ein Segment erstellen.

Für uns als Agentur ist es sehr schwierig bei Kunden mit sehr umfangreichen und für uns unübersichtlichen Webangeboten den entsprechenden Filter einzubauen. Dafür nehmen wir hilfsweise den Host-ausschließen-Filter:

Not.set|excite|webmaster|(google\.ru)|hulfington|lumb|hide|pandashield|anonym|burble|pr.xy|speedsurfing|ymig|miradis|bing|fanyi |redir

Wie erstelle ich den Kampagnenquellen-Filter?

Kampagnenquellen Filter benutzen zur Filterung von Crawler Spam

Bitte beachten: Diese Filterliste muss regelmäßig aktualisiert werden.

Geht in Google Analytics auf Verwaltung / Filter

Klickt auf Neuen Filter erstellen

Name: Spam Filter

Filter Typ: benutzerdefiniert

Ausschließen Filterfeld: Kampagnenquelle

Fügt eine Regex mit den Spamnamen in das Filterfeld

Kampagnenquellen-Filter

Kampagnenquellen-Filter

Hier eine Liste der derzeitgen Spammern zum Erstellen von Filtern (aktualisiert am 22.06.2016):

0481|100dollars|7×9|abcd|candy|playtopus|best-seo|biglist|booh|buttons|chatango|cheap|check|dailyrank|detail|error|event|fix|forum69|free|girlsgo|guardlink|love|monet|semalt|seo.united|serienjun|valu|success|tvgrin|for.your.business|zum.de

Tipp: Unbedingt auf Testen klicken, um zu sehen, ob der reguläre Ausdruck funktioniert.

Nützliche Bots und Spider ausschließen

Nicht alle Crawler sind schlecht, daher solltet ihr diese nicht grundsätzlich blockieren. Dies würde sich negativ auf die Sichtbarkeit und Auffindbarkeit Ihrer Website auswirken (z.B. crawlt Google regelmäßig alle Websites ab).

Aber durch diese Bots und Spider werden ebenfalls Zugriffe erzeugt, welche für Ihre Auswertungen nicht interessant sind.

Daher sollte man auch diese Zugriffe herausfiltern. Dies geht mit der neuen Google-Funktion ganz einfach.

Geht auf Verwalten, wählt die Datenansicht, Einstellungen, macht ein Häkchen bei „Zugriffe von allen bekannten Bots und Spiders ausschließen“. Fertig.

Bots und Spiders ausschließen

Bots und Spiders ausschließen

Fazit

Referrer Spam sollte möglichst herausgefiltert werden.

Hierzu sind 2 Filter hilfreich:

  1. Hostnamen Filter (um den Ghost Span zu entfernen)
  2. Kampagnenquellenfilter (um den Crawler Referrer Spam zu entfernen)

Um historische Daten ohne Spamzugriffe zu sehen, müsst ihr mit diesen Filtereinstellungen Segmente erstellen.

 

Bildnachweis: Titelbild © Rawpixel / fotolia.com

Verwandte Artikel

  • not set Einträge in Google Analytics
  • analytics-dashboard

    Basic KPIs in Google Analytics

    Um eine schnelle Einschätzung einer Website in Google Analytics vorzunehmen, gibt es bestimmte Kennzahlen, die ihr euch anschauen solltet. Hierzu zählen zum Beispiel Besuche, …

11 Antworten
  1. Wolfgang
    Wolfgang says:

    Danke für die anschauliche Erläuterung. ich finde bei mir zz. z.B. folgende Adressen, die keinen echten Traffic generieren: eu-cookie-law.blogspot.com, monetizationking.net und site-auditor.online. Werde aus naheliegenden Gründen dann mal beigehen und die gem. Anleitung „ausmerzen“. 😉

    LG, Wolfgang

    Antworten
    • Bernadette
      Bernadette says:

      Hallo Wolfgang,
      eigentlich hat es Google mittlerweile ganz gut im Griff, diesen Traffic automatisch auszuschliessen. Trotzdem taucht immer mal wieder neuer Faketraffic auf, so dass der Filter entsprechend ergänzt werden muss.

      Antworten
  2. Werner Brandl
    Werner Brandl says:

    Fake Traffic in Analytics ist natürlich unschön. Interessanter noch finde ich aber die Frage nach Fake Traffic über Adwords. So gibt es bemerkenswert viele Besucher, die nur eine Seite aufrufen, und das war es dann. Abgerechnet wird das natürlich. Könnte es sein, dass da auch Bots unterwegs sind, die wahllos auf alles klicken, oder eben nur auf die Adword Links? Und da es so aussieht – wie könnte man die in den Griff bekommen? Es geht ja dann doch um Geld. Bin gespannt, ob Sie da eine Idee haben. Schönen Gruß!

    Antworten
    • Bernadette
      Bernadette says:

      Über AdWords ist mir kein FakeTraffic bekannt.
      Die Problematik zu Differenzen zwischen AdWords Klicks und Analytics Sitzungen ist bekannt.
      1-Seiten-Aufrufe über Adwords sind oftmals darauf zurückzuführen, dass der Inhalt der Ziel-URL nicht mit der Erwartungshaltung des Nutzers übereinstimmt. Oder aber gerade bei mobilen Zugriffen haben die Nutzer schnell mal auf eine Anzeige geklickt und schließen diese auch ganz schnell wieder. Oftmals so schnell, dass sich die Seite noch nicht einmal richtig geladen hat.
      Demnächst werden wir einen umfangreichen Blogpost hierüber erstellen, aber ich bitte noch um etwas Geduld.

      Antworten
  3. Ina
    Ina says:

    Hallo, ich habe noch eine Frage dazu: Spielt hier die Filterreihenfolge eine Rolle? Wenn ich einen IP-Filter, einen Hostnamenfilter und den Kampagnenquellenfilter habe, in welcher Reihenfolge müssen die Filter stehen damit sie funktionieren?

    Antworten
    • Bernadette
      Bernadette says:

      Hallo Ina,

      grundsätzlich werden die Filter für die Google Analytics Datenansichten der Reihe nach abgearbeitet. Das kann in bestimmten Fällen eine Rolle spielen.

      Ich würde alle 3 Filter auf jeden Fall ganz weit oben aufhängen, da sie die Datenmenge verkleinern.
      Es gibt noch andere Filter, z.B. Suchen/Ersetzen, welche dann nur noch auf die verkleinerte Datenmenge angewendet werden.

      Antworten
  4. Bernadette
    Bernadette says:

    Hi Tom,
    Meinst du mit Browserauflösung die Bildschirmauflösung?
    Bei den von mir betreuten Projekten sind immer Angaben zur Bildschirmauflösung vorhanden, daher würde ich bei diesem Ansatz nicht weiter kommen.
    Aber natürlich gibt es auch andere Eigenschaften, welche überwiegend den Spammern zuordenbar sind. Diese generieren zumeist 0 Seitenaufrufe, dementsprechend natürlich eine Sitzungsdauer von 0 sec. Kommen sehr oft auch nur auf die Homepage. Aber auch nur meistens, nicht immer. Daher sind diese Filterungen nicht verlässlich.

    Antworten
  5. Tom
    Tom says:

    Noch ne Idee zu dem Thema: Man kann auch auf Browserauflösung testen. Wenn die nicht vorhanden ist, ist es vermutlich kein normales Device, das gerade auf die Webseite zugreift.

    Antworten

Hinterlassen Sie einen Kommentar

Wollen Sie an der Diskussion teilnehmen?
Feel free to contribute!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *