Data Sampling (Stichprobenerhebung) in Google Analytics vermeiden

von | Jan 3, 2018 | Analytics

Jedem, der mit Google Analytics arbeitet, ist es sicherlich schon einmal passiert, dass er bei Auswertungen in die Sampling-Falle getappt ist. Man ist auf die Daten im Bericht konzentriert und übersieht das kleine gelbe Sampling-Icon, welches oben links im Bericht erscheint und darauf hinweist, dass die Berechnungen nur auf einer Teilmenge der erhobenen Daten basieren.

Besonders ärgerlich ist es, wenn man dies nicht sofort bemerkt und sich erst bei einem späteren Vergleich unterschiedlicher Berichte wundert, dass die ausgeworfenen Daten nicht übereinstimmen. Wir zeigen euch, mit welchen Mitteln ihr Sampling-Probleme umgehen könnt.

Was bedeutet Data Sampling überhaupt?

Das Sampling bei Google Analytics ist nichts anderes als eine auf Stichproben basierende Datenerhebung. In der Statistik sind solche Stichprobenerhebungen weit verbreitet, da die Analyse von Teilmengen wesentlich schneller durchgeführt werden kann als die Analyse der Gesamtmenge bei ähnlichen Ergebnissen. Die Ergebnisse der Teilmenge werden dann einfach auf die Gesamtmenge hochgerechnet. Ob die Ergebnisse zuverlässig sind, ist jedoch stark abhängig von der Auswahl der Beispiel-Daten.

vorteil-nachteil

Wann werden die Daten bei Google Analytics gesampelt?

Sobald die Auswertungsanforderungen in den Google Analytics Berichten zu komplex sind, werden die Daten gesampelt. Laut Google erfolgt die Stichprobenerhebung automatisch, sobald für einen Bericht mehr als 500.000 Sitzungen erfasst werden.

Wie erkenne ich, ob die Daten gesampelt werden?

In den Standardberichten werden immer ungefilterte Daten ausgespielt.

Bei Einsatz von

  • benutzerdefinierten Berichten
  • Filtern
  • Segmenten
  • Sekundäre Dimension
  • Nutzer- oder Verhaltensfluss
  • oder bei Betrachtung langer Zeiträume

werden die Berechnungen unter Umständen zu umfangreich und die Daten werden gesampelt.

Ob ein Bericht gesampelt wird, erkennt ihr oben links in der Ecke rechts neben dem Berichtsnamen. Dort erscheint ein kleines gelbes Icon, sobald gesamplete Daten verwendet werden. Beruht die Berechnung auf den vollständigen Daten, ist dieses Icon grün. Wenn ihr mit der Maus über das Zeichen fahrt, öffnet sich ein kleines Fenster, in dem angegeben wird, auf viel Prozent der Gesamtsitzungen die Berechnung beruht.

Das gelbe Zeichen neben dem Berichtsnamen zeigt an, dass der Bericht auf einer Stichprobenerhebung beruht

Das gelbe Zeichen neben dem Berichtsnamen zeigt an, dass der Bericht auf einer Stichprobenerhebung beruht

Wann wird der Einsatz von Stichprobenerhebungen zum Problem?

Bei der Beobachtung von Trends reicht eine Stichprobenerhebung von 80 oder 90 % der Gesamtsitzungen schon vollkommen aus.

Je niedriger die Samplingquote, also je weniger Daten der Datenberechnung zugrunde liegen, desto größer werden natürlich die Ungenauigkeiten. Bei jeder neuen Datenabfrage erhaltet ihr neue Ergebnisse. Dies erschwert einen Vergleich von Daten aus verschiedenen Berichten.

Bei einem Vergleich von Gesamtzugriffen und SEO Zugriffen kann es zum Beispiel vorkommen, dass die SEO Zugriffe einer URL höher sind als die Gesamtzugriffe, da der Bericht für die Gesamtzugriffe ungesampelte Daten enthält und der SEO Bericht auf Stichprobenerhebung basiert. Das kann euch bei einem Content Audit und anderen Auswertungen zum Verhängnis werden. Und auch bei einem Vergleich von Monatsberichten und Jahresberichten kann dies der Fall sein.

Um akkurat mit den Zahlen zu arbeiten, speziell auch für Vergleiche, sind diese Daten also unbrauchbar.

Welche Möglichkeiten gibt es, das Sampling zu umgehen?

Glücklicher Weise gibt es verschiedene Möglichkeiten, das Sampling zu unterbinden.

1. Höhere Genauigkeit einstellen

Wenn die Samplingquote ziemlich hoch ist, kann es ausreichen, die Samplingquote zu erhöhen. Fahrt dazu mit der Maus über das gelbe Sampling-Icon. In dem Fenster, das sich dann öffnet, habt ihr die Möglichkeit, eine höhere Genauigkeit einzustellen.

Ihr könnt eine höhere Genauigkeit einstellen um das Sampling zu umgehen

Ihr könnt eine höhere Genauigkeit einstellen um das Sampling zu umgehen

Die höhere Genauigkeit geht zu lasten der Antwortzeit, die sich dann verlängert.

Bestenfalls wird damit schon das Sampling ausgeschaltet. Das erkennt ihr daran, dass das Icon grün wird.

2. Nutzt Standard-Berichte

Die Standardberichte nutzen immer die gesamte Datenmenge und sind nicht gesampelt.

Manchmal könnt ihr die gleichen Ergebnisse mit Standard-Berichten erzielen, um den Einsatz von Segmenten oder sekundären Dimensionen zu vermeiden.

Beispiel: Wenn ihr die Sitzungen für die Top Zielseiten über organische Suche zählen möchtet, könnt ihr den Bericht Verhalten – Websitecontent – Zielseiten auswählen und das Segment „organische Zugriffe“ darüberlegen. Schon wird gesampelt 🙁

Segmente wie "Organische Zugriffe" sorgen dafür, dass die Daten eher gesampelt werden.

Segmente wie „Organische Zugriffe“ sorgen dafür, dass die Daten eher gesampelt werden, wenn ihr einen längeren Zeitraum betrachtet.

Die gleichen Daten erhaltet ihr, wenn ihr in den Report Akquisition – Alle Zugriffe – Channels geht und die Organische Suche anklickt. Anschließend wählt ihr die Primäre Dimension Zielseite aus. Und es wird nicht gesampelt 🙂

Dieselben Auswertungen erhält man ungesampelt, indem man die entsprechenden Standard-Berichte nutzt.

Dieselben Auswertungen erhält man ungesampelt, indem man die entsprechenden Standard-Berichte nutzt.

3. Verkürzt den Betrachtungszeitraum

Eine weitere Möglichkeit besteht darin, den Betrachtungszeitraum zu verkürzen. Damit verringert ihr die Zahl der Visits. Wenn ihr z.B. eine Jahresauswertung erstellen möchtet und ihr erhaltet Daten auf Stichprobenbasis, dann solltet ihr versuchen, die Daten stattdessen quartalsweise oder monatlich zu ziehen. So erhaltet ihr eine kleinere Datenmenge zum Verarbeiten. Im Anschluss daran könnt ihr die Zahlen z.B. in Excel wieder zusammenfügen.

4. Nutzt mehrere gefilterte Datenansichten

Wenn ihr öfter einen bestimmten Bereich anschauen möchtet und schon alleine durch den Einsatz eines Segments in das Sampling rutscht, dann solltet ihr euch vielleicht eine eigene Datenansicht für diesen Segmentbereich erstellen. Die Standard-Berichte dieses Bereiches werden nicht gesampelt.

5. Unterteilt Daten in verschiedene Properties

Der automatische Einsatz von Stichprobenerhebungen wird auf Property-Ebene vorgenommen. Wenn ihr z.B. viele unterschiedliche Länder-Websites habt, könntet ihr für jede Länder-Website eine eigene Property erstellen.

6. Arbeitet mit Tools, welche die Google Analytics API nutzen

Mit Hilfe der API können die Berichtsanfragen gestückelt werden, so dass der Einsatz des Samplings ausgehebelt wird. Dabei wird die Datenmenge jeder einzelnen Anfrage klein gehalten und anschließend alle einzelnen Abfragedaten wieder zusammengesetzt. Wir haben bisher zum Beispiel gute Erfahrungen mit NextAnalytics gemacht, aber auch AnalyticsEdge ist empfehlenswert.

7. Google Analytics 360 Suite

Wenn ihr mit solch großen Datenmengen arbeitet, dass eure Berichte sehr schnell bzw. sehr oft gesampelt werden, dann solltet ihr euch überlegen, Google Analytics Premium bzw. die Google Analytics 360 Suite einzusetzen. Der Einsatz von GA Premium Version bringt viele Vorteile mit sich, inclusive der Möglichkeit, ungefilterte Berichte zu erstellen. Allerdings ist das Webanalyse Tool in dieser Version nicht kostenlos.

Fazit

Die Sampling Funktion in Google Analytics erstellt Berichte auf Grundlage von Teilmengen der erhobenen Daten und tritt in Kraft, sobald der Aufwand für die Berechnung der ausgewählten Gesamtdatenmenge zu aufwändig wird. Berichte, die mit gesampelten Daten erstellt werden, sind nur bedingt aussagekräftig und lassen sich nicht zum Vergleich mit anderen Berichten heranziehen. Es gibt allerdings verschiedene Möglichkeiten, die Sampling-Probleme zu umgehen und auch für große Datenmengen verlässliche Berichte zu erhalten.

Newsletter

Du möchtest keinen Beitrag aus unserem Blog verpassen? Dann trage dich in unseren Newsletter ein.

Alles über GA4
Google Analytics 4 Buch

Das geballte lunapark
Know-How in einem Buch:
Google Analytics 4 – Grundlagen, Praxis, Migration (2023)

Du möchtest mit uns in Kontakt treten?

Schreibe uns über unser Kontaktformular oder ruf uns an unter +49 (0)221 467 583-0

Unsere Webinare als Aufzeichnung

Google Search Console

Google Search Console

Die Google Search Console - Entdecke die Geheimnisse und Potentiale für die eigene Website und Content.Die Google Search Console (GSC) ist die Grundlage für alle Online-Marketing und SEO-Verantwortlichen In der Praxis fehlt oft die Zeit sich tiefer damit zu...

GA4 – Eigene Berichte in Analytics

In GA4 versucht Google, die Nutzer mit einer aufgeräumten und nicht überladenen Oberfläche zu empfangen. Im Vergleich zu anderen oder früheren Tools scheint das zu funktionieren: die Navigation besteht aus einer übersichtlichen Liste mit wenigen Einträgen.Denn GA4...

Google Consent Mode v2 – Tracking und Datenschutz

Der Google Consent Mode v2 ist eine aktualisierte Version des Einwilligungsmodus, der es Websites ermöglicht, die Nutzung von Google-Diensten wie Google Analytics und Google Ads besser an die Einwilligung der Nutzer anzupassen. Er wurde im November 2023 eingeführt und...

Weitere Themen aus unserem Blog

Google Consent Mode v2 – Implementieren und Prüfen

Wir wollen euch zeigen, worum es beim Google Consent Mode geht, denn es gibt teilweise widersprüchliche Informationen darüber. Das liegt teilweise daran, dass der Begriff schon länger existiert, aber inzwischen haben wahrscheinlich viele von euch eine Meldung in einem...

mehr lesen
SEO Contest 2023

SEO Contest 2023

Morgen startet der seoday 2023 in Köln und wir sind schon ganz gespannt auf die vielen Vorträge der diesjährigen Speaker. Ein Blick auf die Themen verrät schon jetzt, in diesem Jahr dreht sich vieles, wenn nicht alles, um das Thema Künstliche Intelligenz. In diesem...

mehr lesen
Wärmepumpenseo vs. SEO für Wärmepumpen

Wärmepumpenseo vs. SEO für Wärmepumpen

Der Begriff Wärmepumpenseo ist nicht leicht zu erklären. Ein geläufiger Chat-bot würde auf die Frage nach einer Definition von Wärmepumpenseo wahrscheinlich folgendes antworten: „Wärmepumpen sind Geräte, die zum Heizen und Kühlen von Räumen oder zur...

mehr lesen

Alle Neuigkeiten von lunapark in deinen Posteingang!

Ja, ich möchte euren Newsletter mit Neuigkeiten zu Webinaren, aus dem Blog und wissenswerten Infos zum Digitalen Marketing erhalten.

Du hast dich erfolgreich angemeldet. Bitte bestätige die Email in deinem Posteingang!