Ranking-Verluste durch Duplicate Content: Canonicals, hreflang-Tags und http/https (Praxiscase)

Um gute Rankings in der Google Suche zu erzielen, muss die Suchmaschine eine Website richtig lesen und interpretieren können. Struktur und die richtige Auszeichnung der Website und ihrer Inhalte spielen dabei eine wichtige Rolle. Senden Weiterleitungen und Auszeichnungen widersprüchliche Signale, leidet die Sichtbarkeit und damit aller Wahrscheinlichkeit nach auch der SEO Traffic darunter. An einem Beispiel zeige ich euch, wie doppelte Inhalte, falsch umgesetztes https, Canonicals und hreflang-Tags die Performance einer Website beeinträchtigen können.

Diesem Artikel liegt die Analyse einer Brand-Website zu Grunde. Neben der Vorstellung der aktuellen Produkte ist auch ein Onlineshop integriert. Inhalte werden für über 60 Länder und Sprachen ausgespielt und sind auf einer globalen com-Domain mit Land-Sprach-Verzeichnissen angelegt (z.B. www.domain.com/de-de/). Im Moment (Stand Oktober 2016) sind 270.000 URLs im Google Index vorhanden. Im /de-de/ Verzeichnis gibt es 23.000 URLs. Um das Ganze etwas einfacher zu halten und weil der Kernmarkt des Herstellers Deutschland ist, habe ich mir vor allem die deutschen Inhalte angesehen.

Verlust der Sichtbarkeit und Rückgang des SEO Traffics

Bei der Website zeichnete sich ein negativer Trend in der Sichtbarkeit ab. Dies begann im Dezember 2015, nahm aber ab April 2016 verstärkt zu.

Rückgang der Sichtbarkeit (Sistrix) in Deutschland

Rückgang der Sichtbarkeit (Sistrix) in Deutschland

Searchmetrics zeigte eine ähnliche Entwicklung.

Entwicklung der SEO Visibility (Searchmetrics)

Entwicklung der SEO Visibility (Searchmetrics)

Die Entwicklung betraf nicht ausschließlich die deutschen Inhalte. Ähnlich sah es auch bei anderen Sprachen aus. Beispielhaft sind hier die Seiten für Frankreich, Spanien, UK und USA aufgeführt:

Entwicklung der französischen Inhalte (Sistrix)

Entwicklung der französischen Inhalte (Sistrix)

Entwicklung der spanischen Inhalte (Sistrix)

Entwicklung der spanischen Inhalte (Sistrix)

Entwicklung der Inhalte für den UK-Markt (Sistrix)

Entwicklung der Inhalte für den UK-Markt (Sistrix)

Entwicklung der Inhalte für den US-Markt (Sistrix)

Entwicklung der Inhalte für den US-Markt (Sistrix)

Die Entwicklung der Sichtbarkeit ist nicht immer ausschlaggebend für die Performance einer Website. Schließlich können auch ausschließlich Keywords von dem Einbruch betroffen sein, die für das Angebot des Website-Betreibers uninteressant sind. Allerdings war das hier nicht der Fall. Auch Suchbegriffe, die im Fokus unserer Content-Optimierung standen, verloren deutlich an Positionen.

Schließlich machte sich ab Mai der Rückgang der Rankings auch im SEO Traffic bemerkbar. Im Vergleich zum Vorjahr ging er um mehr als 15% zurück, obwohl er in den Monaten zuvor immer noch guten Zuwachs erhalten hatte.

Dem Verlust wichtigr Rankings folgte ein Rückgang des SEO Traffics

Dem Verlust wichtiger Rankings folgte ein Rückgang des SEO Traffics

Technische Veränderungen an der Website wurden zu diesem Zeitpunkt nicht vorgenommen und auch auf die Anpassung der Inhalte ließ sich diese Entwicklung nicht zurückführen.

Fehlersuche

Da ich schlechten Content als Fehlerquelle ausschließen konnte, sah ich mir die Website unter technischen Gesichtspunkten an und konnte drei Punkte ausmachen.

http vs. https

Ein Problem, das ich schon identifiziert hatte, das zuvor aber nicht zu Sichtbarkeitsverlusten geführt hatte, bestand darin, dass die Website sowohl unter http als auch https erreichbar war. Da die Serverleistung laut IT-Abteilung zu diesem Zeitpunkt nicht ausreichend war, konnte die Website nicht komplett auf https umgestellt werden. Es konnten keine Weiterleitungen von http auf https eingerichtet werden.

Abgesehen von dem Login-Bereich und den Seiten mit Kontaktformular zeigte bei den übrigen Unterseiten jeweils ein Canonical-Tag auf die http-Version der passenden Unterseite. Außerdem enthielt die XML-Sitemap ausschließlich http-Seiten. So sollte Google deutlich gemacht werden, dass die http-Version die bevorzugte Variante war, die auch indexiert werden sollte.

Ein Blick in den Verzeichnis-Bericht von Sistrix zeigte allerdings, dass dies nicht mehr richtig funktionierte und immer mehr https-Seiten rankten:

Der Verzeichnis-Bericht von Sistrix zeigt, das http und https Seiten gegeneinander ranken

Der Verzeichnis-Bericht von Sistrix zeigt, das http und https Seiten gegeneinander ranken

Zu diesem Zeitpunkt waren bereits über ein Viertel der indexierten URLs https-Seiten.

Google Site Abfrage für http-Seiten

Google Site Abfrage für http-Seiten

Google Site Abfrage der https-Seiten

Google Site Abfrage für https-Seiten

Auch in der Search Console war diese Entwicklung ersichtlich.

Indexierte http Seiten in der Google Search Console

Indexierte http Seiten in der Google Search Console

Die https-Property wurde leider erst angelegt, nachdem das Problem festgestellt wurde. Deshalb lässt sich nicht nachvollziehen, ob hier eine proportionale Steigerung vorliegt. Aber es ist deutlich zu sehen, dass hier die Zahl der indexierten Seiten zunimmt:

Indexierte https Seiten in der Google Search Console

Indexierte https Seiten in der Google Search Console

Hreflang-Tags und Canonicals

Es gab aber noch ein weiteres Problem, das mir eher zufällig aufgefallen ist. Es betraf die hreflang-Angaben auf der Website. Damit die Inhalte von Google dem richtigen Land und der richtigen Sprache zugeordnet werden konnten, verwiesen die hreflang-Tags jeweils auf die entsprechenden Sprachversionen. Gleichzeitig wurden aber auch Canonicals verwendet, da Produkte unter unterschiedlichen Kategorien gelistet wurden und so Duplicate Content entstand.

Grundsätzlich ist die Kombination von Canonicals und hreflang-Tags immer mit Vorsicht zu genießen, weil es hier zu widersprüchlichen Signalen für Google kommen kann. (Mehr dazu siehe Artikel: Die häufigsten SEO Fehler bei internationalen Websites). Hier lag aber noch ein ganz anderes Problem vor. Die hreflang-Tags der http-URLs verwiesen richtig auf die entsprechenden Inhalte in den anderen Sprachen:

hrefllang-Tags auf http-Seiten

hrefllang-Tags auf http-Seiten

Auf den https-Seiten waren allerdings Tags hinterlegt, die auf eine deutsche Länder-Domain verwiesen:

hrefllang-Tags auf https-Seiten zeigen auf eine andere Domain

hrefllang-Tags auf https-Seiten zeigen auf eine andere Domain

Auf den anderen Sprachversionen sah dies ähnlich aus. Die hrefllang-Tags zeigten dabei ebenfalls auf die entsprechende Länder-Domain. Leider kann ich nicht nachvollziehen, wann genau es zu diesem Fehler kam. Die Vermutung liegt aber nahe, dass dies bei der Integration der hreflang-Tags geschah, die schon einige Zeit zurücklag.

Obwohl also die Canonicals und die Hälfte der hreflang-Tags auf die http-Version und die andere Hälfte der hreflang-Tags auf eine https-Version einer anderen Domain verwiesen, wurden immer mehr https-Seiten der com-Domain indexiert. Dies zeigt, wie wichtig https als Rankingfaktor für Google inzwischen geworden ist.

Was war aber nun mit den Länder-Domains?

Domain-übergreifender Duplicate Content

Ursprünglich lagen die unterschiedlichen Sprachversionen der Inhalte der Website auf den entsprechenden Länder-Domains des Herstellers. Nach einem Relaunch Ende 2013 wurden sie auf der com-Domain zusammengefasst und in Land-Sprach-Verzeichnissen untergebracht. Die alten Domains wurden korrekt per 301 Redirect auf diese Verzeichnisse weitergeleitet.

Soweit sah das erstmal gut aus. Allerdings traf dies nur auf die http-Version der Länder-Domains zu. Die https-Variante war immer noch erreichbar und wurde auch indexiert. Beim Klick auf ein Suchergebnis wurde zwar eine Fehlermeldung eingeblendet, die darauf hinwies, dass die Website nicht sicher sei, aufrufen konnte man sie aber trotzdem und Google konnte sie auch crawlen und indexieren.

Indexierte Seiten der de-Domain

Indexierte Seiten der de-Domain

Bei einem genaueren Blick auf die Website stellte sich heraus, dass nicht nur die deutschen Inhalte auf der de-Domain aufrufbar waren, sondern auch alle anderen Inhalte in jeder Sprachversion, die auch auf der com-Domain vorhanden waren. Und entsprechende hreflang-Tags wurden hier auch verwendet:

hreflang-Angaben auf der de-Domain

hreflang-Angaben auf der de-Domain

Es gab also extrem viel Domain übergreifenden Duplicate Content, der auf der com-Domain, der de-Domain und – nach einem Blick auf die anderen Länder-Domains war auch das klar – auf jeder anderen Länder-Domain lag.

Optimierungsansätze

Um den Einbruch in der Sichtbarkeit schnellst möglich zu stoppen und die Website wieder auf ihr vorheriges Level zu bringen, mussten die Fehler behoben werden. Allerdings war eine vollständige Umstellung auf https zu diesem Zeitpunkt noch nicht möglich, da die technischen Voraussetzungen serverseitig nicht gegeben waren und ein Relaunch in absehbarer Zeit geplant war, bei dem diese Probleme behoben werden sollten.

  • Zumindest konnten wir aber das Problem mit dem Duplicate Content auf den Länder-Domains beheben, indem auch die https-Version richtig weitergeleitet wurde.
  • Außerdem wurde das Canonical Tag jeweils auf die https-Version der jeweiligen Unterseite gesetzt.
  • Und auch in den XML-Sitemaps auf die https-Seiten verwiesen anstatt auf die http-Seiten.
  • Die hreflang-Tags wurden angepasst und verwiesen nicht mehr auf die Länder-Domains. Allerdings zeigen diese zum Teil noch auf die http-Varianten der URLs. Eine Anpassung war hier laut IT nicht möglich oder zu aufwändig.

Obwohl mit Blick auf den anstehenden Relaunch nur halbherzig umgesetzt, konnte mit diesen Maßnahmen zumindest der Abwärtstrend in der Sichtbarkeitsentwicklung vorerst gestoppt werden (Stand Ende Oktober 2016).

Entwicklung der Sichtbarkeit, Stand Ende Oktober

Entwicklung der Sichtbarkeit, Stand Ende Oktober

Ein Blick in die Verzeichnis-Ebenen in Sistrix zeigt, dass die https-Variante inzwischen deutlich an Sichtbarkeit gewonnen hat und die http-Variante komplett an Sichtbarkeit verloren hat.

https-Seiten ranken inzwischen deutlich besser als die http-Seiten

https-Seiten ranken inzwischen deutlich besser als die http-Seiten

Mit der Google Site Abfrage sieht das Ergebnis ähnlich aus. Indexierte Seite mit http nehmen ab.

Indexierte http-Seiten

Indexierte http-Seiten

Die Anzahl der https-Seiten nimmt zu.

Indexierte https-Seiten

Indexierte https-Seiten

Die indexierten Seiten der de-Domain sind weniger geworden, aber noch nicht vollständig aus dem Index verschwunden.

Indexierte Seiten der de-Domain

Indexierte Seiten der de-Domain

Obwohl sich die Sichtbarkeit allmählich erholt, ranken wichtige Keywords immer noch nicht wieder auf den Positionen, die sie letztes Jahr noch innehatten. Und auch der SEO Traffic liegt noch um 10 Prozent unter dem des letzten Jahres.

Fazit

Die Entwicklung der Sichtbarkeit der Website zeigt, wie wichtig ein richtiges Konzept für die Auszeichnung internationaler Inhalte ist und wie schädlich sich Duplicate Content auf das Ranking in Suchmaschinen auswirken kann. Falsch ausgerichtete Canonicals, widersprüchliche hreflang-Tags und das parallele Vorhandensein von http- und https-Versionen von URLs können die SEO Performance einer Website schwer in Mitleidenschaft ziehen. Um sich von einem Sichtbarkeitseinbruch zu erholen, braucht eine Website unter Umständen mehrere Monate in denen wichtiger Traffic und damit auch Umsatz ausbleibt. Darum ist es enorm wichtig solche Entwicklungen früh zu erkennen und ihnen entgegenzuwirken.

Schlagworte: SEO

Verwandte Artikel

  • SEO Relaunch
  • SEOkomm

    SEOkomm 2016 Recap

    Das Jahr neigt sich dem Ende zu: Die die ersten Weihnachtsmärkte öffnen ihre Stände. So auch in Salzburg, der Heimat der beliebten, österreichischen SEO Konferenz SEOkomm. Am …

0 Antworten

Hinterlassen Sie einen Kommentar

Wollen Sie an der Diskussion teilnehmen?
Feel free to contribute!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.