Rem tene, verba sequentur.
Marcus Porcius Cato               

Konzentriere Dich auf die Sache –
die richtigen Worte werden folgen…

Semantische Suchmaschinenoptimierung

Technische Aspekte wie sauberer, ballastfreier Programmcode, übersichtliche Seitenstruktur, Mobilgerätetauglichkeit, intakte Linkstruktur, Sicherheit durch HTTPS oder performante Ladezeiten sind nach wie vor grundlegend. Dies sind jedoch in der Regel Faktoren, die jedem Programmierer bekannt sind schon bei Programmierung einer Webseite berücksichtigt werden (sollten).

Um heute eine Webseite zu optimieren, ist es notwendig, sich das erklärte Ziel von Suchmaschinen mit selbstlernenden KI-Algorithmen vor Augen zu halten. Dieses Ziel besteht darin, die semantische Bedeutung von Webinhalten ähnlich zu verstehen wie ein Mensch. KI-Algorithmen und -Prozeduren wie RankBrain von GOOGLE sind auf dem Weg dorthin und kommen ihrem Ziel immer näher.

Dies ist der Grund, warum neben den konventionellen Keywords wortschatzreiche Synonyme, umformulierte Varianten, semantisch verwandte Begriffe, Kollokationen (Wörter, die häufig zusammen in einem Text auftreten) und Assoziationen immer wichtiger werden. Selbstlernende KI-Algorithmen sind heute in der Lage, die Bedeutungsbeziehungen zwischen den Wörtern eines Textes und den Relationen zu Wörtern in anderen indizierten Webbeständen zu analysieren. Damit schafft diese moderne Technologie die Voraussetzungen dafür, dass viele Wege auf eine Webseite führen können. Wir haben es hier also zu einem großen Teil immer mehr mit der linguistischen Semantik indizierter Webseiteninhalte zu tun.

Ein „königlicher“ Content, attraktive Metadaten (Snippets, Rich Snippets), Schema-Markup-Auszeichnungen und themenadäquate Backlinks ergeben im Verbund mit gezielten semantischen Optimierungen eine Fundgrube für Suchmaschinen.

Grundlegend für die Analyse von Suchanfragen sind die semantischen Beziehungen der Wörter in einem Satz und die Beziehungen der Sätze zueinander. Gerade das nach Hummingbird (2013) und RankBrain (2015) neueste und sehr folgenreiche semantische Rollout von Google im Oktober 2019 „Bidirectional Encoder Representations from Transformers“ (BERT) macht dies sehr deutlich.

Dank des linguistischen BERT-Frameworks ist der Google-Algorithmus – zunächst für den englischen Sprachraum – immer besser in der Lage, die Semantik eines Satzes u. a. durch die genauere Deutung von Präpositionen, Pronomen und Mehrdeutigkeiten besser zu verstehen und damit die betreffende Suchanfrage auch besser zu bedienen.

Das neuronale, selbstlernende BERT-Framework arbeitet dabei auf Basis von Transformatoren, kontextuellen Darstellungen von Wörtern in einem Satz und es arbeitet bidirektional. D. h., Wörter in einem Satz können ihre Nachbarn links und rechts richtig deuten [Beispiel: Frau Huber stampfte in die Spielhölle; sie war lauter als eine Elefantenherde: Bezieht sich das Pronomen „sie“ auf Frau Huber oder auf die Spielhölle?].

Doch BERT bleibt nicht bei Wörtern stehen, sondern analysiert auch die Beziehungen zwischen zwei aufeinanderfolgenden Sätzen: Ist Satz 2 auch wirklich ein Satz, der logisch nach Satz A kommt oder ist er im Satzkontext ohne Bedeutung und rein zufällig?

Selbstlernende KI-Algorithmen haben die reine Textstringebene verlassen und bewegen sich heute mithilfe mehrdimensionaler mathematischer Vektoren als Repräsentationen von Wörtern an bestimmten Textstellen, Wahrscheinlichkeitsverteilungen, konvolutionalen neuronalen Netzen sowie den Techniken der Mustererkennung immer sicherer in unseren komplexen semantischen Welten. Dies gilt auch oder gerade für die rasant ansteigenden Suchanfragen mittels Smartphone und natürlicher Spracheingabe.

Es geht nicht mehr nur um Worte, sondern um Inhalte, Ideen, Absichten, Meinungen, also um Bedeutungsinhalte oder anders gewendet um die Semantik natürlicher Sprachen.

Bei diesen Prozessen werden immer immense Datenmengen auf Muster hin analysiert. So werden bei der Analyse von Smartphone-Spracheingaben zigtausende Audiodateien in die Forschungszentren der Suchmaschinenhersteller hochgeladen, von Hand in Texte transkribiert, die Wellenmuster analysiert, miteinander verglichen, spracherkenntlich getestet und die zugrundeliegenden neuronalen Netze trainiert und optimiert.

Laut einschlägigen Schätzungen belaufen sich die durch Cyberkriminalität verursachten jährlichen Kosten fast auf 500 Milliarden US-Dollar, ein Grund, warum das Thema „Cyber-Attacken und massiver Datendiebstahl“ auch bei dem Weltwirtschaftsforum Anfang 2018 in Davos als eines der schwerwiegendsten globalen Risiken eingestuft wurde.

Cyberattacken wie Ransomware– und DDoS-Angriffe, Phishing-Attacken, von Staaten gesponserte Malware-Angriffe, invasive mobile Schadsoftware, IoT-Botnets , Krypto-Mining-Malware, spezielle Malware-Angiffe gegen Macintosh-Betriebssysteme und viele mehr gehören heute leider schon zum Alltag, doch die wenigsten mittleren und kleineren Unternehmen sind hier technologisch auf dem neuesten Stand und können sich erfolgreich gegen die immer häufiger aufretenden, immer heftiger ausgetragenen und technisch immer versierteren Cyberangriffe zur Wehr setzen.

Hinzu kommen gravierende Sicherheitslücken bei verbreiteten Funkstandards wie WLAN/Wi-Fi und Bluetooth für mobile Endgeräte, die Milliarden von Smartphones gefährden und der Cyberkriminalität Tür und Tor öffnet. Auch die beliebten Stores für mobile Apps sind ein Nährboden für Cyberkriminalität. Viele der in den als sicher geltenden Stores enthaltenen Apps sind mit Schadsoftware infiziert und es wurden schon Millionen von mobilen Endgeräten durch bösartige Apps infiziert. Dürfen Unternehmensmitarbeiter mit ihren eigenen Smartphones über Unternehmensnetzwerke im Internet surfen, E-Mails empfangen, Daten versenden usw. ist dies häufig mit Risiken verbunden, es sei denn, es werden bestimmte Sicherheitsrichtlinien (VPN-Lösung, Kennwortsperren etc.) beachtet.

Security und GOOGLE-Ranking – ein paar Tipps:

Lassen Sie es nicht zu, dass Ihre Webseite erfolgreich gehackt wird, denn Sie verlieren damit u. U. auch mittel- und langfristig Ihre bestehende GOOGLE-Rankingposition:

Bekanntgewordene Hackerangriffe können für ein Unternehmen katastrophale Folgen haben, wie Negativ-Reputation, DSGVO-Strafen, Umsatzverluste, Diebstahl von wichtigen Daten (persönliche Daten, SEO-Daten, E-Mail-Daten, technische Daten usw.) und massive Rankingverluste.

Sobald die GOOGLE-Suchmaschine einen erfolgreich durchgeführten Cyberangriff erkennt, wird die betreffende Webseite als infiziert geflaggt. Anwender, die den GOOGLE CHROME-Browser verwenden, erhalten zudem über ein Popup-Fenster eine entsprechende Warnmeldung. Da kaum ein Anwender eine infizierte Seite aufsuchen dürfte, kann der Traffic auf dieser Seite damit u. U. fast zum Erliegen gebracht werden. Auch nach der Säuberung einer Webseite ist es oft so, dass das das organische Suchpotential gehackter Webseiten nicht mehr auf das vorherige Niveau ansteigt. Die von GOOGLE für gehackte Seiten verhängten Rankingstrafen wirken also anscheinend oft auch mittel- und langfristig.

Versierten Hackern ist es sogar möglich, unsichtbare Unterseiten auf eine bestehende Webseite zu integrieren, die Links und Schadcode enthalten. Von den Webseitenbesitzern wird das meist gar nicht bemerkt, wohl aber von den Web-Crawlern.

Sorgen Sie für positive Rankingsignale durch Beachtung der Datenschutzverordnung und verbessern Sie das Ranking Ihrer Webseite mit HTTPS-Verschlüsselung.

Schützen Sie die Anwender, die Ihre Webseite besuchen! Auch dieser Aspekt gehört zu einer guten User Experience, dem ultimativen Ziel aller GOOGLE-Bemühungen. Haben Anwender das Gefühl, dass ihre persönlichen Daten nicht sicher gehandhabt werden, wird sich das schnell herumsprechen und der Traffic und damit das Ranking auf der betreffenden Webseite wird zurückfallen. HTTPS-Verschlüsselung ist mittlerweile ein wichtiger GOOGLE-Rankingfaktor.

Sorgen Sie dafür, dass Ihre Webseite mobilfreundlich ist.

2018 gibt es weltweit 4,5 Milliarden Nutzer von Mobiltelefonen, davon sind ca. 50 % Smartphone-Anwender. Damit gibt es heute trotz der exponentiell zunehmenden mobilen Malware-Attacken weit mehr mobile als Desktop- und Tablet-Anwender.

Diese Entwicklung ist auch der Grund für den Mobile-First-Rollout von GOOGLE am 26. März 2018:

Wurde bei der GOOGLE-Rankingeinstufung bisher nur die Desktop-Version einer Webseite ausgewertet, so gilt nach dem Mobile-First-Rollout von GOOGLE am 26. März 2018 , dass von diesem Zeitpunkt an nur noch die mobile Version einer Webseite für die Indizierung und das Ranking herangezogen wird, damit die heute überwiegend mobilen Anwender auch das finden, was sie suchen.

Doch im Prinzip bedeutet die Mobile-First-Indizierung eingeschränkte Sichtbarkeit von nicht mobilfreundlichen Webseiten auch für die Anwender, die über Destop-PCs im Internet unterwegs sind.

Installieren Sie einen Spam-Schutz für Ihre Webseite und verhindern Sie HTTP 404- und 503-Fehler.

Erhält zum Beispiel eine Blog-Webseite übermäßig viele Kommentar-Spams, hilft ein moderner Spam-Schutz, denn wenn GOOGLE Spam auf einer Seite vermutet, wird diese im Ranking nach unten rutschen oder im schlechtesten Fall ganz aus den SERPs verschwinden.

Stösst eine Suchmaschine häufig auf 404-Fehler („Seite nicht gefunden“), wird die entsprechende Seite herabgestuft oder ganz aus dem Index genommen. Bei 503-Fehlern („Service nicht verfügbar“) nimmt GOOGLE an, dass die Seite – wenn auch nur für kurze Zeit – nicht mehr administrierbar ist und vermutet u. U. einen Hackerangriff. Auch in diesem Fall kommt es ggf. zu Rankingeinbußen.

Unterweisen Sie Ihre Mitarbeiter, denn Cyberkriminelle lieben Social Media.

Kriminelle versuchen besonders über Unternehmensmitarbeiter, die in sozialen Medien aktiv sind, an firmenrelevante Informationen heranzukommen, mit denen sie erfolgreiche Phishing- und Social Engineering-Attacken durchführen können. Das Sammeln von persönlichen Daten ist häufig auch der Beginn für eine erfolgreiche Spearphish-Attacke, die sich gezielt gegen bestimmte Personen richtet und in der Regel mit harmlos wirkenden E-Mails oder den Besuch einer betrügerischen Webseite beginnt. Die Täter wollen immer nur eines: Informationen und Daten (Identitätsdaten, Passwörter, Benutzerkontendaten, Kreditkartennummern…). Mitte 2017 wurden mithilfe von gefälschten E-Mail-Nachrichten – die Links zu einer malignen Web-App enthielt und die Zugangsdaten von GOOGLE-Anwendern einforderte – eine Vielzahl von GOOGLE-Konten gehackt. Spätestens seit dieser Zeit ist Security auch bei GOOGLE ein Schwerpunkthema und ein schwergewichtiger Rankingfaktor.

SEO-Trailer obeda-transteam GmbH

  • Semantik, Statistik und Künstliche Intelligenz

    Mit Hilfe semantischer Methoden analysieren Suchmaschinen-Algorithmen die Beziehungen zwischen bedeutungstragenden sprachlichen Elementen, d. h. in erster Linie zwischen Wörtern und Sätzen und bedienen sich dabei u. a. Synonymlexika, Thesauri und Wissensdatenbanken sowie statistischer und KI-basierter Methoden, mit deren Hilfe z. B. mehrdeutige Wörter (wie z. B. Laster = LKW / negative Charaktereigenschaft oder Mars = römischer Kriegsgott / Produktname) ausgesondert werden können.

    Für das Ranking einer Webseite, eines Videos oder in naher Zukunft auch eines Podcasts entscheidend ist nicht nur das einzelne Keyword und dessen Häufigkeit in einem Textkorpus, sondern der Wissenskontext, in dem ein Suchwort angesiedelt ist. Hierzu gehören u. a. Synonyme (wie z. B. Auto, Wagen, KFZ…), Wortfelder (wie z. B. essen, verzehren, schlemmen, naschen, Nahrung aufnehmen, futtern…) sowie Wörter aus dem Themengebiet, Wissenskontext oder Fachgebiet, zu dem ein Wort gehören kann (z. B. Gießereitechnik: Fehlguss, Formtrennmittel, Schmelze, Stranggießen, Trennmittel, Formmaschine, Druckgießmaschine….).

    Moderne Suchmaschinen-Algorithmen sind zudem in der Lage, auch inhaltliche Aspekte von Texten zu analysieren. Neben Rechtschreibung, Grammatik und Satzbau können anhand von Sprachstil und Wortwahl auch Textsortenklassifikationen durchgeführt werden. Ist ein Webseitentext eher wissenschaftlich, technisch, also mehr sachlich und strukturiert oder ausschweifend, blumig, unstrukturiert? Enthält ein Seitendokument sogar keyword- und/oder link-manipulierte bzw. maschinenerstellte oder maschinenübersetzte Texte?

    Was für Webtexte gilt, gilt auch für YouTube-Video-Transkripte und über bestimmte Audio-Pattformen und Audio-Suchmaschinen schon heute für Audio-Transkripte. Das Internet und damit auch die Algorithmen der Suchmaschinenhersteller befinden sich im ständigen Wandel.

    So arbeitet einer Ankündigung von Google von August 2018 zufolge der Suchmaschinenprimus im Rahmen seiner Podcast-Strategie an einer neuen KI-basierten Podcast-App mit der Bezeichnung „Shortwave“, mit dessen Hilfe Internetanwender über die organische Suche gezielt relevante Auszüge sprachbasierter Audiodateien ähnlich wie Text oder YouTube-Videos auffinden und anhören können.

    Dies bedeutet u. a., dass wohl in naher Zukunft auch über die marktführende Suchmaschine für sprachbasierten Audio-Content semantische Optimierungen durchgeführt und damit neue Sichtbarkeiten für Web-Content wie Unternehmens-Podcasts geschaffen werden können.

  • Suchmaschinen-Algorithmen im Wandel

    Noch vor nicht allzu langer Zeit konnten die Algorithmen der Suchmaschinenhersteller nur Wörter, Keyworddichten und die Grammatik von Webseitentexten verarbeiten, doch dies hat sich mittlerweile gewaltig geändert. Heute haben wir es mit selbstlernenden KI-Algorithmen zu tun, die mithilfe künstlicher neuronaler Netze der menschlichen Fähigkeit immer näher kommen, den Content einer Webseite eben ähnlich zu verstehen und zu deuten „wie ein Mensch“. Dieses Verstehen spielt sich heute noch auf dem pragmatischen Niveau der Logik ab, vielleicht aber morgen schon – so wollen es einige der führenden KI-Köpfe wissen – auch auf emotionaler Ebene. Mit diesen dynamisch erweiterten KI-Algorithmen könnten – und das würde nicht allen von uns gefallen – auch komplexe Suchanfragen z. B. gepaart mit Witz, Humor, Freude, Anspielungen oder Wortspielen korrekt beantwortet werden.

    Selbstlernende KI-Algorithmen haben die reine Textstringebene verlassen und bewegen sich heute mithilfe mehrdimensionaler mathematischer Vektoren als Repräsentationen von Wörtern an bestimmten Textstellen, Wahrscheinlichkeitsverteilungen, konvolutionalen neuronalen Netzen sowie den Techniken der Mustererkennung immer sicherer in unseren komplexen semantischen Welten. Dies gilt auch oder gerade für die rasant ansteigenden Suchanfragen mittels Smartphone und natürlicher Spracheingabe.

    Es geht nicht mehr nur um Worte, sondern um Inhalte, Ideen, Absichten, Meinungen, also um Bedeutungsinhalte oder anders gewendet um die Semantik natürlicher Sprachen.

    Bei diesen Prozessen werden immer immense Datenmengen auf Muster hin analysiert. So werden bei der Analyse von Smartphone-Spracheingaben zigtausende Audiodateien in die Forschungszentren der Suchmaschinenhersteller hochgeladen, von Hand in Texte transkribiert, die Wellenmuster analysiert, miteinander verglichen, spracherkenntlich getestet und die zugrundeliegenden neuronalen Netze trainiert und optimiert.

  • Mobile Suchanfragen in natürlicher Sprache

    Die in die GOOGLE-Suche implementierte KI muß Suchanfragen analysieren, die von Desktop- oder Mobilgeräten kommen und unterscheiden, ob die Anfrage über eine Tastatur oder ein Mikrofon eingegeben wurde. Die Praxis zeigt, dass sich die eingegebenen Suchanfragen keywordmässig je nach Eingabemethode voneinander unterscheiden können. Gleiches gilt auch für den momentanen Standort des Anwenders sowie den Wochentag und den Zeitpunkt der Anfrage: Ist der Anwender zuhause, am Arbeitsplatz, im Auto, in einem Geschäft, im Flugzeug…, benötigt er möglicherweise unterschiedliche Antworten auf seine Suchanfragen. Also viele Varianten, die alle zu Suchergebnissen führen sollen, die den Anwender zufriedenstellen.

  • KI auf Open Source-Basis

    Mittlerweile werden von den Datengiganten Google (TensorFlow, Sonnet), Facebook (Torch, Big Sur) und Amazon (Amazon Machine Learning, Rechenzeit muss auf Stundenbasis bezahlt werden) für jedermann zugänglich entsprechende KI-Tools auf Open Source-Basis zur Verfügung gestellt, Werkzeuge für die Datenanalyse, die Hilfe von APIs individuell angepasst und genutzt werden können.