This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Die Wahl für professionelle Programmierer und Softwareentwickler. Anerkannte Experten wie z.B. Bjarne Stroustrup, der Erfinder von C++, liefern umfassendes Fachwissen zu allen wichtigen Programmiersprachen und den neuesten Technologien, aber auch Tipps aus der Praxis. Die Reihe von Profis für Profis!
Hier eine Auswahl: Professionelle Websites Stefan Münz 1136 Seiten € 59,95 (D), € 61,70 (A) ISBN-13: 978-3-8273-2370-5 ISBN-10: 3-8273-2370-3
Wenn heute von Webdesign die Rede ist, dann immer häufiger von striktem HTML, von sauberer Trennung zwischen Layout und Inhalt, und von Beachtung der Regeln für barrierefreie Websites. Beschrieben wird hier, was der Zukunft gehört und auf immer breiterer Front Anwendung findet: strukturell sinnvolles, am Strict-Standard des W3-Konsortiums orientiertes HTML, layout-formendes, intelligent eingesetztes CSS und benutzerfreundliches, DOM-orientiertes JavaScript. Auch die Serverseite darf nicht fehlen. Immer mehr Site-Betreiber steigen auf eigene Root-Server um. Vorinstalliert ist dort meistens das beliebte LAMP-Paket, bestehend aus einem Linux-Derivat, dem Apache Webserver, dem MySQL Datenbank-System und der Scriptsprache PHP. Genau diese Technologien werden im Buch gründlich und zusammenhängend behandelt.
Einführung in XHTML, CSS und Webdesign Michael Jendryschik 496 Seiten € 39,95 (D) € 41,10 (A) ISBN 978-3-8273-2477-1
Das Buch existiert bereits als Online-Tutorial. Die Einführung setzt grundlegendes Interesse voraus, sich mit Web-Technologien und Webstandards auseinander-setzen zu wollen, vor allem mit den Sprachen XHTML und CSS. Sie lernen, wie man standardkonforme, zugängliche und suchmaschinenfreundliche Webseiten erstellt, die darüber hinaus auch noch gut aussehen. Dabei wird der für einen Anfänger überschaubare Rahmen nicht überschritten. Ein ausführliches Glossar ergänzt das Buch.
Daniel Koch
SuchmaschinenOptimierung Website-Marketing für Entwickler
An imprint of Pearson Education München • Boston • San Francisco • Harlow, England Don Mills, Ontario • Sydney • Mexico City Madrid • Amsterdam
Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar. Die Informationen in diesem Produkt werden ohne Rücksicht auf einen eventuellen Patentschutz veröffentlicht. Warennamen werden ohne Gewährleistung der freien Verwendbarkeit benutzt. Bei der Zusammenstellung von Abbildungen und Texten wurde mit größter Sorgfalt vorgegangen. Trotzdem können Fehler nicht vollständig ausgeschlossen werden. Verlag, Herausgeber und Autoren können für fehlerhafte Angaben und deren Folgen weder eine juristische Verantwortung noch irgendeine Haftung übernehmen. Für Verbesserungsvorschläge und Hinweise auf Fehler sind Verlag und Herausgeber dankbar. Alle Rechte vorbehalten, auch die der fotomechanischen Wiedergabe und der Speicherung in elektronischen Medien. Die gewerbliche Nutzung der in diesem Produkt gezeigten Modelle und Arbeiten ist nicht zulässig. Fast alle Hardware- und Softwarebezeichnungen und weitere Stichworte und sonstige Angaben, die in diesem Buch verwendet werden, sind als eingetragene Marken geschützt. Da es nicht möglich ist, in allen Fällen zeitnah zu ermitteln, ob ein Markenschutz besteht, wird das ®-Symbol in diesem Buch nicht verwendet.
Umwelthinweis: Dieses Produkt wurde auf chlorfrei gebleichtem Papier gedruckt.
Einführung Wo man sich früher auf der Suche nach Ereignissen und Charakteren, nach Dramatik und Handlung dem Roman zuwandte, hält man sich jetzt an Film oder Fernsehen.
Elizabeth Young, Shopping in Space
Das Internet mit seinen Milliarden Seiten ist ohne Suchmaschinen längst nicht mehr beherrschbar. Google, Yahoo! und wie sie alle heißen, sind die Wegweiser durch den Daten-Dschungel. Über 70 Prozent aller Online-User starten ihre OnlineSitzung mit der Eingabe eines Suchbegriffs in eine Suchmaschine. Kein Wunder also, dass fast ausschließlich solche Webseiten erfolgreich sind, die an prominenter Stelle in den Suchergebnissen gelistet sind. So zeigen aktuelle Studien zum Suchverhalten Folgendes: Die ersten 3 Plätze in den Suchergebnissen werden von 100 % der Suchenden gelesen. Auf Platz 10 schauen dann nur noch 20 %. 87 % aller Klicks erfolgen auf natürliche Suchergebnisse und nicht etwa auf AdWords. Diese Erkenntnisse sind allemal interessant. Sie sind aber noch viel mehr. Für kommerzielle Webprojekte enthalten sie den Schlüssel zum Überleben. Denn wer Suchmaschinen-Optimierung mit gekauften Suchbegriffen gleichsetzt oder ganz auf die Optimierung seiner Seiten verzichtet, wird seine Internetseite kaum erfolgreich gestalten können.
Kapitel 1
1.1 Eine kurze Geschichte von fast allem Ein Blick auf die Geschichte der Suchmaschinen spiegelt gleichermaßen die Historie des Internets wider. Angefangen hat alles an der McGill Universität in Montreal. Dort startete man den ersten Versuch, dem Internet eine Art Inhaltsverzeichnis zu verpassen. Die Grundidee stammte von Alan Emtage. Emtage, permanent auf der Suche nach neuer Software für die Rechner seiner Universität, durchforstete hierzu zahllose FTP-Server. Um die Suche zu erleichtern schrieb er 1990 einige Skripte (zusammengefasst unter dem Namen Archie), die Server nachts automatisch nach bestimmten Stichwörtern in Dateinamen durchsuchten und ihm die Ergebnisse am nächsten Morgen präsentierten. Das Ziel von Archie war es, eine zentrale Datenbank zu entwickeln, in der sämtliche Dateien und Verzeichnisse der wichtigsten Anonymus-FTP-Server enthalten sein sollten. Diese Datenbanken ließen sich vom Benutzer über einen Befehlssatz abfragen. Um Archie nutzen zu können, brauchte man lediglich eine Telnet-Verbindung zum Server herzustellen und konnte die entsprechenden Kommandos eingeben. Spätestens im Jahr 1992 gehörte Archie zu den am häufigsten genutzten Internet-Tools. Aufgrund juristischer Probleme musste der Betrieb von Archie eingestellt werden, sodass der Dienst heute leider nicht mehr zur Verfügung steht. Angespornt vom Archie-Erfolg entwickelten die Mitarbeiter der University of Nevada in Reno 1991 ein ähnliches Werkzeug für den Vorläufer des WWW, Gopher1. Das unter dem blumigen Namen Veronica (Very Easy Rodent-Oriented Netwide Index to Computerized Archives) entwickelte Tool hatte bereits große Ähnlichkeit mit den heutigen Suchmaschinen. Monatlich wurden alle Gopher-Sites, die beim Haupt-Gopher-Server an der University of Minnesota angemeldet waren, indiziert. Veronica erlaubte schon die Verwendung von Operatoren wie NOT, OR und AND. Der erste Suchroboter für das gerade im Entstehen befindliche WWW war der WorldWideWeb Wanderer der von dem Studenten Mathew Gray 1993 entwickelt wurde. Konnte der Wanderer zunächst lediglich Webserver zählen, wurde er binnen weniger Monate von Michael L. Mauldin dahingehend weiterentwickelt, dass der Datenbestand durchsucht werden konnte. Zwischen 1993 und 1996 durchforstete der Wanderer zweimal pro Jahr das Netz und katalogisierte die gefundenen Seiten. Mit dem im Oktober 1993 veröffentlichten Archie-Like Indexing of the Web (Aliweb) wurden Betreiber von WWW-Servern dazu veranlasst, eine standardkonforme Datei auf ihren Servern abzulegen, in denen sie ihren Service beschreiben sollten. Die Adressen dieser Dateien wurden an Aliweb übermittelt, der daraus wiederum einen Index generierte, der sich von den Anwendern durchsuchen ließ. 1
12
Gopher ist ein Informationsdienst, der im Jahr 1991 an der Universität von Minnesota entwickelt wurde und der dem frühen WWW ähnelt. Heute spielt Gopher (fast) keine Rolle mehr, auch wenn noch einige Gopher-Server existieren.
Einführung
Ende Dezember 1993 wurde mit dem RBSE Spider die erste Suchmaschine online gestellt, bei der die Trefferlisten nach einem Ranking-System angezeigt wurden. Diese Entwicklung war revolutionär und bereitete den Weg für zahllose Suchmaschinen. Die beiden Studenten David Filo und Jerry Yang stellten im Jahr 1994 ihre beliebtesten Webadressen unter dem Namen Yahoo! online zur Verfügung. Mit Infoseek und AltaVista folgten 1995 die ersten kommerziellen Suchmaschinen. Ein Jahr später wird die Inktomi Corp. gegründet. Die gleichnamige Suchmaschine bildet später die Grundlage für weitere Suchmaschinen, wie z.B. Hotbot. Erst 1998 ging Google an den Start. Das mit einem Startkapital von 800.000 Euro gegründete Unternehmen hat heute einen Börsenwert von ca. 156 Milliarden US-Dollar.
Abbildung 1.1: Der Ur-Google
1.2 Die Bedeutung von Suchmaschinen gestern, heute und in Zukunft Die Zukunft hat längst begonnen. Spätestens seit die Firma Google vor einiger Zeit Google Maps und Google Earth an den Start gebracht hat, kann sich jeder ein Bild davon machen, wie der Suchmaschinen-Markt in Zukunft aussehen wird, oder besser, wie er aussehen könnte. Dabei ist Google längst nicht allein, was die Arbeit an zukunftsfähigen Anwendungen anbelangt. So hat Yahoo! mit der Beta-Version von My Web 2.0 (http://beta.bookmarks. yahoo.com/) sein Online-Angebot ebenfalls um interessante Funktionen erweitert.
13
Kapitel 1
Abbildung 1.2: So stellt sich Yahoo! die Suchmaschine der Zukunft vor.
Yahoo! versucht mit My Web 2.0, eine sogenannte Social Search Engine (soziale Suchmaschine) zu etablieren. Dabei sollen die Benutzer ganz gezielt von den Erfahrungen und Informationen anderer User profitieren. Suchergebnisse werden bei My Web 2.0 danach gewichtet, wie interessant die Seiten für andere Benutzer sind. Als weitere Neuerung lassen sich Interessengemeinschaften aufbauen, in denen sich Freunde und Bekannte zusammenschließen, die sich alle mit einem bestimmten Themengebiet befassen. All diese Neuerungen sollen bessere Suchergebnisse liefern und die Suche mit Yahoo! für den Anwender intuitiver gestalten. Einen Schritt weiter geht die Suchmaschine ChaCha.com. Zunächst einmal ist ChaCha.com eine ganz normale Suchmaschine, die sich gewöhnlicher Suchalgorithmen bedient. Zusätzlich wird aber die Möglichkeit geboten, Fragen direkt einem sogenannten Guide zu stellen. Im Gegensatz zu anderen vergleichbaren Anwendungen wie beispielsweise Yahoo! Answers ist allein dieser Guide für die gestellte Frage zuständig. Nun wird das von den Guides freilich nicht freiwillig gemacht, sondern sie werden bezahlt. Das ganze funktioniert über eine Chat-Funktion. Dort wird man mit einem Guide verbunden und kann ihm die Frage stellen. Und in der Tat funktioniert die Suche mit ChaCha.com relativ gut. Die Ergebnisse werden binnen weniger Sekunden angezeigt. Fast schon wieder ein alter Hut, dabei aber natürlich hochgradig innovativ sind Google Maps und Google Earth, dank derer man sich Luftaufnahmen in Kombination mit Routenplanern und lokaler Suche anzeigen lassen kann.
14
Einführung
Abbildung 1.3: Beim Pommeranzer Seopard muss der Guide passen.
Interessant ist der Blick in die Zukunft allemal, er kann und wird für viele Webdesigner beziehungsweise Entwickler aber auch »überlebenswichtig« sein. Denn nur wer weiß, was die aktuellen Trends auf dem Suchmaschinen-Sektor sind, kann für seine Kunden suchmaschinenoptimierte Webseiten erstellen.
1.2.1 Die beliebtesten Suchmaschinen sind ... Spricht man heute von der Suche im Internet fällt fast zwangsläufig der Begriff googeln. In der Tat ist die Vormachtstellung von Google kaum noch zu toppen. Wie rasant der Aufstieg von Google allein in den letzten beiden Jahren vonstatten ging, zeigen die folgenden Statistiken von OneStat.com aus dem Jahr 2004 und dem Jahr 2006: Platzierung
Suchmaschine
Genutzt von
1
Google
56,4 %
2
Yahoo!
21,1 %
3
MSN Search
9,2 %
4
AOL Search
3,8 %
5
Terra Lycos
2,0 %
6
AltaVista
1,7 %
7
Askjeeves
1,7 %
Tabelle 1.1: Die Suchmaschinen-Nutzung im Jahr 2004
15
Kapitel 1
Google hatte damals zwar bereits einen beeindruckenden Marktanteil von über 50 %, trotzdem hätte man Yahoo! und MSN hier noch als ernstzunehmende Konkurrenz betrachten können. Anders sieht es Ende 2006 aus: Platzierung
Suchmaschine
Genutzt von
1
Google
88,0 %
2
Yahoo!
2,7 %
3
MSN
2,2 %
4
T-Online
1,9 %
5
AOL Suche
1,7 %
6
Lycos
0,5 %
7
WEB.DE
0,3 %
8
AllesKlar
0,3 %
9
suche.freenet.de
0,3 %
10
AltaVista
0,2 %
11
search.com
0,2 %
12
arcor.de
0,2 %
Tabelle 1.2: Die Suchmaschinen-Nutzung im Jahr 2006
Die Vormachtstellung von Google scheint zementiert zu sein, vereint dieser Suchdienst doch allein fast 90 Prozent aller Suchanfragen. Dass es sich dabei aber nicht etwa um ein Naturgesetz handelt, hat die Vergangenheit gezeigt. Ob Google seine Spitzenposition verteidigen kann, wird die Zukunft zeigen. Derzeit gilt aber: Bei Google an »vernünftiger« Position gelistet zu sein, ist eigentlich ein Muss.
1.2.2 Wonach eigentlich gesucht wird Eine interessante Frage ist natürlich, wonach die Anwender eigentlich bei Google & Co am häufigsten suchen. Google Zeitgeist liefert aufschlussreiche Ergebnisse. Unter http://www.google.de/intl/de/press/zeitgeist.html stellt Google monatlich die Top Ten der beliebtesten Suchbegriffe der interessierten Öffentlichkeit zur Verfügung. Anhand der Zeitgeist-Liste kann man hervorragend nachvollziehen, wie sich die Suchbegriffe verändern. Führte im April 2002 der Film Ice Age noch die Hitliste an, so lauten jetzt die beliebtesten Begriffe Wikipedia und Tokio Hotel. Zunächst die Liste für April 2002: 1. Ice Age 2. Handyzubehoer Nokia 3. Servlet Schulung
16
Einführung
4. Hochzeit 5. Fussball 6. SMS Kostenlos 7. Deutsche Bahn 8. Aldi PC 9. Kommunion 10. Mallorca Und zum Beweis das geänderte Suchverhalten vom Februar 2006: 1. wikipedia 2. antivir 3. tokio hotel 4. valentinstag 5. heidi klum 6. torino games 7. 50 cent 8. icq 9. bmw 10. bushido Google Zeitgeist spiegelt natürlich nur die bei Google beliebtesten Suchbegriffe wider. So meldete Yahoo! zum Beispiel als Top-Suchbegriff Britney Spears. (Ob das ihrer Sangeskunst oder mangelnder Unterwäsche geschuldet ist, sei hier einmal dahingestellt.) Aktuelle Studien des Webstatistikers OneStat.com belegen, dass sich das Suchverhalten der Anwender weg von einzelnen Begriffen hin zu Begriffskombinationen und sogar Suchphrasen gewandelt hat. So gehen Experten davon aus, dass Einzel-Suchwörter nur noch von ca. 22 % aller Anwender genutzt werden. Die Anzahl der Mehrwörter-Suchanfragen macht längst den Löwenteil aus – für 2er 30 %, 3er 24 % und 4er 15 %. Aber nicht nur wie gesucht wird, auch wer sucht, ist entscheidend. Eine interessante Studie zum Suchverhalten von Internet-Nutzern hat iProspect (http://www.iprospect.com/) veröffentlicht. Dabei hat man 1.649 US-Probanden auf ihr Suchverhalten in Abhängigkeit von Bildung, Geschlecht, Häufigkeit der Internetnutzung und der vorhandenen Internet-Erfahrung getestet. Interessant sind vor allem die folgenden Erkenntnisse:
17
Kapitel 1
65 Prozent der User mit einer Festanstellung ziehen reguläre Suchergebnisse vor. Bei Arbeitslosen beträgt diese Quote 55 Prozent. Je erfahrener Anwender sind, umso seltener werden Paid Listings (bezahlte Sucheinträge) genutzt. 43 Prozent der weiblichen Nutzer finden bezahlte Suchergebnisse relevanter als reguläre Listings. Im Gegensatz dazu sind nur 34 Prozent der männlichen Benutzer dazu bereit, auf bezahlte Suchergebnisse zu klicken. Die Studie kommt zu dem Schluss, dass nur eine Kombination aus SuchmaschinenOptimierung und Paid Ads (bezahlte Suchergebnisse) letztendlich zum Erfolg führen wird. (Überraschen tut dieses Ergebnis freilich vor dem Hintergrund nicht, dass es sich bei iProspect um ein Suchmaschinen-Marketing-Unternehmen handelt.) Weiteres Fazit der Studie: Es wird immer wichtiger, es unter die Top 30 der Suchergebnisse zu schaffen. Und für all diejenigen, die immer noch glauben, SEO-Maßnahmen durch AdWord-Kampagnen ersetzen zu können, fördert die Studie eine fatale Erkenntnis zutage: Etwa 87 % aller kommerziellen Klicks wurden auf natürliche Ergebnisse und nicht auf AdWords abgegeben.
1.3 Von der Hommingberger Gepardenforelle zum Pommeranzer Seopard Im Jahr 2005 erhielt der SEO-Wettbewerb der Computer-Zeitschrift c’t eine riesige Resonanz. Ziel dieses Wettbewerbs war es, bei den Suchmaschinen Google.de, Yahoo.de, MSN.de und Seekport.de eine Top-Platzierung für den Begriff Hommingberger Gepardenforelle zu ergattern. Die Redakteure der c’t wollten damit einen Einblick in die Rankingmechanismen der Suchmaschinen und die aktuellen Entwicklungen im Bereich der Suchmaschinen-Optimierung erhalten. Und tatsächlich: Der Wettbewerb wurde ein riesiger Erfolg. Als Ausgangspunkt wurde die Hommingberger Gepardenforelle gewählt. Denn weder gibt es den Ort Hommingberg noch existiert eine Gepardenforelle. Die Hommingberger Gepardenforelle lieferte somit zu Beginn des Wettbewerbs keinen einzigen Suchtreffer. Das sollte sich allerdings binnen weniger Wochen drastisch ändern.
18
Einführung
Datum
Yahoo!
Google
MSN
Seekport
18. April 2005
752
979
730
2
25. April 2005
234.000
568.000
88.012
382
10. Mai 2005
549.000
1.122.000
30.296
79.216
14. Juni 2005
423.000
1.270.000
33.593
96.566
30. Oktober 2005
955.000
3.570.000
52.223
5.329
27. März 2006
459.000
1.830.000
44.241
105.627
18. Oktober 2006
351.000
613.000
923
70.517
Tabelle 1.3: Erfolg der Aktion in Zahlen
Wie der Wettbewerb ausging? Wenig überraschend landeten auf den vordersten Plätzen nicht die Seiten mit den besten Informationen zur Hommingberger Gepardenforelle, sondern diejenigen, deren Webmaster ihre Seiten am effizientesten für den SEO-Wettbewerb optimiert haben. Und genau hier kann der Ansatz für Ihre eigenen Projekte liegen. Denn zwar ist der Inhalt von Webprojekten wichtig, ebenso müssen diese aber auch so aufbereitet sein, dass sie von Suchmaschinen gefunden und möglichst weit vorn gelistet werden. Das notwendige Rüstzeug für dieses Vorhaben liefern die folgenden Kapitel. In guter c’t-Manier wird im Buch, dort wo es ohne ein konkretes Beispiel nicht geht, ein noch nicht belegter Suchbegriff verwendet. Was der c’t die Hommingberger Gepardenforelle ist diesem Buch der Pommeranzer Seopard (http://www.pommeranzerseopard.de/).
19
2
Funktionsweise von Suchmaschinen Wenn man verlauste Kleidung bei niedrigen Temperaturen wäscht, bekommt man nur saubere Läuse.
Bill Bryson, Eine kurze Geschichte von fast allem
Die Arbeitsweise von Suchmaschinen ist durchaus interessant. Denn für die Suchmaschinen-Optimierung ist es allemal wichtig, wenn man die hinter einer Suchanfrage ablaufenden Prozesse kennt und versteht. Dieses Kapitel bietet Ihnen eine kurze Einführung in das Thema Suchmaschinen-Architektur. Allzu sehr ins Detail soll an dieser Stelle allerdings nicht gegangen werden. Sollten Sie sich über dieses Buch hinausgehend mit diesem Thema beschäftigen wollen, gibt es durchaus interessante Webseiten und Literatur. Eine gute Anlaufstelle ist die Webseite von Dr. Dirk Lewandowski (http://www.durchdenken.de/ lewandowski/publikationen.php). Bevor es um die Architektur von Suchmaschinen geht, wird zunächst untersucht, welche Suchmaschinen-Varianten es eigentlich gibt. Denn schließlich muss man wissen, ob sich die Anmeldung bei einer bestimmten Suchmaschine überhaupt lohnt.
2.1 Suchmaschinen-Übersicht Nicht alles, was eine Suchmaske bereitstellt, ist auch tatsächlich eine Suchmaschine. (Auch wenn viele Internetnutzer gerne alles miteinander gleichsetzen.) Tatsächlich
Kapitel 2
verfolgen die Suchhilfen im Internet verschiedene Strategien und Ausrichtungen. Die Grobeinteilung sieht folgendermaßen aus: Suchmaschinen – Es handelt sich um indexbasierte Programme, die automatisch die Seiten des WWW2 durchsuchen und dabei ihre Datenbestände automatisch aktualisieren und erweitern. Suchmaschinen sind das derzeit mit Abstand wichtigste Medium zum Suchen von Informationen im WWW. Gleichzeitig stellen sie Webentwickler aber auch vor die größten Probleme. Denn will man seine Webseiten einer breiten Öffentlichkeit zugänglich machen, kommt man um die Optimierung seiner Seiten für Suchmaschinen nicht herum. Webkataloge – Das sind verzeichnisbasierte Suchhilfen. In diesen Verzeichnissen klickt man sich als Anwender durch komplexe Linkstrukturen. Der bekannteste Webkatalog dürfte immer noch Yahoo! (http://de.dir.yahoo.com/) sein. Die Aufnahme in Webkataloge ist allerdings oft kostenpflichtig.
Abbildung 2.1: So sieht ein typischer Webkatalog aus.
Neben diesen beiden Grundvarianten gibt es noch andere Arten von Suchhilfen. Bei diesen verteilten Suchdiensten werden die Informationen im Gegensatz zu zentral organisierten Suchdiensten allerdings dezentral verwaltet.
2
22
In diesem Buch wird der Fokus auf WWW-Suchmaschinen liegen. Es gibt aber auch Suchmaschinen für den lokalen Rechner oder kleinere Computernetzwerke.
Funktionsweise von Suchmaschinen
Spezialsuchmaschinen Metasuchmaschinen Das Grobraster haben Sie nun kennengelernt. Auf den nächsten Seiten wird mehr ins Detail gegangen, und die einzelnen Varianten werden genauer untersucht.
2.1.1 Webkataloge Webkataloge sind die einfachste Methode, seine eigenen Seiten prominent zu platzieren und sie einer breiten Öffentlichkeit zugänglich zu machen. Denn im Gegensatz zu anderen Suchdiensten setzen sie keinerlei technisches Verständnis oder Know-how voraus. Die Besucher können sich mithilfe übersichtlicher Katalogstrukturen ganz bequem zu den gewünschten Seiten »durchklicken«. Im Vergleich zu normalen Suchmaschinen hat die Benutzung reiner Kataloge in letzter Zeit zwar abgenommen, was allerdings nicht für alle Länder gilt. Während in Deutschland die Kataloge mehr und mehr ein Schattendasein führen, erfreuen sie sich in England großer Beliebtheit. Diesen Aspekt muss man berücksichtigen, wenn man die eigene Seite über die Landesgrenzen hinweg bekannt machen will. Trotz abnehmender Bedeutung, spielen Kataloge für die Suchmaschinen-Optimierung eine wichtige Rolle. Wird man in einem wichtigen Katalog, wie dem DMOZ (Open Directory Project), gelistet, erhält man dadurch wichtige Backlinks3, was dann wiederum zu einer besseren Positionierung in den Suchmaschinen führt. Sie sollten dafür sorgen, dass Ihre Seiten nach Möglichkeit in den folgenden Katalogen gelistet werden: DMOZ (http://www.dmoz.de/) Yahoo! (http://www.yahoo.de/) AllesKlar.de (http://www.allesklar.de/) Web.de (http://www.web.de/)
> >
>
HINWEIS
Neben diesen allgemeinen Katalogen, gibt es auch noch spezielle Themenkataloge. Auch dort sollten Ihre Seiten in den für Ihre Branche/Thema relevanten Katalogen aufgeführt sein. Am einfachsten finden Sie solche Kataloge, indem Sie in die Suchmaschinen Phrasen wie Link hinzufügen Seite vorschlagen und Ähnliches eingeben, wobei durch die entsprechende Branche zu ersetzen ist.
3
Aus Sicht einer Webseite sind das die Links, die auf die Seite zeigen.
23
Kapitel 2
2.1.2 Linklisten Bei Linklisten handelt es sich zwar um keine Suchmaschinen, fehlen dürfen sie in dieser Aufzählung trotzdem nicht. Die meisten Linklisten sind sogenannte »Free for all«Listen. Bei dieser Variante werden alle angemeldeten Seiten aufgenommen und den Besuchern in einer oder mehreren langen Listen angezeigt. Viele Eintragsdienste werben damit, dass sie Ihre Seiten in bis zu 20.000 Suchmaschinen eintragen. Dabei können Sie davon ausgehen, dass es sich bei 19.950 davon um diese unsäglichen, nicht redaktionell betreuten Listen handelt. Kaum jemand macht sich die Mühe, in diesen Listen nach interessanten Seiten zu suchen. Und auch das Argument, dass ein Eintrag in eine solche Liste die Linkpopularität und somit das Ranking der eigenen Seite positiv beeinflusst zieht nicht. Denn längst haben Suchmaschinen Algorithmen entwickelt, die diese Linklisten erkennen und Links von dort nicht mehr in die Bewertung der Seite einfließen lassen.
!
!
!
ACHTUNG
Egal was Ihnen Eintragsdienste oder gute Bekannte erzählen: Tragen Sie sich nicht in solche Linklisten ein. Denn da Sie dort auch meistens noch Ihre E-Mail-Adresse hinterlegen müssen, ist der einzige spürbare Effekt, ein deutlich höheres Spam-Mail-Aufkommen in Ihrem Posteingang.
2.1.3 Metasuchmaschinen Metasuchmaschinen sind besonders praktisch, schließlich erlauben sie die gleichzeitige Suche bei mehreren Suchdiensten von einer zentralen Eingabemaske aus. Diese Suchmaschinen-Art ist vor allem dadurch gekennzeichnet, dass sie keinen eigenen Datenbestand besitzt. Stattdessen greifen sie auf die Datenbestände anderer Suchmaschinen-Anbieter zu und binden diese in ihre Trefferlisten ein. Bei vielem was heute gemeinhin unter dem Namen Metasuchmaschine läuft, handelt es sich genau genommen nicht um Metasuchmaschinen. Ob Ihre Lieblingssuchmaschine eine echte Metasuche bietet, können Sie ganz einfach überprüfen. Bei einer Tagung im Jahr 1998 in Genf wurden Kriterien definiert, die eine Suchmaschine erfüllen muss, um als Metasuchmaschine zu gelten. Dabei gilt: Sechs der folgenden sieben Kriterien müssen mindestens erfüllt sein: Parallele Suche – Die Suche muss tatsächlich parallel laufen und es darf sich nicht um ein sogenanntes All-In-One-Formular handeln, das zum Beispiel durch ein CGI-Skript mehrere Suchmaschinen nacheinander abarbeitet. Ergebnis-Merging – Die gesammelten Ergebnisse müssen standardisiert präsentiert werden. Dubletten – Doppelte Einträge müssen erkannt und entfernt werden.
24
Funktionsweise von Suchmaschinen
Abbildung 2.2: Metacrawler zeigt an, aus welchen Suchmaschinen die Treffer stammen.
Operatoren – Es müssen zumindest die beiden Operatoren AND und OR benutzt werden und an die entsprechenden Suchmaschinen weitergeleitet werden können. Informationsverlust – Wird von einer Suchmaschine eine Kurzbeschreibung eines Suchtreffers angeboten, muss die mit übernommen werden. Search Engine Hiding – Die Eigenschaften der verwendeten Suchmaschinen dürfen auf die Benutzung der Metasuchmaschine keinen Einfluss haben. Vollständige Suche – Es muss so lange in den Trefferlisten der Suchmaschinen gesucht werden, bis diese keine weiteren Treffer mehr liefern. Diese Liste macht es nun einfacher, die echten von den unechten Metasuchmaschinen zu unterscheiden. Ein entscheidendes Problem der Metasuchmaschinen ist die Gewichtung innerhalb der Trefferliste. Denn natürlich haben auch die Betreiber von Metasuchmaschinen keinen Einblick in die Algorithmen von Google & Co. Und selbst wenn sie den Algorithmus kennen würden, gibt es da ein weiteres Problem: Die Ranking-Algorithmen lassen sich untereinander nicht vergleichen. Die meisten Metasuchmaschinen übernehmen ausschließlich die Suchergebnisse, lassen die Ranking-Positionen jedoch außer Acht. Stattdessen wird die Relevanz auf Basis der Worthäufigkeit in Bezug auf die Stichwörter selbst berechnet. Für diese Analyse werden die von der Suchmaschine übermittelten Daten wie URL, Titel und Kurzbeschreibung verwendet.
25
Kapitel 2
Abbildung 2.3: MetaGer, die älteste deutsche Metasuche, bietet zahlreiche Optionen.
2.1.4 Interessante Spezialsuchmaschinen Mittlerweile gibt es eigentlich kein Thema, für das nicht eine eigene Suchmaschine existiert. Diese sogenannten Spezial- beziehungsweise vertikalen Suchmaschinen ermöglichen zum Beispiel die Suche nach Telefonnummern, News und MP3-Dateien. Andere Spezialsuchmaschinen wiederum greifen auf die Indizes der großen Suchmaschinen zurück, bedienen sich dort aber nur bestimmter Segmente. Die Bedeutung der Spezialsuchmaschinen nimmt immer mehr zu. Denn für viele User ist die riesige Trefferzahl in den klassischen Suchmaschinen mittlerweile viel zu groß und unübersichtlich geworden. Auch wenn meistens auf Google als Suchmaschine zurückgegriffen wird, gibt es durchaus interessante Alternativen. Einige davon zeigt die folgende Liste:
Nachrichten und Blogs Paperball (http://www.paperball.de/) – Artikel Paperazzi (http://www.paperazzi.de/) – Artikel Technorati (http://www.technorati.com/) – Blogs Google Blog-Suche (http://www.google.de/blogsearch) – Blogs
26
Funktionsweise von Suchmaschinen
Musik und Video Music-Seek (http://www.music-seek.com/) – Musik AltaVista (http://de.altavista.com/audio/default) – Musik AltaVista (http://de.altavista.com/video/default) – Video
Personen/E-Mail/Telefon Bigfoot (http://www.bigfoot.com/) – E-Mail-Adressen Yahoo! People Search (http://people.yahoo.com/) – E-Mail-Adressen und Telefonnummern
Dateien/Programme FILEZ (http://www.filez.com/) – Dateien Jumbo (http://www.jumbo.com/) – Software Diese Liste ließe sich noch beliebig fortführen. Aber auch bei der vergleichsweise kleinen Auswahl wird deutlich, dass für fast jedes Thema eigene Suchmaschinen existieren. Und dabei spielt es keine Rolle, ob es sich um ein populäres Thema wie MP3 oder eher einen Randbereich wie die Psychologie4 handelt.
2.2 Architektur Nachdem Sie die verschiedenen Arten von Suchmaschinen kennengelernt haben, geht es auf den folgenden Seiten um deren Architektur. Für gewöhnlich bestehen Suchmaschinen aus den folgenden Komponenten: Spider – Die Daten werden gesammelt und in bestimmten Abständen aktualisiert. Indexer – Die gesammelten Daten werden auf bestimmte Schlüsselwörter hin untersucht und auf dieser Basis im inversen Index den Suchwörtern zugeordnet. Datenbank – Hier werden die indizierten Seiten gespeichert. Suchmaschinen-Algorithmus – Anhand ausgeklügelter Algorithmen werden die indizierten Seiten nach Relevanz bewertet. Eingabemaske – Im Frontend wird dem Benutzer eine Eingabemaske präsentiert, über die er seine Suchanfrage stellen kann.
4
Wobei die Psychologie an sich natürlich interessant und keinesfalls nur ein Randthema ist.
27
Kapitel 2
Der URL-Server, ein oder mehrere Crawler, der Parser und der Storage-Server bilden dabei die Webcrawler-Komponente der Suchmaschine. Diese durchläuft das WWW und indexiert alle gefundenen Daten. Aufbereitet werden sie in den Datenstrukturen Lexikon, Hit Lists und Repository. Der Besucher kann diese Datenstrukturen mit einem Searcher durchsuchen. Der genaue Aufbau variiert in der Praxis von Suchmaschine zu Suchmaschine. Die genannten Kernkomponenten kommen aber normalerweise überall vor.
2.2.1 URL-Server Die Aufgabe des URL-Servers besteht darin, die noch zu verarbeitenden URLs zu verwalten. Sobald der Crawler wieder bereit ist, beziehungsweise Kapazitäten frei hat, werden die URLs an ihn übergeben. Der Server hat zusätzlich die Aufgabe, zu entscheiden, in welcher Reihenfolge die URLs abgearbeitet werden sollen. Es können allerdings ausschließlich Seiten erfasst werden, auf die bereits von anderen Seiten verlinkt wurde. Um auch nicht verlinkte Seiten indexieren zu können, bieten die meisten Suchmaschinen die Möglichkeit der manuellen Seitenanmeldung.
2.2.2 Crawler Der Crawler bildet das Herzstück der Suchmaschine. Seine Aufgabe besteht darin, die verschiedenen URLs aufzurufen und Kopien der Seiten an den Parser zu übergeben. Mithilfe des Domain Name Service (DNS) wird der URL in eine IP-Adresse umgewandelt. Anschließend versucht der Crawler, zu dem entsprechenden Server eine Verbindung herzustellen. Aufgrund langer Latenzzeiten werden immer mehrere URLs parallel abgearbeitet. Um die Server bei der Abfrage nicht zu sehr zu belasten, existiert das ungeschriebene Gesetz, dass die Abfragen dem Server nicht mehr als ein Prozent der Systemressourcen stehlen dürfen. Für den Fall, dass ein URL nicht erreichbar ist, wird er zurückgestellt und zu einem späteren Zeitpunkt erneut besucht.
> >
>
HINWEIS
Das Verhalten des Crawlers kann vom Seitenbetreiber beeinflusst werden. So kann man ihm explizit mitteilen, welche Seiten er nicht indexieren soll. Realisieren lässt sich das zum Beispiel über Metatags und die Datei robots.txt.
2.2.3 Parser Der Parser ist für die Aufbereitung der vom Crawler gesammelten Dokumente verantwortlich. Ausführliche Informationen zum Parser und den Prozessen, die Dokumente in ihm durchlaufen müssen, erhalten Sie im weiteren Verlauf dieses Kapitels.
28
Funktionsweise von Suchmaschinen
2.2.4 Store Server Der Store Server (Indexer) hat die Aufgabe, aus den vom Parser erhaltenen Ableitungsbäumen, die für die Suchmaschine wichtigen Informationen zu extrahieren. Das sind zunächst einmal die Links auf andere Seiten, die dem URL-Server übergeben werden. Über einen Filter kann man definieren, welche URLs dabei indexiert werden sollen. Die Texte der eingelesenen Seiten werden anschließend nach neuen Wörtern durchsucht. Sollten neue Wörter gefunden werden, wird das Lexikon entsprechend erweitert. Für jedes Wort der Seite wird innerhalb der Hit List festgehalten, wie oft es vorkommt. Zum Abschluss wird ein Teil der Seite im Repository gespeichert.
2.2.5 Lexikon Im Lexikon sind alle Wörter hinterlegt, die der Crawler aus dem Netz zusammengetragen hat. Lediglich Stoppwörter (z.B. die Artikel der, die, das, usw.) werden nicht in das Lexikon aufgenommen. Zu jedem abgespeicherten Wort gibt es wenigstens einen Verweis auf die entsprechende Hit List.
2.2.6 Hit List In der Hit List ist zu jedem Wort des Lexikons eine Menge von Verweisen auf die Seiten im Repository enthalten, in denen es vorkommt. Bei einer Suchanfrage muss dadurch nicht der gesamte Datenbestand durchsucht werden, sondern die Seiten zu den Suchwörtern lassen sich schnellstmöglich berechnen.
2.2.7 Repository Im Repository werden alle Informationen der indexierten Seiten als lokale Kopie gespeichert, die zur Ausgabe der Ergebnisse benötigt werden. In diesem Datenspeicher sind überwiegend Webseiten mit HTML-Code enthalten. Eine Sortierung der Datensätze findet normalerweise nicht statt. Stattdessen erfolgt eine Nummerierung in der Reihenfolge des Eingangs. Zusätzlich werden URL-Länge, der URL sowie Länge und Größe der Ressource gespeichert. Was genau gespeichert wird, ist allerdings von Suchmaschine zu Suchmaschine unterschiedlich. Während manche Suchdienste ausschließlich den Titel speichern, nehmen andere die ersten 20 Wörter auf. Mittlerweile gibt es sogar immer mehr Suchmaschinen, die die gesamte Seite speichern. Damit sich der vorhandene Speicherplatz effektiv nutzen lässt, werden die gesammelten Daten ausschließlich komprimiert abgelegt. Eine wichtige Entscheidung ist dabei, ob der Fokus auf Qualität oder Geschwindigkeit der Kompression gesetzt wird. Die stärkste Komprimierung wird allerdings nur in sehr seltenen Fällen gewählt, da dadurch nicht nur die Suche sehr lange dauern würde, auch das Komprimieren selbst würde sich unnötig in die Länge ziehen.
29
Kapitel 2
Ob das Erstellen der Daten, ihre Komprimierung und Speicherung vom Store Server oder dem Repository übernommen wird, hängt von der vorhandenen Systemarchitektur ab. Sobald eine neue Version eines bereits vorhandenen Dokuments entdeckt wird, wird der vorhandene Eintrag durch die aktualisierte Version ersetzt.
2.2.8 Searcher Der Searcher ist die Komponente, mit der der Suchmaschinen-Nutzer direkt in Berührung kommt. Es handelt sich um die Startseite des Servers, die ein Suchformular enthält, über das die Suchanfrage gestellt wird. Sobald der Searcher eine Suchanfrage erhält, generiert er mithilfe des Lexikons und der Hit Lists die Ergebnismenge. In welcher Reihenfolge die Ergebnisse tatsächlich angezeigt werden, hängt von den verwendeten Algorithmen ab. Auf die Algorithmen wird im weiteren Verlauf dieses Buches noch ausführlich eingegangen.
2.3 Dokumente analysieren Suchmaschinen sind dazu da, auf Basis von eingegebenen Suchbegriffen relevante Dokumente zu finden. Wie das funktioniert und welche Aufgaben dabei vom Crawler übernommen werden, haben Sie im vorherigen Abschnitt erfahren. Nur, das Sammeln von Informationen allein ist lediglich der erste Schritt. Denn die vom Crawler beschafften Daten müssen anschließend in den Index aufgenommen werden. Der SuchmaschinenIndex ist dabei mit dem Index eines Buches vergleichbar. Die Aufgabe, auf Basis des Indexes dem Benutzer für seine Suchanfrage gute Ergebnisse zu liefern, fällt dabei dem Information-Retrieval-System zu. Aufgeteilt ist diese Aufgabe in die folgenden drei Bereiche: Datennormalisierung Datenanalyse Aufbau des Indexes Ausgangspunkt sind die vom Crawler gesammelten Dokumente im Repository. Liest ein Information-Retrieval-System Dokumente ein, erkennt es zunächst einmal keinerlei Struktur, sondern sieht lediglich eine Ansammlung einzelner Zeichen. Ziel des Information-Retrieval-Systems ist es nun, aus diesen Zeichen Stichwörter zu extrahieren.
2.3.1 Datenaufbereitung Für die Aufarbeitung der Daten ist der Parser zuständig. Der Parser liest Dokumente aus dem Repository ein und lässt sie einen mehrstufigen Prozess durchlaufen. Auf dieser Basis werden alle eingelesenen Dokumente in das gleiche Format gebracht. Das hat
30
Funktionsweise von Suchmaschinen
zwei Vorteile: Die Dokumente liegen in einem gut weiterzuverarbeitenden Format vor und überflüssige Daten werden entfernt. Für die Datenaufbereitung wendet der Parser verschiedene Prozesse an, die jedes Dokument durchlaufen muss. Welche das sind, und in welcher Form sie eingesetzt werden, zeigen die folgenden Seiten:
Datennormalisierung Das vom Crawler eingelesene Dokument muss zunächst in das entsprechende Standardformat gebracht werden. Denn nur, wenn alle Dokumente in der gleichen Form vorliegen, können die weiteren Prozesse zuverlässig durchgeführt werden. Dabei muss zunächst der Informationsmüll entfernt werden. Bezogen auf Webseiten ist das zum Beispiel der HTML-Code, wobei die Textauszeichnungen des Dokuments wie Dokumenttitel und Überschriften allerdings erhalten bleiben. So erkennt der Parser zum Beispiel den Dokumenttitel einer Webseite, indem er die Position des -Tags ermittelt und die darin enthaltenen Informationen extrahiert. Hat sich der Autor des Dokuments allerdings bei der Definition des -Tags vertippt und zum Beispiel geschrieben, kann der Parser den Dokumenttitel nicht extrahieren. Wichtige Informationen gehen somit verloren.5 Dieser Aspekt macht deutlich, wie wichtig korrektes HTML für Webseiten sein kann. Auf die gleiche Weise analysiert der Parser anschließend den Dokumentkörper und extrahiert die relevanten Informationen aus den entsprechenden Tags. Als Ergebnis der Datennormalisierung gewinnt der Parser ein Dokument, in dem nicht mehr eine einzige große Aneinanderreihung von Zeichen steht. Stattdessen existieren nun mehrere kleine Zeichen-Aneinanderreihungen.
Wortidentifikation Im nächsten Schritt werden aus den vorhandenen Zeichen-Aneinanderreihungen »richtige« Wörter extrahiert. Dieses Problem lässt sich auf den ersten Blick relativ einfach lösen. Denn schließlich braucht man innerhalb des Dokuments nur nach Leerzeichen Ausschau zu halten, und schon kann man die einzelnen Wörter extrahieren. Bei genauerer Betrachtung ist diese Methode allerdings zu ungenau. Denn oft gibt es Wörter, die nur dann einen Sinn ergeben, wenn sie in Wortgruppen auftauchen. Dieses Phänomen taucht vor allem in der englischen Sprache auf. In der deutschen Sprache wiederum werden Wörter oft durch Bindestriche verbunden, um die Lesbarkeit zu erhöhen. Die Unterschiede in den jeweiligen Sprachen stellen für Parser eine enorme Schwierigkeit dar. Denn wie soll er erkennen, auf welche Weise er den Text in einzelne Tokens zerlegen soll? Der Parser bedient sich hier verschiedener Separatoren. In westlichen 5
Die Parser sind in gewisser Hinsicht fehlertolerant und ignorieren kleine Vertipper.
31
Kapitel 2
Suchmaschinen kommen vor allem Leer- und Satzzeichen zum Einsatz. Bestimmte Sonderzeichen werden hingegen gleich ganz herausgefiltert. So bringt die Suche nach Plus- oder Fragezeichen in Google keine Ergebnisse, da diese Zeichen herausgefiltert und als Wortseparatoren verwendet werden.
Abbildung 2.4: Google filtert ganz offensichtlich das Pluszeichen.
Welche Zeichen innerhalb eines Wortes zulässig sind, definiert die Suchmaschine in einer Liste. In einer weiteren Liste sind die Zeichen enthalten, die als Wortseparatoren dienen. Der Parser überprüft das Dokument und testet jedes Zeichen dahingehend, in welcher der Listen es vorkommt. Solange der Parser auf zulässige Zeichen stößt, wird es an einen bestimmten Speicherplatz gelegt. Stößt er allerdings auf ein Zeichen aus der Liste der Wortseparatoren, werden die bis dahin gesammelten Zeichen als Wort zusammengefasst. Dieses Wort wiederum wird in die Liste der zu extrahierenden Wörter aufgenommen.
Sprachzuordnung Bei der Benutzung von Suchmaschinen will man normalerweise ausschließlich Ergebnisse, die in seiner Muttersprache verfasst sind. Wer die deutschsprachige GoogleSuche verwendet, möchte deutschsprachige Suchergebnisse.6 Französische oder chinesische Seiten möchte man hingegen eher selten lesen. Damit eine Trennung der Seiten nach Sprache möglich ist, muss der Parser die Sprache der jeweiligen Dokumente richtig einschätzen. Zur Ermittlung der Dokumentsprache wird eine Kombination aus 6
32
Wobei das natürlich vom Thema abhängt.
Funktionsweise von Suchmaschinen
Wörterbuch-Erkennung und statistischen Verfahren herangezogen. Auf die entsprechenden Metatag-Angaben von Seitenbetreibern verlassen sich die Suchmaschinen hingegen nicht. Ausführliche Informationen zu dem statistischen Verfahren nach den HiddenMarkov-Modellen finden Sie unter http://www.fh-wedel.de/~si/seminare/ss01/ Ausarbeitung/a.sprache/gdlgsprerk34.htm.
Word Stemming Hat der Parser die Dokumentsprache ermittelt, werden die Wörter auf ihren Stamm reduziert. Das Prinzip des Word Stemmings ist Ihnen sicherlich bereits bei Ihren Suchanfragen aufgefallen. Denn was passiert zum Beispiel, wenn Sie bei Google nach Zitrone suchen?
Abbildung 2.5: Google beherrscht das Word Stemming.
Google liefert brav Seiten, auf denen Zitrone steht. Ebenso werden aber auch Treffer angezeigt, in denen der Begriff Zitronen vorkommt. Die Suchmaschine muss dazu den Wortstamm ermitteln und sinngleiche Wörter auf den Stamm zurückführen. Für die Indexierung hat das Stemming enorme Vorteile, bewirkt es doch eine Verkleinerung der Indexdateien.
33
Kapitel 2
Bei Google können Sie das Word Stemming übrigens deaktivieren. Dazu brauchen Sie vor den jeweiligen Begriff nur das Pluszeichen zu setzen.
Abbildung 2.6: Plötzlich taucht nur noch die Zitrone auf.
Eine andere Stemming-Möglichkeit ist die Trunkierung. Die setzt allerdings entsprechendes Wissen seitens des Anwenders voraus. Denn für die Trunkierung müssen spezielle Operatoren gesetzt werden. Der bekannteste Trunkierungsoperator ist sicherlich *. Gibt man zum Beispiel Zitrone* ein, findet die Suchmaschine7 auch Zitroneneis, Zitronensäure usw. Allerdings wird von den Suchmaschinen anstelle der Trunkierung das Verfahren des Word Stemmings verwendet. Derzeit steckt das Word Stemming noch in den Kinderschuhen und wird von den Suchmaschinen nicht konsequent eingesetzt.
7
34
Die großen Suchmaschinen wie Google, Yahoo! und MSN/Live beherrschen die Trunkierung nicht.
Funktionsweise von Suchmaschinen
Stoppwörter Dokumente mit Fließtext enthalten wichtige und weniger wichtige Wörter. Um nur die für den Inhalt relevanten Wörter in den Index aufzunehmen, werden automatisch alle Wörter entfernt, die in der sogenannten Stoppwortliste enthalten sind. In dieser Liste sind alle Wörter enthalten, die nichts zur Semantik von Dokumenten beitragen. Hier eine Auswahl typischer deutscher Stoppwörter: ein, eine, und, oder, der, die, das Alle im Dokument vorhandenen Wörter werden mit dieser Liste abgeglichen. Stößt der Parser auf ein Stoppwort, wird es aus dem Text entfernt und nicht indexiert. Welche Stoppwörter von den Suchmaschinen verwendet werden, kann man durch einfache Tests herausfinden. Gibt man zum Beispiel bei Google den Suchterm eine tolle suche ein, ergibt sich folgendes Bild:
Abbildung 2.7: So überprüft man, welche Stoppwörter von Google verwendet werden.
> >
>
HINWEIS
Offensichtlich steht das Wort eine auf der Stoppwortliste. Allerdings hat das Stoppwort-Filterverfahren einen entscheidenden Nachteil: Denn möglicherweise erwünschte Suchergebnisse erscheinen gar nicht erst in den Trefferlisten. Deswegen gehen immer mehr Suchmaschinen zu einer Vollindexierung über.
35
Kapitel 2
Keyword-Extrahierung Der letzte Schritt der Dokumentanalyse besteht im Ermitteln der für einen Text relevanten Schlüsselwörter. Unter Schlüsselwörtern sind dabei die Begriffe zu verstehen, die den Inhalt des Dokuments am besten beschreiben. Ausführliche Informationen, wie Suchmaschinen Schlüsselwörter erkennen und welche Auswirkungen das auf die Suchmaschinen-Optimierung hat, erhalten Sie im weiteren Verlauf dieses Buches. An dieser Stelle ist zunächst lediglich der Aspekt entscheidend, dass aus dem gesamten Dokument mithilfe verschiedener Verfahren (zipfsches Gesetz) die wichtigsten Schlüsselwörter des Dokuments in den Index aufgenommen werden.
2.4 Vor diesen Problemen stehen Suchmaschinen Normalerweise wird davon ausgegangen, dass man als Webentwickler Schwierigkeiten mit der Optimierung seiner Seiten für Suchmaschinen hat. Was viele Vergessen: Auch Suchmaschinen haben ihre Probleme und Sorgen und sehen sich Widrigkeiten ausgesetzt. Die wichtigsten »Störfaktoren« in der Übersicht: Große Datenmengen – Das Internet wächst so rasant, dass Suchmaschinen mit dem Indexieren schlichtweg überfordert sind. So hat zwar allein Google ca. 20 Milliarden Seiten indexiert, aber auch diese enorme Zahl entspricht nur einem Bruchteil der tatsächlich vorhandenen Seiten. Erschwerend kommt hinzu, dass Seiten aus dem sogenannten Deep Web von Suchmaschinen überhaupt nicht indexiert werden können. Zu diesem Deep Web gehören unter anderem passwortgeschützte Seiten und solche, die man erst nach Anerkennung der Nutzungsbedingungen betreten kann. Wie groß das Deep Web tatsächlich ist, lässt sich nur schätzen. Man geht allerdings davon aus, dass es ein Vielfaches des direkt zugänglichen Webs umfasst. Einer Studie aus dem Jahr 2001 (http://www.brightplanet.com/resources/details/ deepweb.html) schätzt, dass das Deep Web 500 Mal größer als das sichtbare Web sein soll. Aktualität – Es gibt Seiten, die werden einmal im Monat aktualisiert, während sich der Datenbestand anderer Seiten im Stunden- oder sogar Minutentakt verändert. Suchmaschinen werden dadurch gezwungen, Seiten sehr oft zu indexieren, um so immer auf einem vergleichsweise aktuellen Stand zu sein. Das verursacht für die Suchmaschinen-Betreiber enormen Datenverkehr und somit auch Kosten. Verständnis – Aus der Sicht von Suchmaschinen wissen die Suchenden nicht, wonach sie eigentlich suchen beziehungsweise wie sie es einer Suchmaschine verständlich machen. So ist der Begriff Rechner in der echten Welt weit verbreitet. Suchmaschinen bevorzugen möglicherweise aber das Wort Computer. Ebenso bereiten auch grammatikalische »Stilblüten« Probleme. So sind für den Menschen Zeitung und Zeitungen zwei Wörter, die das gleiche beschreiben. Die Suchmaschine
36
Funktionsweise von Suchmaschinen
hingegen listet möglicherweise zwar alle Seiten auf, die den Begriff Zeitung enthalten, die Zeitungen-Seiten tauchen in der Trefferliste aber nicht auf. Viele Suchmaschinen umgehen diese Probleme durch die Möglichkeit sogenannte Wildcards einsetzen zu können. So berücksichtigt die Suche nach Zeitung* dann auch Zeitungen oder Zeitungsständer. Allerdings setzen Wildcards voraus, dass der Anwender sie kennt und einzusetzen weiß. (Beides ist oft leider nicht gegeben.) Spam – Die meisten kommerziell erfolgreichen Webseiten verdanken ihren Erfolg ausschließlich einer guten Platzierung in den Suchmaschinen. Kein Wunder also, dass Webseitenbetreiber immer wieder durch zweifelhafte Methoden versuchen, ihr Ranking zu verbessern. Dieses sogenannte Suchmaschinen-Spamming bereitet gleich in mehreren Bereichen Probleme. Zunächst einmal werden die Suchmaschinen-Betreiber gezwungen, immer wieder neue Algorithmen zu entwickeln, um den Spammern auf die Schliche zu kommen. Aber auch aus Sicht der Suchenden ist das Suchmaschinen-Spamming ein äußerst ärgerliches Phänomen. Denn man bekommt oft nicht mehr die für sich besten Seiten zuerst angezeigt, sondern die, die von den Spammern am besten optimiert wurden.8 Rechtsfragen – Die meisten Suchmaschinen agieren international. Als Benutzer, der aus Deutschland eine Suchanfrage stellt, bekommt man so zum Beispiel oft Ergebnisse von einem Server geliefert, der in den USA steht. Das Problem hierbei: Die Gesetzgebung ist in den einzelnen Ländern verschieden. So ist in einigen Ländern legal, was in anderen auf dem Index steht. Prominentestes Beispiel für die Zensur in einzelnen Ländern dürften sicherlich die Seiten von Yahoo! in China sein.9 So werden dort zum Beispiel Suchergebnisse zu Themen wie Demokratie und Tibet beschnitten. Yahoo! ist damit aber nicht allein. Die chinesische Regierung hat zahllose Portale aufgefordert, sich dieser Zensur anzuschließen. Und man kann davon ausgehen, dass die meisten Suchdienste und Portale diesem Ruf gefolgt sind.
8 9
In aktuellen Studien wird davon ausgegangen, dass jeder vierte Suchtreffer eine Spam-Seite ist. Wobei natürlich nicht nur in China eine Zensur stattfindet. Auch deutsche Suchmaschinen-Betreiber zensieren Suchergebnisse ganz gezielt. Dabei geht es übrigens nicht nur um Seiten mit pornografischen Inhalten, auch „normale“ Seiten werden oftmals aus dem Index entfernt. Ein interessantes Beispiel dazu finden Sie unter http://www.internetmarketing-news.de/2006/10/23/ zensiert-google-deutschland-ubereifrig/.
37
3
So werden Suchergebnisse gewichtet Es ist schon lange einer meiner Grundsätze, dass die kleinsten Dinge bei Weitem die wichtigsten sind.
Sir Arthur Conan Doyle, britischer Arzt und Kriminalautor
Bevor Sie Ihre Seiten optimieren können, müssen Sie wissen, nach welchen Kriterien Suchmaschinen die Relevanz von Suchergebnissen bestimmen. Wie kommt es, dass eine Seite auf Platz 100 geführt wird, während die andere auf Platz 1 steht? Diese Aspekte sind nicht nur wichtig, sondern dazu auch noch interessant. Denn wer versteht, wie Suchmaschinen »ticken«, kann sie auch für seine eigenen Recherchen besser nutzen und so möglicherweise noch bessere Suchergebnisse erzielen. Im ersten Teil dieses Kapitels geht es um die Relevanzermittlung. Das sind die Kriterien nach denen Suchmaschinen festlegen, wie gut eine Seite einer Suchanfrage entspricht. Anschließend wird der Fokus auf den PageRank der Suchmaschine Google gerichtet und gezeigt, wie man mit einfacher Mathematik den Google-Algorithmus entschlüsseln10 und das gewonnene Wissen für die Optimierung seiner eigenen Seite nutzen kann.
10 Zugegeben, völlig entschlüsselt wird er auch in diesem Buch nicht. Denn den genauen Algorithmus hält die Firma Google geheim.
Kapitel 3
3.1 Statische Modelle Auf den folgenden Seiten erhalten Sie einen Überblick über die wichtigsten Information-Retrieval-Modelle. Wobei unter dem etwas »schwer« anmutenden Begriff Information-Retrieval nichts anderes als die Informationsbeschaffung beziehungsweise Informationswiedergewinnung verstanden wird.
3.1.1 Das boolesche Modell: Suchen mit Operatoren Im booleschen Modell wird streng nach dem Prinzip der exakten Übereinstimmung gearbeitet. Ein Dokument erscheint nur dann in der Ergebnisliste, wenn es den Suchbegriff exakt in der Form enthält, in der er eingegeben wurde. Das binäre Prinzip erlaubt nur die beiden Zustände 1 und 0. Wobei unter 1 (true) wahr und unter 0 (false) falsch zu verstehen ist. Mittelwerte wie ein möglicherweise gibt es nicht. Um Suchanfragen zu formulieren, stehen klassischerweise die drei Operatoren AND, NOT und OR zur Verfügung. In manchen Systemen kann zusätzlich der Operator XOR (ausschließendes Oder) verwendet werden. Was die einzelnen Operatoren bewirken, zeigt die folgende Tabelle: Beispiel
Beschreibung
Wort1 AND Wort2
Es werden nur Dokumente angezeigt, in denen Wort1 und Wort2 stehen.
Wort1 NOT Wort2
Das System zeigt ausschließlich Dokumente, die zwar Wort1 enthalten, in denen aber nicht Wort2 steht.
Wort1 OR Wort2
In der Trefferliste erscheinen auch solche Dokumente, die entweder nur Wort1 oder nur Wort2 enthalten.
Wort1 XOR Wort2
Im Dokument muss entweder Wort1 oder Wort2 stehen.
Tabelle 3.1: Die booleschen Operatoren am Beispiel erklärt
Neben den Operatoren besteht die zusätzliche Möglichkeit der Klammersetzung, um so komplexere Suchanfragen abzugeben. In der Erweiterung des booleschen Modells stehen sogenannte Abstandsoperatoren zur Verfügung, über die sich die Treffermenge weiter einschränken lässt. Die meisten Suchmaschinen ermöglichen heute die Suche anhand boolescher Operatoren. Diese Suchvariante hat allerdings mehrere Nachteile: Viele, eigentlich relevante Dokumente, werden nicht gefunden, da sie die Anfrage nur teilweise erfüllen. Ein Ranking der Ergebnisse findet nicht statt. Die Relevanz der Begriffe innerhalb der Anfrage wird im Text nicht berücksichtigt. Für den »Normalbürger« ist allein der Begriff boolescher Operator abschreckend und er kann mit NOT und AND nichts anfangen.
40
So werden Suchergebnisse gewichtet
Für große Datenmengen, wie sie im Internet verfügbar sind, eignet sich das boolesche Modell somit weniger. Schließlich ist gerade dort die unterschiedliche Relevanzbeurteilung der Dokumente von enormer Bedeutung. Denn Dokumente werden in booleschen Systemen bereits dann als relevant eingestuft, wenn sie die Anfrage erfüllen. Der Grad der Relevanz spielt dabei keine Rolle. Hier setzen Suchmaschinen auf zusätzliche Methoden, wie relative Worthäufigkeit und Keyword-Nähe. Dazu aber später mehr. Das boolesche Modell bildet in den Suchmaschinen dennoch die Basis des Matchings. Dabei werden zunächst die relevanten Dokumente mithilfe des booleschen Modells ermittelt, bevor sie anschließend über verschiedene Rankingverfahren in die richtige Reihenfolge gebracht werden.
Abbildung 3.1: Google ermöglicht die Suche mit booleschen Operatoren.
3.1.2 Unscharfe Suche mit der Fuzzy-Logik Das boolesche Modell liefert sehr oft äußerst umfangreiche Ergebnislisten und auch die Trennung der gefundenen Dokumente ist sehr streng. Entweder ist die Suchanfrage für ein Dokument wahr oder sie ist falsch. Ein möglicherweise oder vielleicht gibt es nicht. Hier setzt die Fuzzy-Logik an. Diese Methode lässt neben wahr und falsch auch abgestufte Werte zu. Für konventionelle Datenbanken und wissenschaftliche Systeme ist die Fuzzy-Logik durchaus interessant. Eine typische Abfrage einer Datenbank auf Fuzzy-Logik-Basis könnte zum Beispiel folgendermaßen aussehen: Stichwort 'seopard' UND 'heimat' Datum 'moeglichst nach 2005' Das System soll in diesem Beispiel auch solche Dokumente liefern, die kurz nach dem Jahr 2005 entstanden sind und in denen möglicherweise nur eines der beiden Stichwörter enthalten ist.
41
Kapitel 3
Für WWW-Suchmaschinen hat sich die Fuzzy-Logik allerdings nicht bewährt, da hier eine solche Ungenauigkeit nicht gewollt ist. Denn zwar kann man durch eine detaillierte Abstufung auf das Ranking der Dokumente in der Trefferliste Einfluss nehmen, andere Modelle sind dafür aber besser geeignet. Weiterführende Informationen Da das Fuzzy-Logik-Modell in den WWW-Suchmaschinen keine Rolle spielt, wurde es hier nur kurz angerissen. Interessant ist das Thema aber allemal. Ingo R. Homann hat eine Dissertation mit dem Titel »Fuzzy-Suchmethoden im Information-Retrieval« geschrieben, die allen interessierten Lesern unter http://bieson.ub.uni-bielefeld.de/volltexte/2004/516/pdf/diss.pdf zur Verfügung steht.
3.1.3 Ähnlichkeitensuche mit dem Vektorraummodell Es ist durchaus ein Problem, wenn Modelle ausschließlich auf der Basis der exakten Übereinstimmung zwischen Suchbegriff und Dokument arbeiten. Auf diese Nachteile – die natürlich auch und vor allem für WWW-Suchmaschinen äußerst relevant sind – wurde bereits hingewiesen. Das größte Problem für WWW-Suchmaschinen ist aber zweifellos, dass durch rein boolesche Verfahren viele irrelevante Dokumente gefunden werden, in denen der Suchbegriff zwar enthalten ist, dort aber in einem völlig anderen Kontext steht, als vom Suchenden erwartet. Andererseits werden relevante Dokumente unterschlagen, nur weil in ihnen der Suchbegriff nicht in exakt der gleichen Form steht, wie er in die Suchanfrage eingegeben wurde. Das Vektorraummodell versucht diese Problematik zu umgehen, indem nicht mehr nach exakten Übereinstimmungen zwischen Suchbegriff und Dokument, sondern nach Ähnlichkeiten zwischen Dokument und Suchanfrage oder zwischen mehreren Dokumenten gesucht wird. Dazu werden die Suchanfrage und die Stichwörter der Dokumente in Vektoren umgewandelt. Anschließend wird berechnet, in welcher Nähe sich die Vektoren zueinander befinden. Realisiert wird dies anhand eines durch die Terme aufgespannten vieldimensionalen Vektorraums, in dem jeder Term eine Dimension darstellt. Bei zwei Termen besitzt der Vektor zwei Dimensionen, bei drei Termen drei Dimensionen und so weiter. Jedes Dokument wird durch einen Vektor repräsentiert, in dem alle für die Indexierung verwendeten Deskriptoren enthalten sind. Berechnet man den Kosinus des Winkels zwischen zwei Dokumenten beziehungsweise zwischen einer Suchanfrage und einem Dokument, lässt sich so deren Ähnlichkeit berechnen. Dabei gilt: Je kleiner der Winkel, umso ähnlicher sind sich Suchanfrage und Dokument. Das folgende Beispiel soll diesen Aspekt verdeutlichen. In einem Dokument steht unter anderem folgender Text: Es gibt im Zoo nur einen Seopard. Der andere Seopard ist weg.
42
So werden Suchergebnisse gewichtet
Aus diesem Text werden bei der Stoppwort-Erkennung11 bereits zahlreiche Terme entfernt. Übrig bleiben Zoo und Seopard. In diesem Beispiel erhält man also einen zweidimensionalen Vektor. DV = (1,2) Dabei kommt der Term Zoo einmal, der Term Seopard zweimal vor. Der so ermittelte Vektor wird für jedes indexierte Dokument berechnet. Allerdings sollen die Dokumente nicht untereinander, sondern mit einem von einem Benutzer eingegebenen Suchbegriff verglichen werden. Eine typische Suchanfrage könnte folgendermaßen aussehen: Wo ist der Seopard? Auch hier würden wieder die Stoppwörter entfernt werden, wodurch am Ende der Term Seopard in einen zweidimensionalen Vektor umgewandelt wird. SV = (0,1) Für die Dimensionen, die keine Entsprechung in der Suchanfrage haben, wird eine Null eingetragen. Bei der Berechnung der Ähnlichkeit werden anstelle der tatsächlichen Begriffsanzahl die beiden Zustände vorhanden und nicht vorhanden verwendet. Normalisiert man den Dokumentvektor (1,2) binär, ergibt sich für ihn der Vektor (1,1). DV = (1,1) SV = (0,1) Je näher sich diese beiden Kosinus-Werte sind, umso exakter passt das Dokument zur Suchanfrage. Das Vektorraummodell hat den Vorteil, dass der Benutzer nicht mit Operatoren hantieren muss und somit problemlos damit zurechtkommt. Allerdings hat das Modell auch einige Nachteile. So wird zum Beispiel davon ausgegangen, dass die eingegebenen Suchbegriffe voneinander völlig unabhängig sind. Und auch was für Anfänger möglicherweise ein Vorteil ist, ist für erfahrene Anwender eher schlecht, nämlich das Fehlen von Operatoren. Will man eine wirklich sinnvolle Anfrage stellen, muss man vergleichsweise viele Suchbegriffe angeben.
> >
>
HINWEIS
Aus Sicht der Suchmaschinen ist das Vektorraummodell dahingehend interessant, dass mit ihm das Ranking nach Relevanz der Treffer eingeführt wurde. Das führt dazu, dass man in Suchmaschinen die relevantesten Treffer auf den vorderen Ranking-Plätzen angezeigt bekommt.
11 Stoppwörter sind Wörter, die nur eine geringe oder gar keine inhaltliche Bedeutung für den Text haben.
43
Kapitel 3
3.1.4 Probabilistisches Modell: Das relativ beste Suchergebnis Bei diesem Modell wird davon ausgegangen, dass aufgrund der natürlichen Sprache nicht garantiert werden kann, dass ein Dokument für eine Suchanfrage tatsächlich relevant ist. Vielmehr wird immer nur die relativ beste Lösung präsentiert und im Allgemeinen existiert keine eindeutig beste Lösung. Die Grundfrage beim probabilistischen Modell lautet somit: Wie groß ist die Wahrscheinlichkeit, dass ein Dokument für eine Anfrage als relevant eingeschätzt wird? Würde man für alle Dokumente diese Wahrscheinlichkeit kennen, könnte man die Dokumente anhand dieser Wahrscheinlichkeit sortieren und die mit der größten Wahrscheinlichkeit ausgeben. Allerdings ist die Wahrscheinlichkeit nicht unmittelbar zugänglich, sodass sie nur geschätzt werden kann. Damit das gelingt, müssen die Dokumente und die Anfragen genauer untersucht sowie Vereinfachungen und Unabhängigkeitsannahmen gemacht werden. Im probabilistischen Modell wird die Relevanz eines Dokuments an der Ähnlichkeit zwischen Suchanfrage und Dokument gemessen. Wobei der Ähnlichkeitswert daran gemessen wird, wie oft der Suchbegriff im Dokument existiert. Kommt in einem Text das Wort Seopard zehnmal und in einem anderen Dokument zwanzigmal vor, ist das zweite Dokument der Suchanfrage ähnlicher. Und je ähnlicher ein Dokument, umso relevanter ist es für die Suchanfrage. Die Ausgabe der Trefferliste erfolgt in diesem Modell sortiert. Dabei wird ein Schwellenwert verwendet, der festlegt, wie hoch die Wahrscheinlichkeit der Relevanz sein muss, damit das Dokument überhaupt in der Trefferliste erscheint. Die Sortierung der Trefferliste erfolgt letztendlich absteigend nach abnehmender Relevanz.
3.1.5 Relative Worthäufigkeit Bei dem Verfahren der relativen Worthäufigkeit oder Term Frequency (TF) wird davon ausgegangen, dass ein Wort beziehungsweise Term für ein Dokument umso wichtiger wird, je öfter es darin vorkommt. Im einfachsten Fall könnte man also die Häufigkeit TF berechnen, indem man überprüft, wie oft ein Wort innerhalb eines Textes existiert. Ein Beispiel soll diesen Aspekt verdeutlichen: Ein Dokument enthält 200 Wörter. In diesem Dokument taucht das Wort Bücher zehnmal auf. In diesem Fall müsste man davon ausgehen, dass der absolute TF-Wert 10 beträgt, schließlich steht das Wort Bücher zehnmal im Text. Allerdings offenbart dieses Verfahren seine Schwächen, wenn man die gleiche Berechnung auf ein längeres Dokument ansetzt.
44
So werden Suchergebnisse gewichtet
Das Dokument enthält 4.000 Wörter. Im Dokument steht zwanzigmal das Wort Bücher. In diesem Fall würde ein TF-Wert von 20 ermittelt werden. Dieses Dokument erhielte demnach ein höheres Gewicht. Nun kann man bei dieser Form der Berechnung davon ausgehen, dass längere Dokumente fast immer höher gewichtet werden. Denn die Wahrscheinlichkeit ist groß, dass in einem langen Text ein Suchterm häufiger als in einem kurzen Text vorkommt. Eine solche Betrachtung ist natürlich nicht praktikabel. Denn selbstverständlich könnten kürzere Dokumente durchaus relevanter als lange sein. Hier kommt das erweiterte Verfahren der relativen Worthäufigkeit zum Einsatz. Dabei setzt man die Häufigkeit des Wortvorkommens mit der Gesamtwortzahl des Dokuments ins Verhältnis. TF= Häufigkeit eines Worts im Dokument / Anzahl aller Wörter im Dokument Wendet man diese Formel auf das 10/200-Beispiel an, ergibt sich ein TF-Wert von 0,05. Für das zweite Dokument mit 20 vorkommenden Wörtern bei einer Gesamtlänge von 4.000 Wörtern ergibt sich ein TF-Wert von 0,005. Die Bedeutung des ersten kürzeren Dokuments ist mit 0,05 demnach höher. Da man bei dieser Art der Berechnung sehr schnell mit sehr vielen Nullen arbeiten muss, wird in der Praxis meistens eine verfeinerte Formel angewendet, bei der mit logarithmischen Werten gearbeitet wird. Die entsprechende Formel sieht dann folgendermaßen aus: TF= log2 (Häufigkeit von t in d + 1) / log2 Gesamtanzahl der Wörter im Dokument Sie müssen die relative Worthäufigkeit übrigens nicht selbst ausrechnen. Im Internet gibt es zahlreiche Online-Tools, die das ermöglichen. Eines davon finden Sie unter http://www.keyworddensity.com/.
3.1.6 Inverse Dokumenthäufigkeit Bislang ging es um die Relevanzbewertung einzelner Dokumente. Allerdings sind einzelne Dokumente normalerweise Teil einer größeren Dokumentensammlung. Bei der inversen Dokumenthäufigkeit (ITF-Algorithmus) geht man daher davon aus, dass ein Keyword umso höher bewertet wird, je seltener es in einem Dokument vorkommt, beziehungsweise umso niedriger, je häufiger es in anderen Dokumenten zu finden ist. Kommt beispielsweise der Begriff Bücher im gesamten Datenbestand sehr oft vor, dann eignet er sich nicht dazu, die einzelnen Dokumente voneinander zu unterscheiden. Die Formel des ITF-Algorithmus sieht folgendermaßen aus: IDF= log2 Gesamtzahl der Dokumente / Anzahl der Dokumente, in denen der Term vorkommt
45
Kapitel 3
Abbildung 3.2: Die Worthäufigkeit können Sie auch mit Online-Tools ermitteln.
Bei der Ermittlung von Deskriptoren (Schlagwörtern) für Dokumente geht man heutzutage von folgenden Aspekten aus: Deskriptor-Gewicht bezogen auf das Dokument – Besonders gute Deskriptoren kommen, auf die Gesamtlänge eines Dokuments bezogen, vergleichsweise häufig vor. Deskriptor-Gewicht bezogen auf die Dokumentsammlung – Gute Deskriptoren sind innerhalb der Dokumentensammlung nur relativ selten enthalten. Die Formel zur Berechnung des Termgewichts sieht folgendermaßen aus: TG= TF x IDF
3.1.7 Lage eines Terms Auch die Frage, wo sich ein Term innerhalb eines Dokuments befindet, fließt in die Relevanzbewertung mit ein. Bei diesem Gewichtungsverfahren wird davon ausgegangen, dass der Verfasser des Inhalts besonders relevante Schlüsselwörter eher an den Anfang des Dokuments stellt. Prinzipiell wird hier zwischen zwei Methoden unterschieden: Gewichtungsverfahren, die sich auf die absolute Position des Keywords im Dokument beziehen. Das sogenannte Proximity-Verfahren berücksichtigt den Abstand der Keywords untereinander.
46
So werden Suchergebnisse gewichtet
Die exakte Position des Terms wird durch einen entsprechenden Parser ermittelt. Ein typisches Beispiel für die Bedeutung der Position eines Terms innerhalb eines Dokuments stellen HTML-Dateien dar. Die lassen sich – zumindest grob gesagt – in zwei Bereiche einteilen. [...] [...]
Im Dokumentkopf sind unter anderem der Dokumenttitel in Form des -Tags und diverse Meta-Angaben enthalten. Der Inhalt des -Tags wird nicht gemeinsam mit dem Dokumentkörper ausgewertet. Denn schließlich kann man davon ausgehen, dass der Autor des Dokuments den Titel gerade deswegen so gewählt hat, weil er den Dokumentinhalt am besten beschreibt. Aus diesem Grund gewichten viele Suchmaschinen die Worte innerhalb des -Tags vergleichsweise hoch. Der Dokumenttext wird im -Bereich definiert. Bei der Gewichtung der Inhalte nimmt man an, dass inhaltsrelevante Terme vor allem zu Beginn von Dokumenten verwendet werden. Denn schließlich will der Autor seinen Lesern gleich am Anfang mitteilen, was auf ihn in den folgenden Abschnitten zukommt. Allerdings greift die allgemeine Formel, dass alles was am Dokumentanfang steht, besonders wichtig ist, nicht immer. Denn letztendlich hängt das natürlich auch vom Stil des Autors ab. Will der Verfasser zum Beispiel einen Spannungsbogen aufbauen, tauchen die relevanten Terme höchstwahrscheinlich nicht am Dokumentanfang auf. Aus diesem Grund schwächt man dieses restriktive Verfahren ab. Bei der Abschwächung werden die einzelnen Terme nicht mehr in eine Reihenfolge gebracht, sondern man teilt den Text in verschiedene Klassen auf. So werden beispielsweise Keywords, die sich innerhalb der ersten 50 Wörter befinden, höher bewertet, als solche Schlüsselwörter, die innerhalb der Wörter 51 bis 100 stehen. Viele Nutzer von Suchmaschinen suchen längst nicht mehr nach nur einem Wort, sondern geben zwei oder mehr Schlüsselwörter ein. Vor diesem Hintergrund spielt das Proximity-Verfahren eine immer wichtigere Rolle. Dabei geht man davon aus, dass zwei sehr nah beieinander stehende Wörter, den Text eher abbilden, als Wörter, die weiter auseinander stehen.
3.1.8 Der URL Zusätzlich zu dem Text des Dokumentkopfes und -körpers werden weitere Daten ausgewertet. Dazu gehört unter anderem auch der URL. So wird untersucht, ob ein URL Schlüsselwörter enthält und damit für das Dokument eine höhere Relevanz ermittelt werden kann. Man kann zum Beispiel davon ausgehen, dass der URL http://www.pommeranzer-seopard.de/futter/futter_fleisch.html
47
Kapitel 3
für das Wort Futter eine höhere Relevanz als der URL http://www.pommeranzer-seopard.de/content/seite1.html aufweist. Dieses Verfahren hat allerdings den Nachteil, dass natürlich vom URL allein noch längst nicht auf den tatsächlichen Inhalt des Dokuments geschlossen werden kann. Deswegen gilt auch hier, dass dies nur eines von mehreren Verfahren zur Relevanzbewertung ist.
3.2 Das Ranking und deren Faktoren Nachdem Sie einige wichtige Verfahren des Information-Retrieval kennengelernt haben, geht es nun darum, wie die Bewertung von Treffern vonstatten geht. Bildlich gesprochen behandelt dieser Abschnitt die Frage, woher die Suchmaschine weiß, welche Seite sie in der Trefferliste an Position 1 und welche an Position 112 setzen soll. Rankingverfahren sollen sicherstellen, dass in der Trefferliste die relevantesten Dokumente oben stehen. Kernpunkt hierfür sind die Rankingfaktoren. Dabei kann man davon ausgehen, dass alle Suchmaschinen prinzipiell auf die gleichen Faktoren setzen. Unterschiede ergeben sich lediglich aus der verschiedenartigen Gewichtung der einzelnen Faktoren. Es wird zwischen zwei Arten von Rankingfaktoren unterschieden: die anfrageabhängigen und die anfrageunabhängigen Faktoren. In Suchmaschinen werden beide Varianten eingesetzt. Zunächst ein Überblick der anfrageabhängigen Faktoren: Metatags Groß-/Kleinschreibung Hervorhebung von Begriffen durch HTML-Tags Sprache Ankertexte Position des Keywords innerhalb des Dokuments Reihenfolge der Suchbegriffe innerhalb der Suchanfrage Wortabstand Dokumentspezifische Wortgewichtung Inverse Dokumenthäufigkeit
48
So werden Suchergebnisse gewichtet
Und hier die anfrageunabhängigen Faktoren: Kriterium Linkpopularität Aktualität Klickpopularität Anzahl der eingehenden Links Seitengröße Dokumentlänge Dateiformat Verzeichnisebene Auf die meisten der genannten Faktoren wird im weiteren Verlauf dieses Buchs noch ausführlich eingegangen. Allerdings kann bereits jetzt festgestellt werden, dass im Verlauf der letzten Jahre die Bedeutung der Linkstruktur enorm zugenommen hat. Damit ist die Zahl der auf das Dokument zeigenden Links ebenso wichtig, wie die Qualität der Seiten, von denen die Links stammen.
3.3 Der PageRank Ein entscheidendes Kriterium für die Relevanzbewertung von Dokumenten ist deren Verlinkung untereinander. Dabei wird davon ausgegangen, dass häufig verlinkte Seiten für die Benutzer besseren Inhalt bieten. Einen interessanten Einblick in die Verlinkung von Webseiten können Sie sich übrigens auf der Seite http://www. touchgraph.com/ TGGoogleBrowser.html verschaffen. Dort trägt man den URL der entsprechenden Webseite ein. Die grafische Aufbereitung zeigt anschließend, wie die Seiten jeweils untereinander verlinkt sind. Und genauso arbeitet Google. Denn der Erfolg von Google – natürlich neben der Schnelligkeit – ist vor allem auf den Einsatz des PageRank-Verfahrens zurückzuführen. Entwickelt wurde dieses Verfahren von Lawrence Page und Sergey Brin, die im Rahmen ihres Studiums so ganz nebenbei die Suchmaschine Google programmiert haben. Namenswirrwar Gemeinhin wird angenommen, dass der Name PageRank vom Wort Page, also Seite abgeleitet ist. Das ist so allerdings nicht korrekt. Vielmehr hat Lawrence Page den PageRank bescheidenerweise nach sich benannt.
49
Kapitel 3
Abbildung 3.3: So kommen Sie den Wirrungen des Webs auf den Grund.
Es ist anzunehmen, dass das ursprüngliche PageRank-Verfahren im Laufe der Zeit mehrmals angepasst wurde. Das Grundprinzip ist allerdings gleich geblieben: Je mehr Seiten auf eine Webseite verweisen, umso höher ist das Gewicht der Seite. Und je größer das Gewicht der verweisenden Seiten, umso größer ist dieser Effekt. Auf diese Weise wird verhindert, dass automatisch generierte Webseiten, ohne in die Strukturen des WWW eingebunden zu sein, ganz oben in den Trefferlisten landen.12
Die Linkpopularität Während der Entwicklung des WWW gab es viele Versuche, automatische Verfahren zur Bewertung von Dokumenten zu entwickeln. Eines der bekanntesten und auch heute noch von fast allen Suchmaschinen angelegten Kriterien für die Relevanz einer Seite ist das Vorkommen eines Suchbegriffs. Dabei spielen zusätzliche Aspekte wie Worthäufigkeit und Position des Schlüsselworts eine entscheidende Rolle. Informationen dazu haben Sie bereits eingangs dieses Kapitels erhalten. Dieses Verfahren allein genügt für eine Relevanzbeurteilung allerdings nicht, da es zu anfällig für Betrügereien (Doorway-Pages) ist.
12 Zumindest ist das die Grundidee. Denn längst haben Suchmaschinen-Spammer diesen Aspekt erkannt und verlinken ihre automatisch generierten Seiten untereinander.
50
So werden Suchergebnisse gewichtet
Um sich gegen solche Manipulationsversuche zu wehren, setzten viele Suchmaschinen das Prinzip der Linkpopularität ein. Hier wird in die Relevanzbeurteilung einer Webseite auch die Anzahl der eingehenden Links als Kriterium aufgenommen. Dabei wird davon ausgegangen, dass ein Dokument umso wichtiger ist, je mehr eingehende Links es aufzuweisen hat. So gut das Prinzip anfangs auch gewesen sein mag, schnell reagierten Seitenbetreiber darauf und generierten automatisch Seiten die Links für Doorway-Pages enthielten. Das Konzept war somit gescheitert.
Vorteile des PageRank-Verfahrens Während bei der Linkpopularität einfach die Anzahl der eingehenden Links genommen wird, geht das PageRank-Verfahren bei der Relevanzbewertung deutlich subtiler vor. Denn bei dem von Google entwickelten PageRank geht man davon aus, dass ein Dokument dann eine hohe Bedeutung hat, wenn andere wichtige Dokumente/Seiten auf dieses verweisen. Die Inhalte selbst spielen dabei zunächst keine Rolle. Erst wird ausschließlich die Vernetzung der Links untersucht. Wie wichtig eine Webseite ist, ergibt sich also aus der Bedeutsamkeit der auf sie verweisenden Seiten. Deren PageRank ergibt sich wiederum aus der Bedeutung von den Seiten, die auf sie verweisen. Die Wichtigkeit eines Dokuments ergibt sich demnach rekursiv aus der Bedeutsamkeit anderer Dokumente. Um den PageRank vor der Öffentlichkeit zu rechtfertigen bzw. ihn anschaulicher zu beschreiben, erfanden Page und Brin den sogenannten Random Surfer. Dieser typische Benutzer bewegt sich von einer Seite zur nächsten und nutzt dabei Hyperlinks, ohne auf deren Inhalt zu achten. Wie groß die Wahrscheinlichkeit ist, dass der Random Surfer einem bestimmten Link folgt, hängt damit ausschließlich von der Anzahl der auf der Seite vorhandenen Links ab. Demzufolge fließt die Anzahl der ausgehenden Links einer Seite ebenfalls mit in die Ermittlung des PageRanks ein.
3.3.1 Der PageRank-Algorithmus Wie sich der PageRank prinzipiell ermitteln lässt, haben Sie im vorherigen Abschnitt erfahren. Tatsächlich steckt dahinter ein vergleichsweise simpler Algorithmus. Details zum Algorithmus Wer sich für die originalen Texte von Page und Brin über den PageRank interessiert, der wird unter http://dbpubs.stanford.edu:8090/pub/1999-66 und unter http://www-db.stanford.edu/~backrub/google. html fündig.
Der PageRank lässt sich mit einer rekursiven Formel berechnen. PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
51
Kapitel 3
Dabei ist: PR(A) – der PageRank der Seite. PR(Ti) – der PageRank der Seiten, von denen der Link auf die Seite zeigt. C(Ti) – die Gesamtzahl der Links auf der Seite Ti. d – ein Dämpfungsfaktor. Nun mag diese Formel auf den ersten Blick etwas abstrakt erscheinen. Sie lässt sich aber auch wunderbar verbal wiedergeben. 1. Jede Seite des WWW wird mit einem Startwert initialisiert. Der tatsächliche Startwert spielt dabei keine Rolle, da der Algorithmus immer konvergiert. Die Wahl des Startwerts hat allerdings Einfluss darauf, wie schnell eine gute Konvergenz erzielt wird. 2. Berechnet wird der PageRank, in dem der PageRank der Seiten der ausgehenden Links ermittelt und dieser durch die Anzahl der ausgehenden Links geteilt wird. 3. Aus dem PageRank der eingehenden Links wird der PageRank neu berechnet. 4. Diese Punkte werden ab Schritt 2 so oft wiederholt, bis der PageRank aller Seiten konvergiert beziehungsweise sich ausreichend angenähert hat.
Die iterative Berechnung des PageRanks Aufgrund der Größe des Webs sieht sich die Firma Google zur Anwendung eines iterativen Verfahrens für die Berechnung des PageRanks gezwungen. Dabei wird zunächst jeder Seite ein PageRank von 1 zugewiesen. Wobei die Höhe des Anfangswertes keinen Einfluss auf das Ergebnis hat, da dieses irgendwann konvergiert. Wie schnell, nach wie vielen Iterationen, es konvergiert, kann aber durchaus über einen gut gewählten Startwert beeinflusst werden. Anschließend wird der PageRank aller Seiten in mehreren Berechnungsrunden ermittelt. Wie eine solche näherungsweise Berechnung vonstatten geht, zeigt folgendes Beispiel, bei dem als Ausgangspunkt für den PageRank jeder Seite 1 angenommen wird. Iteration
PR(A)
PR(B)
0
1
1
1
1
1
0.75
1.125
2
1.0625
0.765625
1.1484375
3
1.07421875
0.76855469
1.15283203
4
1.07641602
0.76910400
1.15365601
Tabelle 3.2: Eine beispielhafte iterative Berechnung
52
PR(C)
So werden Suchergebnisse gewichtet
Iteration
PR(A)
PR(B)
PR(C)
5
1.07682800
0.76920700
1.15381050
6
1.07690525
0.76922631
1.15383947
7
1.07691973
0.76922993
1.15384490
8
1.07692245
0.76923061
1.15384592
9
1.07692296
0.76923074
1.15384611
10
1.07692305
0.76923076
1.15384615
11
1.07692307
0.76923077
1.15384615
12
1.07692308
0.76923077
1.15384615
Tabelle 3.2: Eine beispielhafte iterative Berechnung (Fortsetzung)
Dieses Beispiel zeigt, dass sich bereits nach sehr wenigen Iterationen eine sehr gute Näherung an die tatsächlichen Werte ergibt. Brin und Page geben für die PageRankBerechnung des gesamten Webs etwa 100 Iterationen als ausreichend an.
3.3.2 Faktoren, die auf den PageRank Einfluss haben Der PageRank wird durch die verschiedensten Faktoren beeinflusst. Lawrence Page hat in der Patentschrift für den PageRank die folgenden potenziellen Einflussfaktoren angegeben: Die Position des Links innerhalb eines Dokuments. Die Distanz zwischen den Webseiten. Die Stärke der Hervorhebung eines Links. Die Aktualität der verweisenden Seite. Die Bedeutung der verweisenden Seite. Ob all diese Faktoren in die aktuellen PageRank-Berechnungen von Google einfließen, lässt sich nicht kontrollieren. Denn verständlicherweise hütet Google dieses Geheimnis bestens. Neben diesen Aspekten fließen allerdings drei weitere wichtige Faktoren in den PageRank mit ein, die auf den folgenden Seiten genauer untersucht werden sollen.
Der Dämpfungsfaktor Den Random Surfer haben Sie bereits kennengelernt. Der folgt natürlich nicht jedem Link eines Dokuments, sondern ist nach einer gewissen Zeit gelangweilt und ruft daher eine beliebige andere Seite auf. Aus diesem Grund wird die Wahrscheinlichkeit, mit der ein Surfer ein neues Dokument aufruft, um einen bestimmten Faktor gedämpft. Dieser sogenannte Dämpfungsfaktor ist dann auch der Grund, warum der
53
Kapitel 3
PageRank nicht vollständig an ein Dokument weitergegeben wird, sondern sich auf die ausgehenden Links verteilt. In der Praxis wird oft von dem Dämpfungsfaktor 0,85 ausgegangen. Je höher der Wert, umso größer ist die Wahrscheinlichkeit, dass der Random Surfer die Links des Dokuments verfolgt und sich nicht gelangweilt abwendet.
Der Effekt eingehender Links Jeder eingehende Link erhöht den PageRank der Seite. In gewisser Weise repräsentieren diese Links die Meinung anderer Seitenbetreiber zur eigenen Seite. Denn normalerweise wird nur ein Link auf eine Seite gesetzt, wenn diese auf irgendeine Weise für den verweisenden Seitenbetreiber interessant oder relevant ist. Betrachtet man den ursprünglichen Algorithmus PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) ..., könnte man davon ausgehen, dass jeder eingehende Link den PageRank der aktuellen Seite um d × PR(X) / C(X) erhöht. Dabei ist PR(X) der PageRank der verlinkenden Seite und C(X) die Anzahl der ausgehenden Links. Allerdings kann eine Webseite, die einen zusätzlichen eingehenden Link erhält, selbst auch auf eine andere Seite verlinken. Diese Seite erhält dann ebenfalls einen höheren PageRank, den sie möglicherweise über Links an die Seite mit dem zusätzlichen eingehenden Link zurückgibt. Ein einfaches Beispiel soll den Effekt eingehender Links veranschaulichen:
Abbildung 3.4: Einige aneinandergereihte Dokumente
54
So werden Suchergebnisse gewichtet
Hier wird davon ausgegangen, dass es sich um eine Aneinanderreihung von Dokumenten handelt, die jeweils einen ausgehenden und, bis auf A, einen eingehenden Link besitzen. Ferner wird angenommen, dass der Dämpfungsfaktor 0,85 und der Startwert 1 beträgt. Der PageRank der jeweiligen Seiten lässt sich nun folgendermaßen berechnen: PR(A) = 0,15 PR(B) = 0,15 + 0,85 * PR(A) PR(C) = 0,15 + 0,85 * PR(B) PR(D) = 0,15 + 0,85 * PR(C) Als Ergebnis bekommt man die folgenden Werte: PR(A) 0,15 PR(B) 0,28 PR(C) 0,39 PR(D) 0,48 Eingehende Links erhöhen also den PageRank einer Seite. Demzufolge sollten Sie in Ihrem Webprojekt – wenn es hierarchisch aufgebaut ist – von den untergeordneten Seiten auf jeden Fall einen Link zur Startseite setzen. Neben einer hierarchischen Struktur gibt es auch Webseiten, die in Kreisform aufgebaut sind. Dabei besitzt jede Seite einen Link auf die nächste Seite. In diesem Fall wird der PageRank gleichmäßig auf alle Seiten verteilt.
Ausgehende Links Da eingehende Links Einfluss auf den PageRank einer Seite haben, kann angenommen werden, dass dasselbe auch für ausgehende Links gilt. Dieser Aspekt soll ebenfalls anhand eines Beispiels veranschaulicht werden. Beide Webseiten bestehen aus jeweils zwei Seiten, die untereinander verlinkt sind. Jedes der Dokumente startet mit einem PageRank von 1. Dokument C wird ein ausgehender Link hinzugefügt. Legt man einen Dämpfungsfaktor von 0,85 zugrunde, kann der PageRank für die einzelnen Seiten folgendermaßen berechnet werden: PR(A) = 0,15 + 0,85 * (PR(C) / 2 + PR(B)) PR(B) = 0,15 + 0,85 * PR(A) PR(C) = 0,15 + 0,85 * PR(D) PR(D) = 0,15 + 0,85 * (PR(C) / 2)
55
Kapitel 3
Abbildung 3.5: Zwei Webseiten, die untereinander verlinkt sind
Löst man diese Gleichungen auf, ergeben sich für die einzelnen Dokumente die folgenden Werte: PR(A) 1,66 PR(B) 1,56 PR(C) 0,43 PR(D) 0,33 Für beide Webseiten (Web 1 und Web 2) ergeben sich die folgenden PageRanks durch das Aufsummieren der Webseiten: PR(Webseite 1) 3,22 PR(Webseite 2) 0,76 Wie Sie sehen, ergibt die Summe aller Dokumente den aufsummierten PageRank aller Dokumente. In diesem Fall also 4. Das Hinzufügen von Links hat somit keinen Einfluss auf den aufsummierten PageRank des Webs. Zusätzlich ist zu erkennen, dass der gewonnene PageRank des verlinkten Dokuments exakt so groß sein muss, wie der PageRank-Verlust des verlinkenden Dokuments. Das Beispiel macht deutlich, dass das verlinkende Dokument deutlich an PageRank verliert. Auch dieser Effekt lässt sich wieder recht plausibel mit dem Verhalten des Random Surfers erklären. Denn mit jedem vorhandenen ausgehenden Link steigt die Wahrscheinlichkeit, dass der Besucher einem ausgehenden eher als einem internen Link folgt. Jeder ausgehende Link sorgt damit für ein Absinken des PageRanks der Seite. Um den PageRank der Seite hoch zu halten, könnte man nun natürlich davon ausgehen, dass man überhaupt keine ausgehenden Links definiert. Dieses Verhalten würde dann allerdings dem Hypertext-Prinzip des WWW entgegenstehen. Zudem
56
So werden Suchergebnisse gewichtet
besteht durchaus die Möglichkeit, dass ausgehende Links die Bewertung der Webseite durch Google an anderer Stelle positiv beeinflussen. Denn ohne Zweifel werten qualitativ gute ausgehende Links die eigene Webseite auf. Immer wieder kommt es zu dem Problem der sogenannten Dangling Links. Das sind Links, die auf Dokumente verweisen, die selbst keine ausgehenden Links besitzen. In diesen Fällen versickert der PageRank gewissermaßen an diesen Stellen. Meistens verweisen Dangling Links auf solche Dokumente, die noch nicht von Suchmaschinen indexiert wurden. Das kann natürlich ganz unterschiedliche Gründe haben. So könnte der Seitenbetreiber selbst über eine Datei robots.txt bestimmt haben, dass die Seite von Suchmaschinen nicht erfasst werden soll. Ebenso könnte es sich aber auch um ein Dokument handeln, das in einem nur schwer zu indexierenden Format vorliegt. Ein Grund kann aber auch darin liegen, dass Google Dokumenttypen wie PDF- und WordDateien indexiert, die oft keine ausgehenden Links enthalten. Diese Aspekte weisen darauf hin, dass es nicht negativ bewertet wird, wenn eine Seite keine ausgehenden Links besitzt. Dangling Links beeinflussen den PageRank demnach nicht direkt. Vielmehr werden sie aus dem Modell entfernt, bis der PageRank berechnet ist. Bei der Entfernung von Dangling Links handelt es sich um einen iterativen Vorgang, da dabei wieder neue Dangling Links entstehen können. Nach Ende der PageRank-Berechnung wird auch den Dangling Links ein PageRank zugewiesen. Dabei werden ebenso viele Iterationen wie beim Entfernen der Dangling Links benötigt. Beim Entfernen der Dangling Links kann es passieren, dass sich der PageRank auf andere ausgehende Links verteilt. Allerdings kann dieser Effekt getrost vernachlässigt werden, da er lediglich marginale Auswirkungen hat.
Die Auswirkungen der Anzahl der Seiten Der aufaddierte PageRank aller Seiten des Webs ist gleich der Anzahl der Webseiten. Daraus lässt sich direkt folgern, dass eine zusätzliche Seite den aufaddierten PageRank des Webs um 1 erhöht. Das ist logisch und wenig spektakulär. Viel interessanter ist es, welche Auswirkungen zusätzliche Seiten auf den PageRank einer ganz bestimmten Seite haben. Ein typisches Beispiel beantwortet diese Frage. Hier bilden die Seiten A, B und C ein Mini-Web, bei dem B und C die Unterseiten von A sind. Bei Dokument X handelt es sich um eine externe Webseite, bei der von einem PageRank von 10 ausgegangen wird und die auf A verweist. Legt man einen Dämpfungsfaktor von 0,85 zugrunde, ergeben sich die folgenden PageRank-Gleichungen: PR(A) = 0,15 + 0,85 * (10 + PR(B) + PR(C)) PR(B) = 0,15 + 0,85 * (PR(A) / 2) PR(C) = 0,15 + 0,85 * (PR(A) / 2)
57
Kapitel 3
Abbildung 3.6: Ein einfaches Mini-Web
Löst man diese Gleichungen auf, ergibt das für die einzelnen Dokumente die folgenden Werte: PR(A) 32,23 PR(B) 13,85 PR(C) 13,85 Im nächsten Schritt wird dem Mini-Web das Dokument D hinzugefügt. Auch hier zunächst die Gleichungen zum Berechnen des PageRanks: PR(A) = 0,15 + 0,85 * (10 + PR(B) + PR(C) + PR(D)) PR(B) = 0,15 + 0,85 * (PR(A) / 3) PR(C) = 0,15 + 0,85 * (PR(A) / 3) PR(D) = 0,15 + 0,85 * (PR(A) / 3) Aufgelöst ergeben die Gleichungen die folgenden Werte: PR(A) 32,43 PR(B) 9,35 PR(C) 9,35 PR(D) 9,35 Der aufaddierte PageRank aller Dokumente steigt durch das Hinzufügen von D um den Faktor 1. Ebenso steigt der PageRank von Dokument A, wenn auch nur äußerst gering. Der PageRank der beiden Dokumente B und C sinkt hingegen erheblich. Grund hierfür: Der PageRank von A verteilt sich jetzt auf drei Dokumente.
58
So werden Suchergebnisse gewichtet
Abbildung 3.7: Eine zusätzliche Seite ist hinzugekommen.
3.3.3 Den PageRank mit der Google-Toolbar ermitteln Die wohl einfachste und komfortabelste Möglichkeit, sich den PageRank seiner (oder einer konkurrierenden) Seite anzeigen zu lassen, ist die Verwendung der Google-Toolbar. Diese Browser-Erweiterung kann kostenlos über die Seite http://toolbar. google.de/ installiert werden. Derzeit lässt sich die Toolbar in Verbindung mit Mozilla Firefox und dem Internet Explorer verwenden.
Abbildung 3.8: So kann man sich ganz bequem den PageRank anzeigen lassen.
59
Kapitel 3
Nach der Installation stehen allerlei nützliche und weniger nützliche Optionen zur Verfügung. So kann man zum Beispiel die aktuelle Seite einer Rechtschreibprüfung unterziehen oder nach Nachrichtenartikeln suchen. All diese Funktionen sind selbsterklärend. Viel interessanter – zumindest aus Sicht dieses Buches – ist jedoch die Möglichkeit, sich den PageRank der gerade aufgerufenen Seite anzeigen zu lassen. Visualisiert wird der PageRank über eine Skala von 1 bis 10. Anders als gemeinhin angenommen, wird damit allerdings nicht der tatsächliche PageRank widergespiegelt. Ein in der Toolbar angezeigter Wert von 9 bedeutet demnach keinesfalls, dass die Seite einen PageRank von 9 hat. Google hält sich äußerst bedeckt damit, welche tatsächlichen Werte hinter der Anzeige der Toolbar stecken. Die folgende Tabelle enthält somit lediglich Schätzwerte, auf die man sich aber in diversen Foren und Diskussionen weitestgehend geeinigt hat. Und auch wenn die Zahlen nicht exakt stimmen (mögen): Ein guter Anhaltspunkt sind sie allemal. PageRank
Angezeigter PageRank
0,00000001 bis 5
1
6 bis 25
2
26 bis 125
3
126 bis 625
4
626 bis 3.125
5
3.126 bis 15.625
6
15.626 bis 78.125
7
78.126 bis 390.625
8
390.626 bis 1.953.125
9
ab 1.953.126
10
Tabelle 3.3: Angezeigte und tatsächliche PageRanks
Mittlerweile ist es ein offenes Geheimnis, dass der von der Toolbar angezeigte PageRank-Wert veraltet ist und nur sehr unregelmäßig aktualisiert wird. Hauptgrund dafür dürfte sicherlich sein, dass Google die zahllosen PageRank-Tools missfallen.
3.3.4 PageRank einkaufen Es dauert ziemlich lange, bis man auf legalem Weg einen annehmbaren PageRank erhält. Das gilt vor allem für solche Seiten, die nicht mit entsprechendem Content aufwarten können. Wer nicht so lange warten will, bis sich der PageRank auf natürliche Weise erhöht, der kann ihn einkaufen. Dabei kauft man natürlich nicht den PageRank direkt, sondern Links. Seitenbetreiber, von denen Sie diese sogenannten Backlinks erwerben, setzen einen Link auf Ihre Seiten, was dann den PageRank erhöht.
60
So werden Suchergebnisse gewichtet
!
!
!
ACHTUNG
Bevor Sie sich allerdings dieser Methode bedienen, sollten Sie sich über einen Punkt im Klaren sein: Google weiß in aller Regel sehr gut darüber Bescheid, welche Seiten PageRanks im großen Stil einkaufen, und straft diese möglicherweise ab.
Das Prinzip hinter dem PageRank-Kauf ist simpel. Denn der PageRank ist abhängig von Links. Und eben diese Links kann man kaufen oder mieten. Oft wird beim Einkaufen von diesen sogenannten Backlinks ausschließlich auf den PageRank der betreffenden Seite geachtet. Darüber hinaus gibt es aber noch andere wichtige Faktoren zu beachten: Platzierung – Viele Anbieter verkaufen Links, die auf jeder Unterseite an der gleichen Stelle (oft im Footer) erscheinen. Solche Links werden von Suchmaschinen meistens recht schnell erkannt und fließen in die Berechnung des PageRanks nicht mit ein. Sprache – Wer eine deutschsprachige Webseite betreibt, sollte normalerweise nur deutschsprachige Backlinks einkaufen. Denn natürlich wissen die SuchmaschinenBetreiber, dass die Wahrscheinlichkeit, dass eine englische auf eine deutsche Seite verweist, relativ gering ist. PageRank-Vererbung – Bemerkt Google, dass eine Webseite massenhaft Links verkauft, vererbt diese Seite keinen PageRank mehr. Ob eine Seite bereits auf diese Weise abgestraft wurde, kann man überprüfen. Dazu kontrolliert man, ob Seiten, die seit längerer Zeit einen Link von der entsprechenden Seite haben, bereits einen PageRank besitzen. Ist dieser lediglich um 1 oder 2 Punkte niedriger als der der linkgebundenen Seite, ist die Seite aus PageRank-Sicht wertlos. Ist das nicht der Fall, sollten Sie den Link von dort nicht kaufen. Es gibt verschiedene Anbieter, bei denen Sie Links kaufen und verkaufen13 können. Eine der auf dem deutschen Markt bekanntesten Plattformen ist LinkLift (http:// www.linklift.de/). Die bei LinkLift angebotenen Links sind thematisch geordnet und können wie in einem Online-Shop eingekauft werden. Die Preise für Backlinks variieren natürlich sehr stark. So bekommen Sie Backlinks zum Beispiel schon für 5 Euro. Je nach Thema und Qualität der Seite kann man aber durchaus schon einmal mehrere Hundert Euro investieren.
13 Der Verkauf von Links kann natürlich auch eine Option sein, schließlich ist auch das eine mögliche neue Einnahmequelle.
61
Kapitel 3
Abbildung 3.9: Hier können Sie Backlinks kaufen und verkaufen.
Nun ist LinkLift natürlich längst nicht der einzige Anbieter. http://www.text-link-ads.com/ – Wer Links von englischsprachigen Seiten einkaufen möchte, wird hier fündig. (Bitte beachten Sie die vorherigen Hinweise, dass Sie mit englischen Backlinks vorsichtig umgehen sollten.) http://www.teliad.de/ – Auf dieser Webseite werden Textlinks angeboten. Aufgenommen werden nur Seiten mit einem PageRank ab 3. Auch hier sind die Angebote thematisch geordnet und die Links lassen sich ganz einfach buchen.
!
!
!
ACHTUNG
Bleibt das Einkaufen von Links in einem annehmbaren Rahmen, ist dagegen sicherlich nichts einzuwenden. Unbedingt ist aber darauf zu achten, dass man sich damit trotzdem noch in solchen Gefilden bewegt, dass die Suchmaschinen nicht misstrauisch werden. Wer ausschließlich auf gekaufte Backlinks setzt, wird schnell auffliegen und möglicherweise abgestraft.
3.4 Klickpopularität – oft angeklickt = gute Seite? Die bisher gezeigten Rankingverfahren werden automatisch auf Seiten der Suchmaschinen-Software ausgeführt. Über die Klickpopularität wird hingegen der Benutzer aktiv in das Rankingverfahren mit einbezogen. Nicht mehr der Algorithmus der Such-
62
So werden Suchergebnisse gewichtet
maschine hat Vorrang, sondern es wird hauptsächlich das Verhalten des Benutzers ausgewertet. Bei der Klickpopularität wertet die Suchmaschine zunächst einmal aus, wie lange ein Benutzer auf der Zielwebseite verweilt, bis er zur Trefferliste zurückkehrt. Sieht er sich die Seite nur kurz an, geht die Suchmaschine davon aus, dass die Seite für das Suchwort nicht relevant ist, und setzt deren Relevanz herunter.
> >
>
HINWEIS
Das Prinzip klingt gut, hat aber bei genauerer Betrachtung deutliche Schwächen. Denn der menschliche Benutzer verhält sich eben nicht immer so logisch, wie es Suchmaschinen gerne hätten. So ist es Ihnen sicherlich auch schon passiert, dass Sie auf eine Seite gekommen sind, die zwar nicht Ihre Erwartungen hinsichtlich des eingegebenen Suchbegriffs erfüllt hat, auf der Sie aber trotzdem lange gelesen haben, weil Sie sie aus anderen Gründen interessant fanden. Die Suchmaschine würde dieser Seite, auch wenn sie nicht zu dem eigentlichen Thema passt, gut bewerten. Das Problem der Klickpopularität liegt damit auf der Hand: Das Verhalten jedes Benutzers wird nach dem gleichen Prinzip bewertet.
Viele Suchmaschinen wie Yahoo! und Lycos haben das Click-Popularity-Verfahren in den letzten Jahren eingesetzt, sind aber weitestgehend wieder davon abgerückt. Google hielt von Anfang an nichts von diesem Verfahren und ließ es überhaupt nicht mit in die Bewertung der Suchtreffer einfließen.
3.5 Clustering (Googles »Ähnliche Seiten«-Funktion) Die letzte der hier vorgestellten Rankingmethoden steht nicht umsonst an letzter Stelle. Der Grund dafür ist, dass sich das Clustering-Verfahren von den übrigen Rankingmethoden grundsätzlich unterscheidet. Am besten lässt sich Clustering anhand eines Beispiels erklären. Gibt man bei Google den Suchbegriff Addison-Wesley ein, wird zunächst die ganz normale Trefferliste angezeigt. Die Ergebnisse weisen keine Besonderheiten auf. So weit, so unspektakulär. Interessant ist allerdings der zu jedem Treffer angezeigte Link Ähnliche Seiten. Klickt man diesen an, kann man sich den Cluster zu dem betreffenden Eintrag anzeigen lassen. Im Fall des Suchbegriffs Addison-Wesley sind das andere Verlage. Wie aber kommt Google darauf, dass Seiten von Hanser, Markt und Technik und O’Reilly Ähnlichkeit mit den Addison-Wesley-Seiten haben? Google ordnet alle auf die Suchanfrage Addison-Wesley gefundenen Seiten in Dokumentgruppen, die einander ähnlich sind. Welche Seite in welche Gruppe kommt, wird anhand einer Ähnlichkeitsberechnung ermittelt. Bei der werden die Eigenschaften und Inhalte der Dokumente miteinander verglichen. Alle Dokumente, die in hohem Maße ähnlich sind, befinden sich nach der Analyse in einem Cluster. Bei Google basiert die Clusterbildung auf der Linkstruktur. Dabei wird die ausgewählte Seite zusammen mit den auf sie verweisenden Seiten in einem Cluster gesammelt. Dokumente können dabei in unterschiedlichen Clustern liegen.
63
Kapitel 3
Abbildung 3.10: Bei dieser Suchanfrage war nichts anderes zu erwarten.
Abbildung 3.11: Diese Seiten, findet Google, sind denen von Addison Wesley ähnlich.
Nun ist Google längst nicht die einzige Suchmaschine, die das Cluster-Verfahren einsetzt. Und während bei Google das Clustering eine eher untergeordnete Rolle spielt, ist es bei der Suchmaschine Clusty (http://www.clusty.com/) das zentrale Werkzeug.
64
So werden Suchergebnisse gewichtet
Abbildung 3.12: Eine spezielle Cluster-Suchmaschine
Clusty bietet drei Typen von Clustern: Topics (Themen), Sources (Quellen) und URLs. Die interessanteste und mit Abstand am schwierigsten zu implementierende Variante ist dabei die thematische Clusterbildung. Andere Suchmaschinen wie Google geben zwar vor, diese Technik zu beherrschen, dem ist aber meistens nicht so. So heißt bei Google der Cluster-Link zwar Ähnliche Seiten, allerdings werden darüber keine thematisch ähnlichen Seiten angezeigt. Bei Clusty werden allerdings auch die Nachteile einer thematischen Clusterung deutlich. Tauchen in den Zieldokumenten sehr oft Akronyme anstelle der ausgeschriebenen Begriffe auf, verwendet Clusty das Akronym auch für die Cluster-Bezeichnung. Das ist vor allem für diejenigen Benutzer ein Problem, die sich im thematischen Umfeld des eingegebenen Suchbegriffs nicht auskennen. Oft werden auch zu allgemeine Begriffe verwendet. So taucht bei der Eingabe des Suchbegriffs Addison-Wesley beispielsweise der Cluster ISBN, Smalltalk auf. Der ist im Allgemeinen nur wenig hilfreich. Um das zu verhindern, müssten umfangreiche Stoppwortlisten in den unterschiedlichsten Sprachen angelegt werden. Für die Suchmaschinen-Betreiber bedeutet das natürlich einen enormen Aufwand.
65
4
Schlüsselwörter finden und einsetzen Alle großen Dinge sind einfach und viele können mit einem einzigen Wort ausgedrückt werden: Freiheit, Gerechtigkeit, Ehre, Pflicht, Gnade, Hoffnung.
Winston Churchill
In den vorherigen Kapiteln haben Sie die Funktionsweise von Suchmaschinen kennengelernt. In diesem Kapitel geht es nun darum, wie Sie geeignete Schlüsselwörter finden, die Ihre Seiten bestmöglich beschreiben. Denn eine Webseite kann noch so gut auf Suchmaschinen ausgerichtet sein, ohne die passenden Schlüsselwörter wird man mit ihr keinen Erfolg haben. Und die richtigen Schlüsselwörter sind die, nach denen die potenziellen Besucher suchen. Dieser Aspekt wird bei der Suchmaschinen-Optimierung leider allzu oft vernachlässigt. Und so passiert es, dass handwerklich gut gemachte Seiten in der Bedeutungslosigkeit verharren und der erhoffte Besucheransturm ausbleibt.
4.1 Schlüsselwörter finden Im Zusammenhang mit der Arbeitsweise von Suchmaschinen ist immer wieder der Begriff Relevanz gefallen. Dabei wurde deutlich, dass Suchmaschinen die Suchtreffer nach der größten Relevanz ordnen. Relevanz ist aber auch bei der Wahl der richtigen Schlüsselwörter von entscheidender Bedeutung. Das folgende Beispiel soll Ihnen zeigen, wie wichtig der Einsatz relevanter Schlüsselwörter ist. Stellen
Kapitel 4
Sie sich vor, eine Malerfirma hätte ihre neuen Seiten auf den Begriff Farbe hin optimiert. Das wirkt auf den ersten Blick plausibel. Denn schließlich arbeitet ein Maler mit Farbe. Die Seite ist so gut optimiert, dass sie in den wichtigsten Suchmaschinen auf den vorderen Plätzen für diesen Suchbegriff auftaucht. Das freut die Malerfirma. Nach anfänglicher Freude stellt sich aber schnell heraus, dass trotz dieser Top-Platzierungen keine Kunden über die Webseite akquiriert werden können. Das liegt an der Missachtung der avisierten Zielgruppe. Denn wer einen Maler engagieren will, der sucht eben nicht nach Farbe, sondern zum Beispiel nach Tapezieren oder Malermeister Müller.
> >
>
HINWEIS
Bei der Wahl der Schlüsselwörter müssen Sie sich in das Suchverhalten der Zielgruppe hineinversetzen. Denn eine Seite, die auf falsche Schlüsselwörter hin optimiert wird, bringt überhaupt nichts. Richtige Schlüsselwörter beziehungsweise Keywords zu finden, wird von vielen Seitenbetreibern als nebensächlich oder einfach erachtet. Dabei ist das einer der Kernpunkte für den Erfolg oder Nichterfolg einer Webseite. Problematisch ist vor allem das allseits bekannte Phänomen der Betriebsblindheit. Wer sich in dem Gebiet, für das die Webseite entwickelt wurde, besonders gut auskennt, der verheddert sich leicht in Fachbegriffen und verliert die Zielgruppe aus den Augen. Wie Sie trotz aller Schwierigkeiten an die richtigen Schlüsselwörter kommen, zeigen die folgenden Seiten.
4.1.1 Konkurrenzanalyse Interessant ist die Frage, welche Schlüsselwörter die direkten Mitkonkurrenten auf ihren Seiten verwenden. Diebstahl ist keine Inspiration Auf keinen Fall sollten Sie die Keyword- oder Description-Metatags von Konkurrenten in Ihre Seiten einbauen. Denn zumindest laut dem Urteil eines US-Gerichts ist das strafbar. Und auch wenn US-amerikanische Richtersprüche keine direkten Auswirkungen auf die deutsche Justiz haben, ist davon auszugehen, dass auch hierzulande bei einem Keyword-Diebstahl ähnlich geurteilt wird. Deswegen gilt die Maxime: Lassen Sie sich von den Keywords Ihrer Mitbewerber inspirieren, kopieren Sie aber auf keinen Fall deren Schlüsselwörter.
In einem ersten Schritt lassen Sie sich die Seiten Ihrer Konkurrenten über die relevanten Suchmaschinen anzeigen. Interessant sind dabei nur solche Seiten, die vor der Ihren platziert sind. Lesen Sie sich die Texte dieser Seiten durch, überprüfen Sie die Schreibweise und die Keyword-Dichte. Nachdem Sie einen ersten Eindruck gewonnen haben, geht es an die echte Keyword-Analyse. Dazu stehen zahlreiche kostenlose Online-Tools zur Verfügung. Eines der besseren davon ist unter http://www.abakusinternet-marketing.de/tools/topword.html zu finden. Nachdem Sie dort die Adresse der zu analysierenden Seite eingegeben und auf Analyse geklickt haben, wird die Seite ausgewertet und das Ergebnis übersichtlich angezeigt.
68
Schlüsselwörter finden und einsetzen
Abbildung 4.1: So können Sie die eingesetzten Schlüsselwörter ermitteln.
Kontrollieren Sie anhand dieses Ergebnisses, welche Keywords auf den Konkurrenzseiten verwendet werden und passen Sie Ihre eigene Keyword-Liste entsprechend an.
4.1.2 Mit Keyword-Datenbanken effektiv arbeiten Eines der effektivsten Mittel zur Gewinnung von Schlüsselwörtern sind Keyword-Datenbanken. Diese im Internet oft kostenlos zu findenden Datenbanken helfen Ihnen dabei, das monatliche Suchvolumen für bestimmte Suchbegriffe realistisch einzuschätzen. Auf Basis dieser Ergebnisse kann in einem sehr frühen Stadium geprüft werden, ob sich eine Optimierung der Seite auf die geplanten Suchbegriffe hin überhaupt lohnt. Und noch einen netten Nebeneffekt gibt es: Sie werden schnell merken, dass solche Datenbanken Suchbegriffe hervorzaubern, an die man selbst überhaupt nicht gedacht hätte. Bei der Keyword-Datenbank von MIVA (https://account.de.miva.com/advertiser/ Account/Popups/KeywordGenBox.asp) trägt man zunächst den Suchbegriff ein. Die Datenbank liefert daraufhin eine Liste von Suchanfragen, die diesen Begriff enthielten. Interessant ist vor allem, dass auch solche Suchanfragen angezeigt werden, in denen der Begriff nur als Wortbestandteil vorkommt. Gibt man zum Beispiel reise ein, erscheinen auch reisefieber und pauschalreisen. Die reale Suchhäufigkeit ist übrigens deutlich höher, als es auf den ersten Blick scheinen mag. Denn berücksichtigt werden nur die Suchmaschinen, die MIVA beobachtet. Bei der Keyword-Analyse sollte man auch auf den Marktführer unter den Suchmaschinen zurückgreifen. Google bietet unter https://adwords.google.de/select/ Keyword-
69
Kapitel 4
ToolExternal ebenfalls ein kostenloses Online-Tool an. Bei AdWords werden nach der Eingabe des Keywords nicht nur alternative Suchbegriffe angezeigt, zusätzlich erhält man einen Überblick des tatsächlichen Suchvolumens und der Mitbewerberdichte. Die Suchhäufigkeit der einzelnen Begriffe wird leider nicht angezeigt. Lediglich kleine Balken signalisieren, ob ein Begriff oft oder selten verwendet wurde.
Abbildung 4.2: Es werden nicht nur alternative Keywords angezeigt. Zusätzlich kann man das allgemeine Suchvolumen ablesen.
Trotz dieser Einschränkung ist die Datenbank äußerst hilfreich, schließlich kann man mit ihr Suchanfragen finden, die den eingegebenen Begriff nicht enthalten, möglicherweise aber dennoch interessant sind. Zusätzlich hat man die Möglichkeit, die generierte Keyword-Liste als TXT- oder CSV-Datei herunterzuladen. Das spart Tipparbeit. Auch der andere große Placement-Anbieter Yahoo! Search Marketing (ehemals Overture) bietet ein kostenloses Online-Keyword-Tool. Aufrufen kann man es über den Link Suchbegriffe finden auf der Seite http://searchmarketing.yahoo.com/de_DE/rc/ srch/prod.php.
70
Schlüsselwörter finden und einsetzen
Abbildung 4.3: Keyword-Alternativen direkt aus der Google-Datenbank
Abbildung 4.4: Das Tool von Yahoo! Search Marketing ist ebenfalls äußerst hilfreich.
71
Kapitel 4
Die Bedienung des Tools ist simpel. Nachdem man den entsprechenden Begriff eingetragen und die Suche ausgelöst hat, wird eine Liste möglicher Schlüsselwörter generiert. Durch Anklicken der einzelnen Keywords in der Trefferliste kann man eine erneute Suche auslösen und sich auf diese Weise weitere alternative Schlüsselbegriffe anzeigen lassen. Interessant sind vor allem die Werte in der Spalte Anzahl. Hierüber lässt sich die Suchhäufigkeit der Keywords pro Monat ablesen, was vor allem für eine Analyse der möglichen Kosten, die auf Sie aufgrund bezahlter Sucheinträge zukommen, hilfreich ist. Selbstverständlich sollte man sich nicht ausschließlich auf diese oder ähnliche OnlineTools verlassen. Die Erfahrung zeigt aber, dass auf diese Weise immer wieder Suchbegriffe auftauchen, die einem vorher beim besten Willen nicht einfallen wollten. Englische Suchbegriffe finden Wer seine Webseite für den englischsprachigen Markt optimieren will und daher auf der Suche nach englischen Keywords ist, der wird unter http://www.wordtracker.com/ fündig. Billig ist dieser Service mit 140 bzw. 274 US-Dollar allerdings nicht.
4.1.3 Schlüsselwörter im richtigen Leben finden Bei der Wahl der richtigen Schlüsselwörter, sollten Sie sich nicht allein auf technische Helferlein verlassen. Auch im »echten Leben« gibt es ausreichend Hilfestellungen, die bei der Keyword-Suche helfen können. Zunächst sollten Prospekte beziehungsweise Werbe-Flyer studiert werden. Das können die aus dem eigenen Unternehmen ebenso wie die konkurrierender Firmen sein. Schreiben Sie alle Wörter heraus, die nicht zum Grundwortschatz gehören und die als Schlüsselwörter infrage kommen. Wichtig ist die Verwertung öffentlich zugänglicher Quellen vor allem deswegen, weil Suchende vorgegebene Suchbegriffe nur selten variieren. Wer hundertmal in Prospekten einen bestimmten Begriff gelesen hat, der wird diesen auch bei seiner Online-Recherche verwenden. Prospekte sind natürlich nur eine Möglichkeit. Hier eine Liste weiterer alternativer Keyword-Quellen: Werbung und Anzeigen in Zeitschriften Mitarbeiterbefragungen Pressemitteilungen Messekataloge Gelbe Seiten Fachbücher
72
Schlüsselwörter finden und einsetzen
Diese Liste ließe sich beliebig fortsetzen, macht aber auch in ihrer Kürze eines deutlich: Auf gute Schlüsselwörter kann man überall stoßen. Selbst ein zwangloses Gespräch in der Familie oder im Freundeskreis kann die zündende Idee liefern.
4.2 Suchbegriffe ordnen und bewerten Nachdem Sie eine Liste möglicher Suchbegriffe zusammengetragen haben, gilt es nun, diese Liste zu bereinigen. Am besten funktioniert das anhand einer Tabelle, die man im Idealfall in einer Tabellenkalkulation wie Calc oder Excel anlegt. Diese Tabelle sollte die folgenden Spalten enthalten: Eigendefinition – Tragen Sie hier die Schlüsselwörter und Phrasen ein, mit denen das Webprojekt am treffendsten beschrieben werden kann. Sortieren Sie diese Liste nach Ihren eigenen Prioritäten. Fremddefinition – Überlegen Sie, wie die anvisierte Zielgruppe das Webprojekt beschreiben und vermutlich danach suchen würde. Popularität – Überprüfen Sie, wie populär die einzelnen Suchbegriffe und Phrasen sind. Das gelingt am besten über die Keyword-Tools der Suchmaschinen. Bei denen wird zu jedem Keyword das entsprechende Suchaufkommen angezeigt. Konkurrenzanalyse – Geben Sie den Suchbegriff in die betreffende Suchmaschine ein und überprüfen Sie, wie viele Seiten in den Ergebnislisten erscheinen. KEI – Aus der Suchhäufigkeit (Popularität) und der Treffermenge (Konkurrenzanalyse) wird der Keyword Efficiency Index (KEI) ermittelt. Hier muss man nicht streng mathematisch vorgehen. Eine einfache Sicht-Analyse tut es auch. Am Ende sollten Sie eine Tabelle vor sich haben, in der etwas 20 bis 30 Keywords stehen, die nach ihrer Relevanz sortiert sind. Die ermittelten Schlüsselwörter dienen als Ausgangspunkt für die weitere Optimierung der Seiten.
4.3 Eigenschaften der Schlüsselwörter Nachdem Sie die passenden Schlüsselwörter für Ihre Seite gefunden haben, müssen diese natürlich korrekt integriert werden. Denn bekanntermaßen wird im richtigen Leben zwischen Groß- und Kleinschreibung, Ein- und Mehrzahl sowie zwischen Getrennt- und Zusammenschreibung unterschieden. Die folgenden Abschnitte zeigen, was bei den Schlüsselwörtern zu beachten ist.
73
Kapitel 4
Unterschied zwischen Groß- und Kleinschreibung Mittlerweile gibt es kaum noch Suchmaschinen, die zwischen Groß- und Kleinschreibung unterscheiden. Aus Sicht einer Suchmaschine ist das Notebook auch ein notebook. Die meisten Suchmaschinen verarbeiten die Suchbegriffe konstant in Kleinschreibung. Es spielt also keine Rolle, ob die Schlüsselwörter groß- oder kleingeschrieben werden.
Einzahl oder Mehrzahl Suchmaschinen unterscheiden im Allgemeinen zwischen Wörtern im Singular und Wörtern im Plural. Demnach ist es durchaus ein Unterschied, ob ein potenzieller Kunde nach T-Shirt oder T-Shirts sucht. Beide Wörter sind für Suchmaschinen normalerweise zwei unterschiedliche Begriffe. Demzufolge müssen Sie dafür sorgen, dass beide Varianten auf der Webseite vorkommen. Eine Aussage, ob Benutzer von Suchmaschinen vermehrt nach Plural oder Singular suchen, lässt sich pauschal leider nicht treffen. Hier muss im Einzelfall entschieden werden. Allerdings gibt es durchaus Begriffe, die häufiger im Plural verwendet werden. Solarzellen Bücher Uhren Ebenso existierten zahlreiche Wörter, nach denen oft in der Einzahl gesucht wird. Laptop Hotel Telefon Natürlich handelt es sich hier nur um Erfahrungswerte und vielleicht suchen gerade Sie nicht nach dem Hotel, sondern immer nach den Hotels. Das sogenannte Stemming wird derzeit von Suchmaschinen kaum genutzt. Dabei wird versucht, die Pluralform eines Begriffs auf seinen Stamm zurückzuführen. Auf diese Weise sollen Substantivformen im Singular gefunden werden. Dass Stemming aber durchaus funktioniert, zeigen die Suchergebnisse bei den bezahlten Links von Yahoo!. Für die Suchmaschinen-Betreiber hat das Stemming den Vorteil, dass die Zahl relevanter Treffer maximiert, die Suche beschleunigt und der benötigte Speicherplatz reduziert wird. Derzeit wird Stemming vor allem im englischen Sprachraum genutzt. In deutschen Suchmaschinen findet es hingegen kaum statt.
74
Schlüsselwörter finden und einsetzen
Abbildung 4.5: Yahoo! setzt das Stemming bei den Sponsoren-Links ein.
> >
>
HINWEIS
Ohnehin gehen die Suchmaschinen mit größter Vorsicht an das Thema Stemming heran. Enthält ein Wort seinen Stamm, wird es tatsächlich dem Stamm zugerechnet, umgekehrt gilt das allerdings nicht. Eine Seite auf der T-Shirts steht, wird normalerweise auch bei dem Suchbegriff T-Shirt angezeigt, umgekehrt aber nicht.
Getrennt oder zusammen Auch hier unterscheiden Suchmaschinen. Der Pommeranzer Seopard ist etwas anderes als der Pommeranzerseopard. Die Erfahrung hat gezeigt, dass man normalerweise immer auf getrennt geschriebene Wörter zurückgreifen sollte. Denn die meisten Nutzer von Suchmaschinen geben die Suchbegriffe im Zweifelsfall getrennt ein.
Wortkombinationen und Wortnähe Die meisten Benutzer von Suchmaschinen geben nicht nur ein Schlüsselwort ein, sondern suchen nach Wortkombinationen. Die folgende Tabelle zeigt, auf wie viele Suchbegriffe sich die Anfragen aufteilen: Anzahl der Suchbegriffe
Anteil (gerundet)
1
40 %
2
34 %
3
16 %
Tabelle 4.1: Die Mehrheit sucht nach mehr als einem Begriff.
75
Kapitel 4
Anzahl der Suchbegriffe
Anteil (gerundet)
4
6%
5
2%
>5
1%
Tabelle 4.1: Die Mehrheit sucht nach mehr als einem Begriff. (Fortsetzung)
Wortkombinationen bieten enorme Möglichkeiten. Denn während die Chance, durch einzelne Begriffe eine Top-Platzierung zu erreichen, vergleichsweise gering ist, kann man mit einer Kombination aus zwei oder drei Begriffen erstaunliche Erfolge erzielen. Bei der Definition von Wortkombinationen ist unbedingt auf die richtige Reihenfolge zu achten. (Ausführliche Informationen dazu erhalten Sie auch im nächsten Abschnitt.) TIPP
Welche Wörter für die Wortkombination am besten geeignet sind, können Sie anhand Ihrer eigenen Suchtechnik herausfinden. Vielleicht gehören Sie auch zu denjenigen, die zunächst nur einen Suchbegriff eingeben. Sind die Suchergebnisse dann zu umfangreich und nicht befriedigend, tragen viele Anwender hinter dem ersten einen zweiten Suchbegriff ein. Versuchen Sie, die Wortkombinationen in dieser Reihenfolge zu gestalten. Als erstes Schlüsselwort sollte immer das für die Seite wichtigste auftauchen.
Nun ist es nicht immer möglich, Schlüsselwörter direkt aufeinanderfolgen zu lassen. Das muss aber auch nicht sein. Aus hotel berlin kann man auf der Webseite unser hotel in berlin machen. Es können durchaus andere Wörter zwischen den Schlüsselbegriffen stehen. Allerdings ist darauf zu achten, dass der Abstand nicht zu groß ist und nicht zu viele andere Wörter zwischen den Schlüsselwörtern stehen. Die folgende Abbildung zeigt, dass Yahoo! tatsächlich mit dem Prinzip der Wortnähe umgehen kann und entsprechende Ergebnisse liefert:
Links- oder rechtsrum Suchmaschinen liefern durchaus unterschiedliche Suchergebnisse, wenn man einmal hotel berlin und einmal berlin hotel eingibt. In welcher Reihenfolge Sie die Schlüsselwörter notieren, muss im Einzelfall entschieden werden. Am besten verwenden Sie beide Varianten.
76
Schlüsselwörter finden und einsetzen
Abbildung 4.6: Yahoo! versteht das Prinzip der Wortnähe.
Sonderzeichen Beim Einsatz von Sonderzeichen gibt es immer wieder Schwierigkeiten. Zunächst einmal stellt sich die Frage, was im Web überhaupt ein Sonderzeichen ist. Hierzu zählen unter anderem Klammern, Bindestriche, Unterstriche und Punkte. Andere Sonderzeichen, die hauptsächlich im Programmierumfeld eingesetzt werden, kommen bei einer normalen Keyword-Definition kaum vor. Trifft eine Suchmaschine auf ein Wort, das Sonderzeichen enthält, werden diese herausgefiltert. Was dabei genau gefiltert wird, hängt letztendlich von der jeweiligen Suchmaschine ab. Bedenken Sie das bei der Suche nach Schlüsselwörtern. Ein typisches Beispiel für Sonderzeichen ist das Wort E-Mail. Korrekt wird es mit einem Bindestrich geschrieben. Gibt man nun aber zum Beispiel dieses Wort bei Yahoo! ein, werden interessante Treffer angeboten. Hier eine kleine Auswahl: E Mail E – Mail e- mail [e]mail E-Mail e.Mail Der Suchmaschine Yahoo! sind die Sonderzeichen in den Schlüsselwörtern weitestgehend egal. Die Suche nach dem korrekt geschriebenen Begriff E-Mail fördert solche Stilblüten wie [e]mail zutage. Für Sie bedeutet das, dass Sie keinesfalls auf Sonderzeichen verzichten müssen.
77
Kapitel 4
Ebenfalls in die Kategorie Sonderzeichen fallen Umlaute. Machen Sie doch einmal die Probe aufs Exempel und geben Sie in Yahoo! als Suchbegriff das ä ein.
Abbildung 4.7: Mit Umlauten hat Yahoo! keine Probleme.
Die Abbildung zeigt, dass Yahoo! das ä wie ein ae behandelt. Und genauso verfahren auch viele andere Suchmaschinen-Betreiber. Aus ü wird ue, aus ö wird oe und so weiter. Sie können also durchaus Umlaute verwenden. Aus Sicht der Suchmaschine ist das völlig in Ordnung und hat keinen negativen Einfluss auf das Ranking der Seite. Einige Suchmaschinen wie Yahoo! reagieren übrigens allergisch auf das &-Zeichen. Dort wo es möglich ist, sollte es durch das Wort und ersetzt werden. HTML-Entities Immer wieder wird darauf hingewiesen, dass man Umlaute mit ihren entsprechenden HTML-Entities ersetzen sollte. Anstelle von ä solle man also ä notieren. Das ist sicherlich korrektes HTML, nötig ist dieser Aufwand allerdings nicht. Es genügt, wenn Sie im -Bereich der Seite das Metatag zur Angabe der Zeichencodierung <meta http-equiv=»content-type« content=»text/html; charset=ISO-8859-1« /> notieren. Auf so ausgezeichneten Webseiten können Umlaute ganz normal eingetragen werden. Moderne und die meisten älteren Browser können die Datei dann korrekt verarbeiten.
Stoppwörter Es gibt Wörter im Text, die zwar oft vorkommen, die von Suchmaschinen allerdings anders als normale Schlüsselwörter gewertet werden. Bei diesen sogenannten Stoppwörtern handelt es sich unter anderem um Artikel (der, die, das, ein, eine, eines), Präposi-
78
Schlüsselwörter finden und einsetzen
tionen (in, unter, auf), Pronomen (ich, du, er, sie, es) und Adverben (hier, dort, da). Normalerweise wird nach Formulierungen ohne Stoppwort gesucht. Noch vor gar nicht allzu langer Zeit ignorierten die meisten Suchmaschinen solche Stoppwörter. Mittlerweile hat sich das allerdings geändert. So liefert die Suche nach hotel in berlin andere Suchergebnisse als hotel berlin. Es kann also durchaus sinnvoll sein, Stoppwörter zu verwenden.
Alte oder neue Rechtschreibung Schwierig ist auch die Frage, ob die alte oder neue Rechtschreibung berücksichtigt werden soll. Sucht der potenzielle Besucher nach Delfin oder Delphin? Auch hier lässt sich nicht vorhersagen, was für Suchbegriffe eingegeben werden. Zudem verwenden viele Suchmaschinen kein Wörterbuch, sodass Begriffe nach neuer Rechtschreibung andere Suchergebnisse liefern als solche, die sich noch an der alten Rechtschreibregel orientieren. Einer dieser Vertreter ist zum Beispiel Yahoo!. Anders sieht es bei Google aus. Gibt man dort Delfin ein, werden auch Seiten mit Delphin gefunden.
Abbildung 4.8: Die Schreibweise der Suchbegriffe kann variieren.
Allerdings macht Google leichte Unterschiede in den Rangpositionen, je nachdem, ob nach Delfin oder Delphin gesucht wurde.
79
Kapitel 4
Welche Schreibweise Sie verwenden, hängt sicherlich vom Einzelfall ab. Normalerweise sollten Sie sich aber an die neue deutsche Rechtschreibung halten. Und vor allem, wenn Sie sich für eine Schreibweise entschieden haben, diese dann auch konsequent beibehalten.
Regionale Sprachunterschiede Ist es das Brötchen oder die Semmel? Suchen Leute eher nach dem Knüstchen, Kanten, Knörzel oder Scherzl?14 Auch hier fällt die Wahl nicht leicht. Stellen Sie sich die Frage, ob Ihre Seite einen regionalen Bezug hat. Wer zum Beispiel eine Seite für eine Bäckerei in Berlin betreibt, der sollte den Begriff Brötchen verwenden. Anders würde es bei einer bayerischen Bäckerei aussehen. Dort notiert man als Schlüsselwort besser Semmel. Hat die Seite keinen regionalen Bezug, sollte man auf Begriffe aus dem Hochdeutschen zurückgreifen.
Fach- oder Laienbegriff Beschäftigt man sich mit einem Thema sehr lange, wird man schnell »betriebsblind«. Oft wirft man dann mit Fachbegriffen nur so um sich und denkt, dass sie jeder versteht. Dem ist allerdings nicht so. Verwenden Sie weitestgehend Begriffe, nach denen potenzielle Besucher auch tatsächlich suchen würden, beziehungsweise die diese auch wirklich kennen. TIPP
Wer zum Beispiel eine Webseite für eine kleine Werbeagentur entwickelt, der sollte auch an Malermeister Müller denken, der eben nicht unbedingt nach virales Marketing, Public Relations oder Guerilla-Marketing sucht, sondern Begriffe wie Werbung, Broschüren und Visitenkarten eingibt. Überall dort, wo Laien angesprochen werden, sollte man auch Laienbegriffe verwenden. Andererseits gilt es natürlich im professionellen Umfeld, auch professionelle Keywords zu verwenden.
4.3.1 Rechtschreibfehler einbauen Gibt man bei Google das Wort Östereich ein, bekommt man immerhin 1.170.000 Treffer angezeigt. Nun ist das für Google-Verhältnisse ein normaler Wert. Führt man sich allerdings vor Augen, dass es nicht Östereich, sondern Österreich heißen muss, ist die Zahl enorm. Auf 1.170.000 Dokumenten wussten die Leute nicht, wie Österreich geschrieben wird oder haben sich vertippt. Dieser Aspekt macht deutlich, welch enormes Potenzial in falsch geschriebenen Schlüsselwörtern steckt.
14 Wem die Begriffe nichts sagen: Das alles sind Umschreibungen für das mitunter harte Endstück des Brotes.
80
Schlüsselwörter finden und einsetzen
Man kann eine falsche Rechtschreibung für seine eigenen Seiten dazu nutzen, Benutzer bei entsprechender Fehleingabe auf seine Seiten zu lotsen. Besonders interessant ist dies bei typischen Tippfehlern. Durchsuchen Sie dazu Ihre Keyword-Liste nach Wörtern, bei denen es erfahrungsgemäß zu Buchstabendrehern kommt oder von denen Sie wissen, dass sie oft falsch geschrieben werden. Einige Beispiele für typische Tippfehler sind zum Beispiel auf der Seite http://de.wikipedia.org/wiki/Wikipedia_Diskussion: Liste_von_Tippfehlern aufgeführt. vieleicht ereigniss maschiene orginal Anschaung Enstehung ensteht enstanden verständis Menscheit Aktzeptanz bedeutenste östereich östereichisch Enwicklung enwickelt hobbies Viele Suchmaschinen besitzen mittlerweile eine Korrekturfunktion, über die man auf falsch eingegebene Suchbegriffe aufmerksam gemacht wird. Gibt man bei Google zum Beispiel Brytney Spears ein, erkennt Google, dass da etwas nicht stimmt und zeigt den Text Meinten Sie: britney spears an.
Abbildung 4.9: Auch falsch geschriebene Wörter liefern zahlreiche Treffer.
So interessant die Möglichkeiten der fehlerhaften Rechtschreibung auch klingen mögen, einen entscheidenden Nachteil haben sie: Falsch geschriebene Wörter zeugen von wenig Kompetenz und wirken unseriös. Daher sollten Sie auf jeden Fall für die falsch geschriebenen Wörter eine eigene Seite einbinden, die eine Kopie der eigentlichen Seite darstellt, in der die korrekten Schlüsselbegriffe stehen. So wird die Seite bei korrekten und falsch geschriebenen Suchbegriffen gefunden.
81
Kapitel 4
4.3.2 Schlechte Suchbegriffe vermeiden Sie haben gesehen, wie man gute Schlüsselwörter findet. Im Umkehrschluss gilt es dann natürlich, schlechte Keywords zu vermeiden. Den Abschluss dieser KeywordFindungs-Abschnitte bildet daher eine Anleitung, die Ihnen dabei helfen soll, den Einsatz ungeeigneter Schlüsselwörter auszuschließen. Vermeiden Sie, Wörter durch Zahlen zu ersetzen. Anstelle von er wurde 3. schreiben Sie er wurde dritter. Würden Sie auf einen Link in der Trefferliste klicken, der mit wir sind ohnehin die Besten beschrieben ist? Genau aus diesem Grund, sollten Sie auf Superlative wie bester, größter, ultimative usw. verzichten. Vermeiden Sie die Nennung von Konkurrenzprodukten oder Konkurrenzfirmen. Das kann schnell zu Abmahnungen führen. Verwenden Sie nur solche Schlüsselwörter, die auch tatsächlich in Bezug zu Ihrer Seite stehen. Es bringt überhaupt nichts, wenn auf einer Bäckerei-Webseite mit Schlüsselwörtern für Pornoseiten oder Ähnliches geworben wird. Selbst wenn solche Methoden nicht direkt von den Suchmaschinen erkannt werden, der Besucher erkennt den Betrug sofort. Dass er daraufhin Ihre Seite meiden wird, steht außer Frage.
4.4 Keyword-Fallbeispiele In der Theorie klingt die Keyword-Findung immer sehr leicht. Ein bisschen Überlegen hier, ein bisschen Recherchieren da und schon hat man die perfekten Schlüsselwörter. Allerdings zeigt die Erfahrung, dass man oft vor einem leeren Blatt Papier (bzw. einer leeren Excel-Tabelle) sitzt und keinerlei Ideen für gute Keywords hat. Das liegt vor allem daran, dass man eigentlich noch nie in der Praxis gesehen hat, wie die »Profis« Keyword-Listen erstellen. Auf den folgenden Seiten wird genau das anhand dreier Beispiele gezeigt.
4.4.1 Ein Berliner Hotel In Berlin gibt es bekanntermaßen sehr viele Hotels, sodass hier optimale Keywords »überlebenswichtig« sind. Zunächst natürlich die Klassiker: Hotel Berlin Hotel in Berlin
82
Schlüsselwörter finden und einsetzen
Für viele Besucher ist eine weitere regionale Eingrenzung interessant. In Berlin bietet sich daher die Nennung des Stadtteils an. Hotel in Berlin Mitte Hotel in Berlin Friedrichshain Hotel in Berlin Prenzlauer Berg Ebenso könnte man natürlich auch die Tatsache ausnutzen, dass viele Geschäftsreisende (möglicherweise auch aus dem Ausland) in Berlin übernachten wollen. Messe Hotel Berlin Trade fair Hotel Berlin Kongress-Hotel Berlin Business-Hotel Berlin Natürlich kann man auch die Reiselust der Leute ausnutzen und diese in die Suchbegriffe mit einfließen lassen. Übernachten in Berlin Kurztripp Berlin Vergessen sollte man natürlich auch nicht, den Namen des Hotels zu integrieren. Dabei ist darauf zu achten, dass es sich dabei tatsächlich um den Namen des eigenen Hotels handelt. Etap Hotel Berlin Hotel Adlon Berlin
4.4.2 Ein Möbelhaus Möbelhäuser haben es nicht leicht. Denn die Konkurrenz besteht in vielen Städten nicht nur aus kleinen Konkurrenzgeschäften, sondern auch der »gelbe Riese« schnappt viele potenzielle Kunden weg. Im einfachsten Fall würde man seine Seiten auf die folgenden Suchbegriffe hin optimieren: Möbelhaus Berlin Einrichtungshaus Berlin Möbelmarkt Berlin Das ist natürlich eine Möglichkeit. Die Konkurrenz bei so allgemein gehaltenen Suchbegriffen ist allerdings sehr groß. Besser ist es, wenn man sich auf die Bedürfnisse der potenziellen Kunden konzentriert. Dazu überlegt man sich, warum Kunden nach einem Möbelhaus suchen, beziehungsweise was sie dort kaufen wollen.
83
Kapitel 4
Lampen kaufen Berlin Sitzbank Möbelhaus Berlin Designermöbel Berlin Man kann auch noch einen Schritt weiter gehen, indem man direkt die Namen der Produkte eingibt, die man verkauft und von denen man annimmt, dass nach ihnen gesucht wird. Rolf Benz Möbel Berlin Stressless Möbel Berlin Auf diese Weise lotst man dann auch Leute auf seine Seiten, die genau wissen, was sie wollen, und deswegen ganz spezielle Suchbegriffe eingeben.
4.4.3 Anbieter von Städtereisen Auch hier zunächst wieder der »übliche Verdächtige«: Städtereisen Damit allein wird die Konkurrenz allerdings sehr groß sein und die Wahrscheinlichkeit für eine Top-Platzierung ist sehr gering. Der Suchbegriff kann und sollte also durchaus noch aufgepeppt werden. Städtereisen günstig Städtereisen Berlin Städtereisen Europa Stadt reise Berlin Möglich sind auch Schlüsselwörter, die sich an den Bedürfnissen beziehungsweise Kundenwünschen der Suchenden orientieren. So spielt vor allem auf dem Markt der Kurzreisen bei vielen Benutzern der Preis eine wichtige Rolle. Ist Ihre Webseite nicht gerade auf exklusive Reisen spezialisiert, können Sie ganz gezielt mit dem günstigen Preis werben. Kurztripp Berlin Wochenendausflug Berlin Billigflug London Busfahrt London
84
Schlüsselwörter finden und einsetzen
Billig London fliegen Günstige Londoner Hotels Urlaub in London Eine weitere Möglichkeit besteht darin, Suchbegriffe zu verwenden, die den Reisezweck widerspiegeln. Gerade bei Kurztripps stehen bekanntermaßen Shopping und Spaß im Vordergrund. Shoppen London Single Reisen London Urlaub im August Reisen nach London Stadt reise programm
4.5 Inhalte anpassen Nachdem die passenden Schlüsselwörter gefunden sind, müssen sie auf der Seite platziert werden. Dabei ist es nicht egal, wo die Wörter im Text stehen und wie oft sie auf der Seite vorkommen. Denn wer Aspekte wie Keyword-Dichte und Keyword-Prominenz vernachlässigt, wird trotz gut gewählter Schlüsselwörter nicht den gewünschten Erfolg erzielen.
4.5.1 Die optimale Keyword-Dichte (Keyword Density) Sehr große Bedeutung beim Ranking einer Seite spielt die Keyword-Dichte. Wörter die auf einer Seite oft vorkommen, erzielen eine bessere Position in den Suchergebnissen. Im Idealfall schreibt man einen Text, der das Thema der Webseite widerspiegelt. In diesem Text werden dann die für die Seite relevanten Schlüsselwörter zwangsläufig das ein oder andere Mal auftauchen. Suchmaschinen ermitteln für jedes Wort, wie oft es auf der Webseite vorkommt – und zwar in Relation zu den anderen Wörtern. Dieses Verhältnis wird als Keyword-Dichte bezeichnet. Ein einfaches Rechenbeispiel soll die Ermittlung der Keyword-Dichte demonstrieren. Angenommen, auf einer Seite stehen 100 Wörter. Davon kommt exakt fünf Mal das Wort Notebooks vor. Das bedeutet für Notebooks eine Keyword-Dichte von 5 %. Kommt auf der gleichen Seite das Wort Desktop-PC nur einmal vor, liegt dessen Keyword-Dichte bei 1 %. Die Suchmaschinen gehen nun davon aus, dass die Seite mehr mit Notebooks als mit Desktop-PCs zu tun hat.
85
Kapitel 4
!
!
!
ACHTUNG
Nun könnte man auf die Idee kommen, seine Seite mit Schlüsselwörtern vollzupacken, um so die Keyword-Dichte künstlich zu erhöhen. Suchmaschinen mögen dieses sogenannte Keyword-Stuffing allerdings überhaupt nicht und bannen solche Seiten aus dem Index. Die Suchmaschinenbetreiber gehen mittlerweile davon aus, dass die optimale Stichwortdichte zwischen drei und acht Prozent liegt. Noch bis vor kurzer Zeit galt zwar noch eine Keyword-Dichte von zehn Prozent als Garant für eine gute Platzierung, diese Quote wurde allerdings gesenkt. Und das scheint auch logisch. Oder möchten Sie einen Text lesen, in dem jedes zweite Wort Notebook ist? Allerdings gilt die vorherige 10-%-Aussage nicht uneingeschränkt. So gibt es durchaus gut platzierte Seiten, die eine Keyword-Dichte von 13 und manchmal sogar von 15 Prozent aufweisen. Dieses Phänomen tritt vor allem bei Google auf, und zwar dann, wenn die Suchanfragentreffer einen niedrigen oder gleichen PageRank besitzen. Der Grund dafür ist, dass die von Google verwendete Linkanalyse bei der Relevanzberechnung gleich starker Webseiten nicht greifen kann. Dennoch sollten Sie sich davor hüten, die Keyword-Dichte künstlich höher als die bereits erwähnten acht Prozent zu treiben. Denn was bei Google (derzeit) funktioniert, führt bei anderen Suchmaschinen zur Abstrafung. Im schlimmsten Fall wird die Seite als Spam eingestuft und aus dem Index entfernt.
Jetzt stellt sich noch die Frage, an welcher Stelle im Text man die Schlüsselwörter positionieren soll. Normalerweise sollten sie möglichst früh im Text unter den ersten 200 bis 400 Zeichen stehen. Dahinter steht das bekannte journalistische Prinzip der invertierten Pyramide. Diese Technik besagt, dass die wichtigsten Elemente einer Story an den Anfang gesetzt werden. Mit zunehmendem Textverlauf nimmt die Bedeutung des Textes ab. Angewendet wird die invertierte Pyramide vor allem in Verbindung mit Pressemitteilungen. Erhält ein Redakteur eine Pressemitteilung von einem Unternehmen zugeschickt und diese ist zu lang, braucht er sie normalerweise nur vom Ende aus zu kürzen. Sortieren Sie zunächst Ihre Ideen und arbeiten Sie die einzelnen Themenbereiche aus. Wählen Sie anschließend den Hauptpunkt eines Themas und sortieren Sie unter diesem die anderen Elemente. Eine typische Textstruktur für eine Webseite könnte dann folgendermaßen aussehen: [...]
Überschrift
Schlüsselwort Text Schlüsselwort
Überschrift Unterthema
Schlüsselwort Text Schlüsselwort
Überschrift Unterthema
Schlüsselwort Text Schlüsselwort
[...]
Achten Sie darauf, dass in den Überschriften Schlüsselwörter platziert sind. Zusätzlich sollte, wie bereits erwähnt, der erste Abschnitt relevante Schlüsselwörter enthalten. Am Ende der Seite sollten dann erneut Schlüsselwörter auftauchen. Das lässt sich erfahrungsgemäß über ein Fazit des vorangegangenen Textes oder eine kurze Zusam-
86
Schlüsselwörter finden und einsetzen
menfassung des vorgestellten Produkts realisieren. Zusätzlich empfiehlt es sich am Ende der Webseite eine Liste mit den wichtigsten Links der Webseite unterzubringen, wobei die Linktexte auch wieder Schlüsselwörter enthalten sollten. Bei dem zuvor gezeigten Beispiel-Quelltext haben Sie gesehen, dass für die Kennzeichnung von Absätzen das
-Tag verwendet wurde. Das entspricht so nicht nur korrekter HTML-Syntax, sondern ist auch für die Suchmaschinen-Optimierung interessant. Denn die durch
ausgezeichneten Absätze werden von einigen Suchmaschinen einzeln ausgewertet. Und genau hier liegt die Angriffsfläche. Platzieren Sie in jedem Abschnitt Schlüsselwörter zu einem Hauptthema. Denn Suchmaschinen gehen davon aus, dass nur so strukturierte Texte für den Benutzer gut zu lesen sind und bewerten die Seite entsprechend positiv.
Die tatsächliche Wortdichte ermitteln Die Keyword-Dichte kann anhand einer einfachen Formel berechnet werden. Anzahl der Keywords / Gesamtzahl der Wörter im Dokument * 100 = Wortdichte (in %)15 Nun erwartet niemand von Ihnen, dass Sie sich hinsetzen, die Wörter auf der Webseite zählen und dann den Taschenrechner zücken. Es gibt Online-Tools, die Ihnen diese Arbeit abnehmen und die tatsächliche Keyword-Dichte ermitteln. Eines davon ist unter http://www.webjectives.com/keyword.htm zu finden. Nachdem man den URL und das entsprechende Schlüsselwort eingetragen und auf Analyze geklickt hat, beginnt das Tool mit der Analyse. Im folgenden Beispiel wurde die Startseite der Süddeutschen Zeitung auf das Wort sport hin untersucht. Hier das Ergebnis: The results of the analysis for "sport" at www.sueddeutsche.de are as follows: Title: There are no keyword(s)in the title. Frequency in the title = 0 Weighted Keyword Density in the title= 0% Description Meta Tag: There are 29 words in the description. Frequency in the description = 1 Weighted Keyword Density in the description= 3.45%
15 Diese Formel liefert nur einen ungefähren Wert. Denn Sie werden bei einem Vergleich der entsprechenden Online-Tools feststellen, dass diese jeweils leicht unterschiedliche Keyword-Dichten liefern. Allerdings sind die Unterschiede marginal und können außer Acht gelassen werden.
87
Kapitel 4 Keywords Meta Tag: There are 25 words in the keyword meta tag. Frequency in the keyword meta tag = 1 Weighted Keyword Density in the keyword meta tag= 4% If you want to know the best keywords for your keywords meta tag, click here. Body Tag: There are 2059 words in the body. Frequency in the body = 5 Weighted Keyword Density in the body= 0.24% Heading (H1) Tags: There are 314 words in the Heading tags. Frequency in the Heading tags = 4 Weighted Keyword Density in the Heading tag= 1.27% Alt Tag: There are 230 words in the alt tags. There are no keywords in the alt tags. A HREF Tag Link Text: There are 2027 word(s) in the href tags. Frequency in the HREF tags = 5 Weighted Keyword Density in the HREF tag= 0.25% A HREF Tag URL: Frequency in the href tags URL = 35 HTML Comment Tag: There are 1272 word(s) in the comment tags. Frequency in the comment tags = 2 Weighted Keyword Density in the comment tag= 0.16% Total: There are 2123 word(s) in the entire page Frequency for the page = 58 Weighted Keyword Density for the page= 2.73%
Interessant sind vor allem die Angaben im Bereich des
-Tags. Dort ist all das zusammengefasst, was der Besucher beim Aufrufen der Seite zu Gesicht bekommt. Es wird deutlich, dass auf der Seite 2.056 Wörter stehen. Davon handelt es sich bei fünf um sport. Das entspricht einer Quote von gerade einmal 0,24 Prozent. Nun handelt es sich bei der Süddeutschen Zeitung um keine Sport-Gazette. Würde dieser geringe Wert allerdings bei einem reinen Sportblatt ermittelt werden, müsste definitiv nachgebessert werden.
88
Schlüsselwörter finden und einsetzen
Abbildung 4.10: Die Schlüsselwortdichte lässt sich ganz bequem online ermitteln.
Anhand einer solchen Analyse können Sie ganz gezielt Ihre eigene oder die Webseite eines Konkurrenten überprüfen. Einen anderen Weg geht das Tool von Die Suchmaschinen Site, das unter http:// www.kso.co.uk/cgi-bin/checkkeys.cgi kostenlos zur Verfügung steht. Nachdem man dort den URL der zu analysierenden Seite eingetragen hat, werden die 25 wichtigsten Suchbegriffe aufgelistet. Dieses Tool eignet sich hervorragend zur Konkurrenzanalyse, schließlich kann man so blitzschnell erkennen, welche Wörter in welcher Häufigkeit auf der angegebenen Seite eingesetzt werden. Die zwei genannten Tools stellen nur eine kleine Auswahl dar. Vielleicht sagen Ihnen beide nicht zu und Sie sind auf der Suche nach einer entsprechenden Alternative. Die folgende Tabelle hilft Ihnen dabei:
89
Kapitel 4
Abbildung 4.11: Auch dieses Tool leistet wertvolle Dienste. Name
URL
Beschreibung
Keyword Density Analyzer http://www.keyworddensity.com/
Nach der Eingabe von bis zu zwei URLs und des Schlüsselworts wird die Keyword-Dichte ermittelt. Als Option ist lediglich eine Unterscheidung zwischen Groß- und Kleinschreibung zuschaltbar.
Dieses Tool bietet sehr viele Optionen. So lässt sich nicht nur einstellen, ob ausschließlich Einzelbegriffe vorkommen dürfen, auch die Gewichtung von Metatags bei der Analyse lässt sich definieren.
Similar Page Checker
http://www.webconfs.com/ similar-page-checker.php
Anhand dieses Tools kann man ermitteln, wie stark sich zwei Seiten ähneln. Interessant ist das vor allem, um sogenannten Duplicated Content zu vermeiden.
Tabelle 4.2: Interessante Tools für die Keyword-Analyse
90
Schlüsselwörter finden und einsetzen
4.5.2 Die Keyword-Prominenz Keywords, die am Anfang eines Textes stehen, werden von Suchmaschinen relevanter als andere angesehen. Für Sie bedeutet das, dass Sie die für Ihre Seite relevanten Keywords an den Anfang der Seite stellen sollten. Das leider immer noch oft verwendete Willkommen auf unseren Seiten! sollte völlig gestrichen und durch einen Text ersetzt werden, der sinnvolle Schlüsselwörter enthält. Eine gute Einleitung könnte zum Beispiel folgendermaßen aussehen: Der Pommeranzer Seopard – Leben, Ernährung, Haltung Die klassische Begrüßung ist völlig inhaltsleer. Ruft man eine solche Seite auf, weiß man zunächst nicht, um was für eine Art von Seite es sich handelt. Und genauso geht es auch der Suchmaschine. Beim zweiten Text hingegen sehen Besucher und Suchmaschinen die wichtigsten Fakten gleich zu Beginn des Textes und können sich so schnell einen Eindruck vom zu erwartenden Seiteninhalt verschaffen.
> >
>
HINWEIS
Es ist sehr wohl von Bedeutung, welche Wörter an welcher Stelle im Text stehen. Das erste Wort eines Absatzes ist wichtiger als das letzte. Und ebenso ist das erste Wort im Satz wichtiger als das letzte. Dieser Aspekt macht deutlich, dass man nicht einfach Texte aus einer Broschüre für die Internetseite übernehmen kann. Suchmaschinengerechtes Texten ist durchaus anspruchsvoll, lässt sich aber erlernen.
91
5
Offpage-Optimierung Der Vorteil der Klugheit besteht darin, dass man sich dumm stellen kann. Das Gegenteil ist schon schwieriger.
Kurt Tucholsky, deutscher Schriftsteller
Jede einzelne Seite eines Webprojekts sollte perfekt optimiert werden. Mehr zu dieser sogenannten Onpage-Optimierung erfahren Sie im nächsten Kapitel. Zunächst geht es um Aspekte, die immer wieder vernachlässigt werden, was dann dazu führt, dass eigentlich gut optimierte Einzelseiten trotzdem nicht den gewünschten Erfolg bringen. Denn bei der Analyse von Dokumenten werden von Suchmaschinen vor allem auch die Linkstrukturen der Seite mit einbezogen. Für Sie als Optimierer gilt es daher, auch solche Überlegungen wie Seiten- und Linkstruktur sowie Datei- und Domain-Namen in die Gestaltung der Seiten einfließen zu lassen. Da viele Seitenbetreiber mit diesen Faktoren nachlässig umgehen, kann man sich hier einen Wettbewerbsvorteil verschaffen.
5.1 Strukturelle Vorüberlegungen Webseiten zu erstellen, ist zeit- und kostenintensiv. Umso wichtiger ist es da, dass bereits im Vorfeld geklärt wird, wie die Webseite strukturiert werden soll. Auf den folgenden Seiten erhalten Sie einen Überblick darüber, welche Überlegungen bereits im Vorhinein angestrengt werden sollten, damit es später nicht zu unangenehmen Überraschungen kommt.
Kapitel 5
5.1.1 Die Seitenstruktur zählt Die Webseite sollte einer möglichst flachen Ordnerstruktur folgen. Denn je weniger Ordner und somit je geringer die Verzeichnistiefe, umso besser können die Seiten später von den Suchmaschinen-Robots indexiert werden. Zusätzlich sollte man »sprechende« Verzeichnisnamen verwenden. Mehr zu diesem Aspekt im weiteren Verlauf dieses Kapitels. Zunächst eine typische Verzeichnisstruktur: Root --Verzeichnis1 ------Unterverzeichnis1 ------Unterverzeichnis2 ------------Weiteres_Unterverzeichnis1 ------------Weiteres_Unterverzeichnis2 ------------Weiteres_Unterverzeichnis3 ------Unterverzeichnis3 ------Unterverzeichnis4 --Verzeichnis2 --Verzeichnis3 Diese Struktur ist sehr übersichtlich und ermöglicht es auf den ersten Blick, thematische Zusammenhänge zwischen Verzeichnis und Inhalt herzustellen.16 So übersichtlich eine solche Verschachtelung auch sein mag, sie hat durchaus Nachteile. So können sich Besucher zum Beispiel die URLs aufgrund ihrer Länge nicht merken. Umgehen lässt sich dieses Problem, indem man eine sehr flache Hierarchie verwendet. Auch hierzu wieder ein Beispiel: Root --Verzeichnis1 --Unterverzeichnis1 --Unterverzeichnis2 --Weiteres_Unterverzeichnis1 16 Dieser Aspekt würde natürlich noch besser sichtbar werden, wenn „sprechende“ Verzeichnisnamen verwendet werden würden. Das Prinzip wird aber auch an diesem allgemein gehaltenen Beispiel deutlich.
94
Offpage-Optimierung
--Weiteres_Unterverzeichnis2 --Weiteres_Unterverzeichnis3 --Unterverzeichnis3 --Unterverzeichnis4 --Verzeichnis2 --Verzeichnis3 Ein schönes Beispiel dafür, wo eine flache Struktur sinnvoll verwendet wird, ist Wikipedia. Dort kann jedes Stichwort direkt über das Hinzufügen des Wortes an den URL erreicht werden. Will man zum Beispiel etwas über das DMOZ erfahren, tippt man in die Adresszeile einfach Folgendes ein: http://de.wikipedia.org/wiki/DMOZ Nun haben allerdings auch solche flachen Strukturen nicht nur Vorteile. Denn bereits bei vergleichsweise wenigen Verzeichnissen, wird es unübersichtlich. Wer seine Webseite allerdings nicht manuell, sondern zum Beispiel über ein CMS verwaltet, für den sind flache Strukturen ideal.
Die ideale Anzahl der Dateien in einem Verzeichnis In den einzelnen Verzeichnissen werden später natürlich Dateien platziert. Das sind meistens HTML- bzw. PHP-Seiten oder Grafiken. Eine feste Regel, wie viele Dateien man am besten in ein Verzeichnis legt, gibt es nicht. Und auch bei der Bewertung der Seite durch Suchmaschinen spielt es, soweit bekannt, keine Rolle, ob in einem Verzeichnis zehn oder eintausend Seiten liegen. Allerdings sollte man immer die Übersichtlichkeit des Projekts im Auge behalten. Denn sucht man später eine bestimmte Datei, klappt dies natürlich besser, wenn sie in einem Verzeichnis liegt, dessen Inhalt man überschauen kann.
5.1.2 Linkstruktur Die Bedeutung von Links für das Ranking der Seite haben Sie bereits kennengelernt. Deswegen sollte der Linkstruktur besondere Aufmerksamkeit zuteil werden. Denn die Suchmaschinen-Robots folgen den Links und indexieren auf diese Weise die Seite. Als Seitenbetreiber hat man dafür zu sorgen, dass die Robots alle Seiten problemlos über Links erreichen können. Dabei muss man nicht nur die Linkstruktur der eigenen Seite, sondern auch alle nach außen gehenden Links betrachten. Bei der Planung der Linkstruktur spielt die Homepage eine entscheidende Rolle. Denn in aller Regel handelt es sich bei ihr um die meistbesuchte Seite des Projekts, die in der Hierarchie ganz oben liegt. Die wichtigsten Inhalte sollten von der Homepage aus über
95
Kapitel 5
Links erreichbar sein. Normalerweise enthält die Homepage Verweise auf die in der Hierarchie untergeordneten Seiten. Auf diesen Seiten befindet sich eine Übersicht der entsprechenden Themen. In den meisten Fällen, und das gilt auch für große Projekte, ist es möglich, mit drei oder vier Klicks jede Unterseite von der Homepage aus zu erreichen. Um sicherzugehen, dass die Robots den Links tatsächlich folgen, sollten auf einer Seite nicht mehr als 50 bis 80 Links untergebracht werden. Im Normalfall sind es allerdings deutlich weniger Links und mehr Inhalt. Denn sonst passiert es schnell, dass Suchmaschinen hinter der Seite eine Linkfarm und somit einen Manipulationsversuch vermuten. Versuchen Sie, die Linkstruktur so zu erstellen, dass sie vom Besucher verstanden wird. Eine gut verständliche Linkstruktur wird normalerweise auch sehr gut von den Robots angenommen. Eine übersichtliche Linkstruktur könnte zum Beispiel folgendermaßen aussehen: Startseite ---Fußball ---Handball ---Golf ---US-Sport Wie unschwer zu erkennen ist, handelt es sich hier um eine Sportseite. In der obersten Navigationsebene unterhalb von der Startseite sind die einzelnen Sportarten aufgelistet. Klickt der Besucher auf eine der Sportarten, werden die dazugehörenden Untermenüpunkte angezeigt. Im folgenden Beispiel wird davon ausgegangen, dass auf Fußball geklickt wurde. Startseite ---Fußball ------Bundesliga ------2.Bundesliga ------Champions League ------UEFA-Cup ---Handball ---Golf ---US-Sport
96
Offpage-Optimierung
Hier werden die Menüpunkte für den Bereich Fußball angezeigt. Klickt der Besucher nun auf Bundesliga, öffnet sich eine weitere Ebene. Startseite ---Fußball ------Bundesliga ---------Statistik ---------Ergebnisse ---------Tabelle ------2.Bundesliga ------Champions League ------UEFA-Cup ---Handball ---Golf ---US-Sport Diese Struktur ist für den Besucher übersichtlich und einfach nachzuvollziehen. Eine alternative Möglichkeit wäre die sogenannte Breadcrumb-Navigation (zu Deutsch Brotkrümelnavigation) wie sie unter anderem von Yahoo! verwendet wird.
Abbildung 5.1: Im Verzeichnis von Yahoo! sieht man immer, an welcher Position man sich befindet.
97
Kapitel 5
So sieht man auf den ersten Blick an welcher Position man sich innerhalb der Seite befindet. Zusätzlich können die Links für die Platzierung von Keywords genutzt werden.
5.1.3 Verzeichnis- und Dateinamen Ein oft vernachlässigtes Thema sind die Verzeichnis- und Dateinamen. So bemühen sich zwar viele Seitenbetreiber aufwendig um ansprechende Domains, kümmern sich dann aber überhaupt nicht darum, wie die einzelnen Seiten heißen. Dabei bilden Verzeichnis- und Dateinamen die ideale Plattform zum Platzieren von Schlüsselwörtern. Und tatsächlich werden Dateinamen von Suchmaschinen indexiert und haben sogar ein höheres Gewicht als Schlüsselwörter in Domain-Namen. Dieses Potenzial sollte auf jeden Fall genutzt werden. Auf vielen Webseiten begegnen einem immer wieder Dateinamen, die für den Besucher und für die Suchmaschinen nichtssagend sind. start.html willkommen.html neues.html 97.html Für die Suchmaschinen sind solche Namen völlig uninteressant. Denn Suchmaschinen überprüfen, ob in den Dateinamen Schlüsselwörter enthalten sind. In den gezeigten Beispielen wären das start, willkommen, neues und 97. Für ein gutes Ranking sind diese Dateinamen nicht zu gebrauchen. Am besten verwendet man Schlüsselwörter, die so auch auf der Seite stehen. Um mehrere Schlüsselwörter miteinander zu kombinieren, verbindet man sie mit einem Bindestrich. Die verwendeten Schlüsselwörter sollten dabei natürlich auch tatsächlich auf der Seite vorkommen. Gute Dateinamen (zumindest, wenn es sich um eine Notebook-Seite handelt) sind zum Beispiel: notebooks-kaufen.html notebooks-berlin-vertrag.html notebooks-leasing.html Auf vielen Webseiten werden Dateinamen mit Unterstrichen ausgestattet. Aus notebooks-kaufen.html wird dort notebooks_kaufen.html. Allerdings führt der Unterstrich dazu, dass alle Keywords zu einem Schlüsselbegriff zusammengefasst werden. Aus notebooks_kaufen.html wird aus Suchmaschinen-Sicht notebookskaufen.html. Die beiden ursprünglichen Einzelwörter notebooks und kaufen werden zu notebookskaufen zusammengefügt. Aus diesem Grund sollte der Unterstrich nur verwendet werden, wenn
98
Offpage-Optimierung
Schlüsselwörter tatsächlich verbunden werden oder die Seite für eine bestimmte Schlüsselwort-Kombination (Phrase) optimiert werden soll. Im Normalfall sollte man demnach auf Bindestriche setzen. Achten Sie bei der Wahl des Dateinamens darauf, dass weder Umlaute noch Sonderzeichen enthalten sind. So wird garantiert, dass die Webseite problemlos nach einem Serverwechsel (zum Beispiel von Windows nach Linux) funktioniert. Neben den reinen Dateinamen spielen auch die Verzeichnisse eine wichtige Rolle. Denn die fließen ebenfalls in die Analyse mit ein. Hier empfiehlt es sich allerdings, ausschließlich das primäre Schlüsselwort zu verwenden. notebooks/notebooks-kaufen.html notebooks/notebooks-berlin-vertrag.html notebooks/notebooks-leasing.html Auf dieser Basis erhält man Adressen, die für Suchmaschinen interessant sind und die zu einem besseren Ranking verhelfen. Das gilt allerdings nur für den Fall, dass die verwendeten Schlüsselwörter auch tatsächlich im Dokument-Titel und im Dokument selbst vorkommen. Grafiken und Flash umbenennen Das zuvor Beschriebene gilt natürlich nicht nur für HTML- oder PHP-Dateien. Ebenso sollten auch Grafiken, Flash-Dateien, PDF-Dokumente und überhaupt alles, was sonst noch so auf der Webseite anfällt, passend benannt werden.
Verzeichnistiefe Im Zusammenhang mit den Verzeichnissen einer Webseite gibt es ein weiteres Phänomen, das nur wenig bekannt ist, dem von Suchmaschinen aber Bedeutung beigemessen wird: die Verzeichnistiefe. Denn Suchmaschinen gehen davon aus, dass die Bedeutung von Dokumenten abnimmt, je tiefer sie in der Verzeichnisstruktur liegen. Werfen Sie zur Veranschaulichung dieses Aspekts einen Blick auf die folgende Tabelle. URL
Tabelle 5.1: Unterschiedliche Verzeichnistiefen einer Webseite
99
Kapitel 5
Es gibt Suchmaschinen, die Webseiten nur bis zu einer gewissen Verzeichnistiefe indexieren. So will man vermeiden, dass besonders umfangreiche Seiten vollständig indexiert werden, da dies ansonsten zu Verschiebungen in der Qualität der Suchergebnisse führen würde. Für das Durchsuchen von Webseiten werden die beiden aus der Graphentheorie bekannten Methoden Breitensuche und Tiefensuche herangezogen. Bei der Breitensuche werden zunächst alle Links einer Seite verfolgt, anschließend alle Links der nächsten Seite und so weiter. Welche Auswirkungen diese Suchform auf die Recall Rate (Vollständigkeit) und Precision Rate (Genauigkeit) haben, hängt hauptsächlich von der Struktur der indexierten Seite ab. So werden zum Beispiel bei Themenkatalogen, bei denen es sehr früh Seiten mit vielen Links gibt, viele Top-LevelSeiten erfasst. Das erhöht zwar die Recall Rate, führt allerdings gleichzeitig zu einer Senkung der Precision Rate. Besteht das Webprojekt aus einer kleinen Ansammlung von Dokumenten mit einer geringen Tiefe, werden die Seiten von der Breitensuche vollständig erfasst. Das führt zu einer Erhöhung der Precision Rate, dieses Mal allerdings auf Kosten der Recall Rate. Angewandt wird die Breitensuche zum Beispiel von den Suchmaschinen Fireball und AltaVista. Anders funktioniert die Tiefensuche, der sich unter anderem Google und Yahoo! bedienen. Hier wird der gesamte Graph, auf den der erste Link der Seite zeigt, bis dessen letzte Seite erreicht ist, verfolgt. Anschließend kehrt der Crawler zur höher liegenden Ebene zurück und bewegt sich von dort auf einem alternativen Weg nach unten. Auf diese Weise wird die gesamte Webseite erfasst. Auch hier hängen die tatsächlichen Auswirkungen auf Recall und Precision Rate von der Seitenstruktur ab. Dokumente großer Tiefe werden meistens erst vollständig indexiert, bevor Links nach außen verfolgt werden. Das erhöht die Precision Rate. Seiten, bei denen sehr viele Links zu anderen Servern gehen, werden erst nur oberflächlich indexiert, da zunächst der gesamte Teilgraph des Links verfolgt wird. Erfahrungen haben gezeigt, dass man nicht mit mehr als drei Verzeichnisebenen arbeiten sollte. Im Hinblick auf die Verzeichnisebenen gilt der Grundsatz: je flacher, je besser. Wie eine Verzeichnisstruktur aussehen kann, wird hier anhand einer Firma gezeigt, die Notebooks verkauft. index.html logs/ cgi-bin/ notebooks/angebote/ notebooks/multimedia/ notebooks/linux/ notebooks/windows/
100
Offpage-Optimierung
Selbstverständlich fehlen hier noch zahlreiche Verzeichnisse. Das Prinzip wird aber deutlich. Innerhalb des notebooks-Ordners befinden sich verschiedene Unterverzeichnisse, in denen die eigentlichen HTML- oder PHP-Seiten liegen. Auf diese Weise erhält man nicht nur eine übersichtliche und flache Verzeichnisstruktur, sondern auch solche URLs, die von Suchmaschinen mit einem höheren Ranking belohnt werden.
5.1.4 Weiterleitungen Webseiten wachsen und verändern im Lauf der Zeit ihre Struktur. Was normalerweise wünschenswert ist17, kann sich negativ auf das Ranking innerhalb der Suchmaschinen auswirken. Denn sobald ein URL von einer Suchmaschine indexiert wurde und die betroffene Seite beim nächsten Besuch des Crawlers nicht mehr vorhanden ist, meldet der Webserver an die Suchmaschine den Fehlercode 404. Sollte dieser Fehlercode bei mehreren Besuchen gemeldet werden, wird die Seite aus dem Index der Suchmaschine entfernt. Für Sie als Seitenbetreiber ist das fatal, schließlich geht so ein eventuell gutes Ranking verloren. Das gilt es, zu vermeiden. Die meisten Seitenbetreiber versuchen das, indem sie die Seite neu bei den Suchmaschinen anmelden. Das funktioniert zwar, allerdings lassen sich die meisten Suchmaschinen für die erneute Indexierung viel Zeit. Erschwerend kommt hinzu, dass in den Trefferlisten immer noch die alten URLs auftauchen. Klickt ein potenzieller Besucher auf einen solchen Link, bekommt er eine Fehlermeldung angezeigt und wird Ihre Seite zukünftig meiden. Immer mehr Seitenbetreiber gehen deswegen dazu über, eigene Fehlerseiten zu entwerfen und so ihren Besuchern im Fehlerfall eine vergleichsweise ansprechende Seite zu präsentieren.
Abbildung 5.2: So sieht eine gute Fehlerseite aus. 17 Denn wer will schon auf Dauer auf einer Webseite immer die gleichen Inhalte sehen.
101
Kapitel 5
Wie Sie Fehler abfangen können, erfahren Sie im nächsten Abschnitt. Allerdings lässt sich ein großer Teil der auftretenden Fehler vermeiden. Dazu muss man den Suchmaschinen und den menschlichen Besuchern lediglich Bescheid geben, wenn sich die Adresse einer Seite geändert hat. Das ist zum Beispiel nach einem Domain-Umzug oder einem Relaunch der Fall. Es gibt verschiedene Varianten, wobei sich zunächst die Frage stellt, ob eine serverseitige oder eine clientseitige Weiterleitung eingesetzt werden sollte. Im Normalfall ist die serverseitige Variante immer die bessere Lösung. Die prominentesten Vertreter dabei sind sicherlich PHP und .htaccess. Welche Variante Sie einsetzen, hängt natürlich auch davon ab, was bei Ihrem Provider technisch machbar ist. Eine entscheidende Bedeutung im Zusammenhang mit serverseitigen Weiterleitungen kommt dem Statuscode der Seite zu. Hinsichtlich der Suchmaschinen-Optimierung spielen vor allem die beiden Codes 301 und 302 eine wichtige Rolle. Standardmäßig wird bei serverseitigen Weiterleitungen der Statuscode 302 verwendet. In der Praxis sollten Weiterleitungen allerdings so aufgebaut werden, dass der Code 301 geliefert wird. Denn beim Statuscode 301 wird der PageRank der Seite übernommen. Ferner signalisiert 301 dem Crawler, dass die Adresse veraltet ist und er entsprechend darauf reagieren kann. Normalerweise wird der alte URL dann im Index der Suchmaschine mit der neuen Adresse überschrieben. So wird erreicht, dass die Seite nicht noch einmal bei der Suchmaschine angemeldet werden muss. Den zurückgelieferten Statuscode der eigenen Seite ermitteln Mit dem kostenlosen Online-Tool unter http://web-sniffer.net/ können Sie ganz bequem ermitteln, welchen Statuscode eine Seite zurückliefert. Dazu müssen Sie lediglich den URL der betreffenden Seite eingeben.
Eine sehr einfache Lösung lässt sich mit PHP umsetzen. #
#
# Code
Über den PHP-Befehl exit wird verhindert, dass eventuell nachfolgend notierter Code ausgeführt wird. Wichtig ist, dass man über header(»Status: 301 Moved Permanently«); eine 301-Weiterleitung erzwingt. (Erinnern Sie sich an die eingangs gemachte Aussage, dass standardmäßig vom Server der Statuscode 302 gesendet wird.)
102
Offpage-Optimierung
Diejenigen, deren Webspace kein PHP unterstützt, können auf die sogenannten .htaccess-Dateien zurückgreifen. Im folgenden Beispiel wird von der Seite /verzeichnis/ beispiel.html auf die neue Adresse http://www.neueseite.de/beispiel.html umgeleitet. Redirect 301 /verzeichnis/beispiel.html http://www.neueseite.de/beispiel.html
Sollte Ihr Provider keine serverseitigen Weiterleitungen zulassen, müssen Sie notgedrungen auf eine clientseitige Variante zurückgreifen. Um es vorwegzunehmen: Es handelt sich dabei immer um eine Notlösung, die sich qualitativ nicht mit serverseitigen Weiterleitungen messen kann. Als clientseitige Ansätze haben sich Weiterleitungen per JavaScript oder Metatag durchgesetzt. Die Metatag-Variante sieht folgendermaßen aus: <meta http-equiv="refresh" content="15; url=http://www.neueseite.de/" />
Durch diese Syntax wird 15 Sekunden nach dem Aufruf der Seite auf die neue Adresse (http://www.neueseite.de/) weitergeleitet. Auch wenn diese Weiterleitung funktioniert, sollten Sie sie normalerweise nicht einsetzen. Suchmaschinen reagieren darauf nämlich äußerst allergisch. Denn leider wird dieses Metatag auch gerne von Spammern verwendet, die eine Seite für ein bestimmtes Schlüsselwort optimieren. Ruft der Besucher eine so optimierte Seite auf, wird er sofort auf die eigentliche Seite geleitet. Die ist dann nicht optimiert und beschäftigt sich meistens mit einem völlig anderen Thema. Erkennt die Suchmaschine eine solche Weiterleitung, wird die Seite im schlimmsten Fall aus dem Index gelöscht. Sie sollten demnach möglichst nicht auf diese Variante zurückgreifen. Eine andere Möglichkeit für Weiterleitungen bietet JavaScript. Im einfachsten Fall verwendet man dabei die folgende Variante: #
#
# Code
<script type=»text/javascript«>
Das führt allerdings dazu, dass die Zurück-Schaltfläche des Browsers nicht mehr richtig funktioniert. Umgehen lässt sich dieses Problem folgendermaßen: #
#
# Code
<script type="text/javascript">
103
Kapitel 5
Dass dieses Skript funktioniert, kann allerdings niemand garantieren. Denn hat der Besucher zum Beispiel in seinem Browser JavaScript deaktiviert, wird er nicht auf die neue Adresse umgeleitet. Deswegen noch einmal: Wenn Sie die Möglichkeit dazu haben, setzen Sie auf eine serverseitige Weiterleitung.
Fehler erkennen und abfangen Wie Sie Weiterleitungen umsetzen können, haben Sie im vorherigen Abschnitt gesehen. Je komplexer ein Webprojekt wird, umso größer ist aber auch die Wahrscheinlichkeit, dass sich Fehler struktureller Art einschleichen. Gelegentlich kommt es dann vor, dass Besucher anstelle der gewünschten Informationen Fehlerseiten zu sehen bekommen. Nun wissen viele erfahrene Besucher, dass das immer mal wieder vorkommen kann. Sollten sich die Fehler allerdings häufen, kann und wird sich das negativ auf die Besucherzahlen auswirken. Und ganz nebenbei reagieren natürlich auch Suchmaschinen entsprechend, wenn sie Seiten indexieren wollen, diese aber permanent Fehlercodes zurückliefern. Anstelle der Standard-Fehlerseite des Browsers sollte eine personalisierte Seite erscheinen, die sich vom Design her in den normalen Internetauftritt integriert und nach Möglichkeit auch einen kurzen Hinweistext enthält. So erfährt der Besucher, dass die angeforderte Seite zwar nicht existiert, ihm werden aber Alternativen vorgeschlagen. Jeder Webserver bietet Möglichkeiten, eigene Fehlerseiten anzulegen. Dazu werden die Statuscodes ausgewertet, die beim Aufruf einer Ressource zurückgeliefert werden. Konnte eine Ressource korrekt ausgeliefert werden, lautet der Statuscode folgendermaßen: HTTP/1.1 200 OK Das ist der wünschenswerte Normalzustand. Da das Leben aber bekanntermaßen kein Ponyhof ist, gibt es oft auch negative Meldungen. Die wichtigsten davon sind in der folgenden Tabelle zusammengefasst: Fehlercode
Statustext
Beschreibung
401
Unauthorized
Ohne entsprechende Autorisierung darf auf die angeforderte Ressource nicht zugegriffen werden.
403
Forbidden
Es handelt sich um einen nicht öffentlichen Bereich der Webseite, auf den der Benutzer nicht zugreifen darf.
404
Not Found
Die Ressource ist unter dem angegebenen URL nicht zu finden.
410
Gone
Die angeforderte Ressource ist unter dem URL nicht mehr vorhanden. Eine Weiterleitungsadresse ist allerdings nicht bekannt.
Tabelle 5.2: Die wichtigsten Fehlercodes
104
Offpage-Optimierung
Wie diese Fehlermeldungen abgefangen werden können, hängt letztendlich vom eingesetzten Server ab. Die Mehrzahl der heute gehosteten Webseiten läuft allerdings auf dem Apache-Webserver. Dort kann man Fehlerseiten über die globale Konfigurationsdatei httpd.conf und über .htaccess-Dateien anlegen. Wenn Sie Zugriff auf die httpd.conf haben, fügen Sie dort die Direktive ErrorDocument ein. Ein solcher Eintrag sieht folgendermaßen aus: #
Das sind typische Varianten zum Abfangen von Fehlermeldungen. Sie sehen, dass es möglich ist, auf eine externe Adresse weiterzuleiten, eine projektinterne Webseite anzugeben und einen eigenen Fehlertext zu definieren. Fehlerbehandlung beim IIS Sollten Ihre Webseiten auf dem Internet Information Server (IIS) laufen, müssen Sie auch nicht auf selbst gestaltete Fehlerseiten verzichten. Wie Sie Fehlerseiten für diesen Server konfigurieren, erfahren Sie zum Beispiel auf der Seite http://www.webmeister.ch/ server/webserver/iis/errorpage.htm.
Wie Sie die Seiten gestalten, bleibt Ihnen überlassen. Erfahrungsgemäß hilft es aber, wenn Sie sich davon inspirieren lassen, wie andere Seitenbetreiber dieses Problem umgehen. Problemfall Internet Explorer Für den Internet Explorer müssen die Fehlerseiten übrigens größer als 512 Bytes sein. Sind sie kleiner, zeigt dieser Browser die wenig attraktive Standardfehlerseite an.
So schön eine solche Fehlerseite auch sein mag, im Idealfall bekommt sie der Besucher erst gar nicht angezeigt. Allerdings ist es gerade bei umfangreichen Projekten schwierig, selbst zu entdecken, wo es zu Fehlern kommt. Zwar helfen umfangreiche Tests oft weiter, völlige Fehlerfreiheit wird man aber auch so nicht erreichen. Es gibt aber durchaus Möglichkeiten, sich automatisch auf Fehler aufmerksam machen zu lassen. Durch das folgende PHP-Skript wird an die angegebene E-Mail-Adresse automatisch eine Nachricht geschickt, wenn der Fehlercode 404 auftritt, die angeforderte Seite also nicht verfügbar ist:
Das Skript ist sofort einsatzbereit und kann in die Fehlerseite eingebunden werden. Lediglich die E-Mail-Adresse innerhalb der Variable $empfaenger muss angepasst werden.
5.1.5 Deep Web Google gilt als Synonym für das Suchen im Internet. Für viele Anwender stellt Google die erste und einzige Adresse für Online-Recherchen dar. Was aber nur die wenigsten Internetnutzer wissen: Google und andere Suchmaschinen finden nur wenige Prozent der im Internet zur Verfügung stehenden Informationen. In diesem Zusammenhang fallen immer wieder die beiden Begriffe Deep bzw. Invisible Web. Diese Grobeinteilung trifft es aber nicht ganz. Denn genau genommen ist das Invisible Web nur eine von fünf Arten des Deep Webs. Die folgenden Varianten existieren: Private Web – Diese Seiten könnten zwar indexiert werden, allerdings sorgen die Seitenbetreiber dafür, dass sie nicht in den Indizes der Suchmaschinen landen. Das geschieht zum Beispiel durch einen Passwortschutz, die Datei robots.txt oder es liegt einfach daran, dass es sich um Seiten in einem Intranet handelt.
106
Offpage-Optimierung
Opaque Web – Auch diese Seiten könnten indexiert werden, werden es aber aus technischen Gründen oder Nutzen-Aufwand-Überlegungen derzeit nicht. Dazu zählen zum Beispiel häufig aktualisierte Webseiten, Orphan-Seiten und Webseiten ohne Hyperlinks. Proprietary Web – Diese Seiten könnten ebenfalls indexiert werden. Allerdings sind sie nur nach Anerkennung entsprechender Nutzungsbedingungen zugänglich. Invisible Web – Dabei handelt es sich zum Beispiel um Datenbanken, die eine Eingabe in eine Suchmaske erfordern. Der Begriff Invisible Web wird zwar oft mit Deep Web gleichgesetzt, korrekt ist das allerdings nicht. Technisch wäre einer Indexierung dieser Seiten aber durchaus möglich. Truly Invisible Web – Die hierunter zusammengefassten Seiten lassen sich tatsächlich nicht indexieren. Es kann sich zum Beispiel um Datenbankformate handeln, die noch vor der Entstehung des WWW entwickelt wurden, oder Dateiformate, die sich nicht erfassen lassen. In diesem unsichtbaren Web sind all die Seiten zusammengefasst, die Suchmaschinen nicht indexieren können. Wo aber liegen die Barrieren und was hält Suchmaschinen von einer Indexierung dieser Inhalte ab?
Technische Barrieren Es gibt Inhalte, die können von Suchmaschinen aus technischen Gründen nicht erfasst werden. Dazu gehören Datenbankinhalte ebenso wie Daten aus passwortgeschützten Bereichen. Warum aber können Suchmaschinen eigentlich keine Datenbankinhalte indexieren? Wenn Sie zum Beispiel den Bestand einer Bibliothek durchsuchen wollen, geben Sie normalerweise einen Suchbegriff in die entsprechende Suchmaske ein. Die Ergebnisse dieser Abfrage werden anschließend auf der generierten Antwortseite angezeigt. Diese Seite wird dynamisch generiert, allerdings nicht gespeichert. Ausschließlich Ihnen wird die Trefferliste in dieser Form angezeigt. Sobald Sie eine andere Seite aufrufen oder eine neue Suche durchführen, existiert die Trefferseite nicht mehr. Da Suchmaschinen ausschließlich Links folgen und nicht etwa selbstständig Suchbegriffe eingeben können, bleiben solche Trefferlisten für sie unsichtbar. Neben diesen offensichtlichen Barrieren gibt es aber auch solche, die von Webautoren versehentlich, beziehungsweise aus Unkenntnis, eingebaut werden. Das geschieht zum Beispiel im Zusammenhang mit dem sogenannten User-Tracking, also dem Verfolgen von Besucheraktivitäten. Dabei muss der Besucher auf jeder Seite, die er aufruft, von neuem identifiziert werden. Realisiert wird das normalerweise anhand von Cookies oder SessionIDs. Ruft eine Suchmaschine eine solche Seite auf, wird ihr ebenfalls ein Cookie oder eine SessionID zugewiesen. Allerdings akzeptieren Suchmaschinen Cookies nicht. Aber auch im Zusammenhang mit SessionIDs kommt es bei
107
Kapitel 5
Suchmaschinen immer wieder zu Problemen, was darauf zurückzuführen ist, dass die Suchmaschinen den URL inklusive der SessionID im Index speichern. Im Suchmaschinen-Index landen dann URLs mit folgendem Schema: http://www.pommeranzer-seopard.de/index.php4?sessionid=42342342 Wird dieser URL im Index abgelegt und später in der Trefferliste angezeigt, ist die SessionID abgelaufen. Ruft der Besucher die Seite über eine veraltete SessionID auf, greifen, je nachdem wie die Seite programmiert wurde, verschiedene Mechanismen. Oft sind die Seiten so gestaltet, dass der Besucher automatisch auf die Startseite umgeleitet wird, wo man ihm automatisch eine neue SessionID zuweist. Für den Besucher ist eine solche Behandlung natürlich ärgerlich, schließlich wollte er nicht die Startseite aufrufen, sondern die Seite betrachten, auf die er in der Trefferliste der Suchmaschine gestoßen ist. Ebenso können SessionIDs aber auch dafür sorgen, dass die Seite erst gar nicht im Index einer Suchmaschine landet. Denn viele Suchmaschinen erfassen eine Seite nicht direkt, sondern analysieren beim ersten Besuch zunächst nur die Links. Erst beim nächsten Aufruf werden die URLs in den Index geschrieben. Und da beim zweiten Besuch aufgrund der abgelaufenen SessionID der URL nicht mehr gültig ist, wird die Seite nicht in den Index aufgenommen.
Zeitliche Barrieren Es gibt Informationen, die bereits nach wenigen Stunden veraltet sind. Beste Beispiele dafür sind aktuelle Wetter- oder Börsendaten. Allerdings benötigen Suchmaschinen in aller Regel einige Tage, bis sie Seiten indexiert haben und diese gefunden werden können. Hochaktuelle Informationen sind in normalen Suchmaschinen demnach nicht zu finden.
Formale Barrieren Nicht alle Dokumente können von Suchmaschinen indexiert werden. So liegen viele Dateien nicht nur im HTML-, sondern im Word-, PDF- oder PowerPoint-Format vor. Während die meisten Suchmaschinen mittlerweile mit diesen Formaten umgehen können, gibt es andere Dateiformate, die immer noch nicht indexiert werden können und somit unsichtbar bleiben. Normalerweise werden von einem Dokument ausschließlich die ersten 100 KB erfasst, was etwa einem Anteil von 100.000 Textzeichen entspricht. Befinden sich in einem Dokument wichtige Informationen jenseits der 100-KB-Grenze, werden diese nicht indexiert. Daneben gibt es aber auch von vielen Suchmaschinen künstlich hergestellte Barrieren. So werden oft illegale Inhalte aus den Indizes der Suchmaschinen entfernt. Was logisch und konsequent klingt, kann fatale Auswirkungen haben. Denn schließlich muss die
108
Offpage-Optimierung
Frage erlaubt sein, wer eigentlich festlegt, was eigentlich illegale Inhalte sind. Neben Feldern wie Kinderpornografie oder rassistischen Inhalten, bei denen sich diese Frage nicht stellt, existieren auch gewisse Grauzonen. Die sind zum Beispiel erreicht, wenn Suchmaschinen-Betreiber Inhalte indexieren, um auf dem chinesischen Markt offiziell Fuß fassen zu dürfen. Sind diese indizierten Inhalte dann illegal und dürfen auf diese Weise zensiert werden? Andererseits existiert natürlich für Suchmaschinen-Betreiber keinerlei rechtliche Verpflichtung, dass sie alle Seiten indexieren müssen. Jeder Suchmaschine bleibt es selbst überlassen, welche Seiten sie in ihren Index aufnehmen will.
Gegenmaßnahmen treffen Sie haben gesehen, welche Dinge dazu führen, dass Seiten im Deep, beziehungsweise Invisible Web, landen. Normalerweise ist man als Seitenbetreiber aber natürlich daran interessiert, dass genau das nicht geschieht. Daher sollten Sie bei der Konzeption der Seite darauf achten, dass die genannten Barrieren vermieden werden. Insbesondere sollten Sie dort, wo es möglich ist, auf passwortgeschützte Bereiche verzichten. Und versuchen Sie dort, wo ein Passwortschutz tatsächlich vonnöten ist, Alternativen anzubieten. Das könnte zum Beispiel ein Demo-Zugang oder Ähnliches sein. Sorgen Sie dafür, dass Seiten, die von Suchmaschinen indexiert werden sollen, auch tatsächlich für eine Indexierung geeignet sind.
Spezialsuchmaschinen für das Invisible Web Normalen Suchmaschinen bleiben weite Teile des Internets verborgen. Allerdings gibt es mittlerweile zahlreiche Spezialdienste, die Teile des Invisible Webs abdecken. Prinzipiell kann man diese Suchmaschinen in zwei Gruppen einteilen, nämlich einmal in die Formalen und einmal in die Inhaltlichen. Inhaltliche sind zum Beispiel: Wörterbücher und andere Nachschlagewerke Mailing-Listen Literaturlisten Unter den Formalen lassen sich die folgenden zusammenfassen: fachspezifische Suchmaschine auf eine Region spezialisierte Suchmaschine Suchmaschine für Echtzeit-Informationen Die meisten dieser Suchmaschinen sind im Internet allerdings nur sehr schwer auszumachen und führen daher eher ein Nischendasein. Um Spezialsuchmaschinen zu finden, helfen Suchmaschinen-Verzeichnisse weiter. Hier eine kleine Auswahl:
109
Kapitel 5
http://directory.google.com/Top/Computers/Internet/Searching/ – Der Bereich Suchdienste aus dem englischsprachigen Google-Index. http://www.suchlexikon.de/ – Eine Sammlung zahlreicher Suchdienste. http://www.klug-suchen.de/ – Vorwiegend deutschsprachige Suchdienste sind hier aufgeführt. Ein besonders interessanter Dienst für das Deep Web ist http://www.completeplanet.com/. Die Betreiber dieser Suchmaschine rühmen sich damit, mehr als 70.000 Datenquellen zur Recherche heranzuziehen. Dazu gehören nicht nur zahlreiche Datenbanken und Spezialsuchmaschinen, auch Zeitungen werden in die Suche mit einbezogen.
Abbildung 5.3: Eine Suchmaschine für das Invisible Web
CompletePlanet zeigt dem interessierten Besucher, welches Potenzial noch in den Suchmaschinen steckt.
110
Offpage-Optimierung
5.2 Domain-Namen Der Domain-Name ist das Aushängeschild der Webseite und sollte daher wohlüberlegt sein. Allerdings wird es immer schwieriger, einen geeigneten Namen zu finden. Denn immerhin ist die Zahl der guten und noch freien Domains stark limitiert. Aus Marketingsicht heraus, sollte der Name für den Kunden gut einprägsam sein. Schließlich wollen Sie, dass Besucher nicht nur über Suchmaschinen, sondern auch durch die direkte Eingabe der Adresse in die Adresszeile des Browsers auf Ihre Seite gelangen. Erster Grundsatz sollte daher sein, kurze Domain-Namen zu verwenden. Bedenken Sie immer, dass der Domain-Name oft auch mündlich weitergegeben werden muss. Ein langer Name wie zum Beispiel http://www.wir-sind-die-beste-firma-der-welt-und-bieten-die-besten-produkte.de/ lässt sich nur schwer am Telefon vermitteln. Was für den Gesprächspartner schlecht ist, mögen auch Suchmaschinen nicht. Denn Suchmaschinen sehen sich Domain-Namen ebenfalls sehr genau an und ziehen sie unter anderem zur Keyword-Analyse heran. Und genau deswegen ist die Wahl des richtigen Domain-Namens auch so wichtig. Selbstverständlich ist es sinnvoll, wenn wichtige Schlüsselwörter im Domain-Namen auftauchen. Dabei sollten Sie den für die Seite wichtigsten Begriff wählen. Die Aneinanderreihung von Schlüsselwörtern im Domain-Namen sollten Sie allerdings unterlassen. Denn Domain-Namen sind nicht nur für Suchmaschinen, sondern auch für menschliche Besucher interessant. Ein guter Name könnte zum Beispiel www.maler-mayer.de sein. Dieser Name enthält das Schlüsselwort Maler und ist für Suchmaschine und Mensch gut zu lesen. Anders sieht es mit folgendem Domain-Namen aus: www.pinseln-maler-farben-lacke-auftrag-mayer.de Hier findet man zwar viele Schlüsselwörter, merken kann sich der »normalsterbliche« Besucher solch eine Domain allerdings nicht.
!
!
!
ACHTUNG
Vorsicht ist geboten, wenn man Domain-Namen verwenden will, die den Stadtnamen enthalten. Die Domain www.maler-mayer-berlin.de ist völlig in Ordnung. Probleme könnte es hingegen bei der Domain www.maler-berlin.de geben. Denn mittlerweile gibt es rechtskräftige Urteile, die den Einsatz solcher Domains wegen Benachteiligung der Mitbewerber untersagen.
111
Kapitel 5
Den passenden Domain-Namen zu finden, ist nicht einfach. Denn sehr oft ist der gewünschte Name bereits vergeben. In diesem Fall kann man mit dem Bindestrich etwas tricksen. Das bietet übrigens noch einen weiteren Vorteil: Bindestriche werden bei der Indexierung entfernt. Die Suchmaschinen indexieren dann tatsächlich nur noch die einzelnen Schlüsselwörter und gewichten die Seite bei entsprechenden Suchanfragen höher. Aber auch der Besucher merkt sich Bindestrich-Domains besser und kann sie auf den ersten Blick lesen. Werfen Sie dazu noch einmal einen Blick auf die bereits mehrfach angesprochene Domain: www.maler-mayer.de Hier weiß jeder, worum es geht: um einen Maler, der mit Nachnamen Mayer heißt. Und das erkennt nicht nur der menschliche Betrachter, sondern auch die Suchmaschine. Wie wichtig Bindestriche sein können, zeigt der Blick auf den fast identischen Domain-Namen. www.malermayer.de Hier wurde zwar lediglich der Bindestrich weggelassen, trotzdem ist die Domain so nur schwer zu lesen. Google ist übrigens dabei behilflich, wenn Sie sich zeigen lassen wollen, wie andere Seitenbetreiber Schlüsselwörter in ihre Domains integrieren. Dazu trägt man in das Google-Suchfeld allinurl: Schlüsselwort ein, wobei Schlüsselwort durch das tatsächliche Schlüsselwort ersetzt werden muss. Google listet daraufhin alle Domains auf, in deren URL das eingegebene Keyword enthalten ist. Lassen Sie sich davon bei der Suche nach einem passenden Domain-Namen inspirieren. 18
So wichtig sind dieDomains
Wo immer es möglich ist, sollten Sie bei deutschen Webseiten immer die Endung de wählen. Den Suchmaschinen ist die Endung zwar egal, den potenziellen Besuchern aber nicht. Denn stammen sie aus Deutschland, gehen sie davon aus, dass Ihre Domain auf de endet. Sollte die gewünschte de-Domain bereits vergeben sein, suchen Sie sich eine neue und weichen Sie auf keinen Fall18 auf andere Endungen wie net oder org aus. Denn die meisten Leute werden sich zwar an den Domain-Namen erinnern, die Endung wissen aber die wenigsten und gehen stattdessen davon aus, dass sie de lautet.
18 Es gibt natürlich Ausnahmen, bei denen solche alternativen Endungen durchaus sinnvoll sind. Denken Sie nur an Wikipedia (http://de.wikipedia.org/).
112
Offpage-Optimierung
Abbildung 5.4: So kreativ können Maler sein.
5.2.1 Das Problem mit neuen Domains Ergattert man eine neue Domain, ist die Freude groß. Getrübt wird diese allerdings, wenn man sich einmal genauer mit dem Zusammenhang zwischen neuen Domains und deren Aufnahme in die Suchmaschinen beschäftigt. Denn mittlerweile gilt es als gesichert, dass es neue Domains zunächst schwerer haben, oft nur auf Probe in den Index aufgenommen und strenger unter die Lupe genommen werden. Zumindest Google hat die Existenz einer solchen Sandbox zugegeben. Ein Google-Ingenieur gab auf einer Suchmaschinen-Konferenz in San Jose (Kalifornien) Folgendes zum Besten: »regardless of their merit, or lack thereof, in a sort of probationary category...to allow time to determine how users react to a new site, who links to it, etc.«
Besonderes Augenmerk scheint Google bei neuen Domains vor allem auf den Linkzuwachs zu legen. Interessant sind dabei besonders solche Seiten, auf die binnen kürzester Zeit sehr viele Seiten mit hohem PageRank verweisen. Aus Google-Sicht ist das ein Indiz für eine Manipulation. Denn speziell professionelle Spammer melden immer wieder neue Domains an, sobald ihre alten Seiten aus dem Index verschwunden sind. Der Grund ist denkbar einfach: Meistens hat der Betreiber der alten Webseite bereits zahlreiche Links auf seine Seite gesammelt. Jeder dieser Links führt, nachdem die Domain gewechselt wurde, zur neuen Seite. Das erhöht nicht nur den PageRank, auch die Besucher werden schlagartig mehr.
113
Kapitel 5
Wohl aus diesem Grund werden alle neuen Domains pauschal in die Sandbox gepackt und bleiben dort zwischen einem halben und einem ganzen Jahr. Wenn Sie nicht umhinkommen, eine neue Domain verwenden zu müssen, dann gehen Sie mit ihr behutsam um. Hinterlegen Sie unter dem neuen Domain-Namen passende Inhalte und sorgen Sie dafür, dass einige Links auf diese Domain zeigen. Und dann nur nicht nachlassen! Verändern Sie die Seite in regelmäßigen Abständen und ergänzen Sie sie mit neuen Inhalten. Auf diese Weise behutsam gewachsene Domains werden von Google wohlwollend betrachtet und entkommen so schneller der Sandbox.
Ran an den (Domain-)Speck Wie kann man sich nun aber das Wissen zunutze machen, dass alte Domains besser »laufen« als nagelneue? Natürlich indem man sich um verfallene oder vom ursprünglichen Besitzer zurückgegebene Domains bemüht und diese übernimmt. Abgelaufene Domains muss man nicht mühsam von Hand suchen und man braucht auch nicht auf einen Glückstreffer zu hoffen. Es gibt zahlreiche Spezial-Tools, die das Internet und Suchmaschinen nach verfallenen Domains durchforsten. Zu finden sind diese unter dem Schlagwort Expired Domain Name Software. Hier einige bekannte Vertreter: Expired Domain Name Watcher (http://www.rebrandsoftware.com/) Domain Grabber (http://www.dnware.com/) Expired Domain Sniffer (http://www.shareit.de/217029-1.html) Die Programme arbeiten alle nach dem gleichen Prinzip: Die gefundenen Domains werden sortiert und können dann ganz bequem registriert werden. Natürlich sind solche Tools kein Garant, um an Topadressen zu kommen. Vielleicht gibt es aber genau in dem Bereich, in dem Sie Ihre Webseite betreiben, freie und gute Domains, von denen Sie bislang noch nichts wussten. Domains verkaufen Möglicherweise kommen Sie auf die Idee, plötzlich frei gewordene Domains einfach weiterzuverkaufen. Und in der Tat wäre das ein äußerst lukratives Geschäft. So wurde die Domain sex.com für 14 Millionen US-Dollar verkauft. Allerdings sind die Chancen marginal, dass Sie auch nur annähernd an eine solche Domain kommen. Allzu viel Energie sollten Sie darauf also nicht verschwenden.
114
Offpage-Optimierung
Abbildung 5.5: Auf der Suche nach abgelaufenen Domains
5.3 Zugriffssteuerung mit der Datei robots.txt Die Datei robots.txt ist eines der zentralen Hilfsmittel zur Steuerung von Robots und Spidern. Die weit verbreitete Annahme, dass es sich bei der Datei robots.txt um einen Zugriffsschutz handelt, ist allerdings falsch. Denn jeder, den es interessiert, kann die Datei robots.txt jeder beliebigen Webseite im Browser anzeigen.19 Die Funktionsweise der robots.txt ist denkbar einfach: Besucht ein Robot die Seite, überprüft er zunächst, ob eine robots.txt vorhanden ist. Anschließend analysiert er die darin enthaltenen Informationen und spidert die Seite entsprechend. Das RobotsExclusion-Standard-Protokoll (http://www.robotstxt.org/wc/robots.html) wird als hinweisendes Protokoll bezeichnet, was nichts anderes bedeutet, als dass sich Crawler an die Anweisungen halten können, aber nicht müssen. Damit die robots.txt funktioniert, müssen einige Voraussetzungen erfüllt sein: Der Dateiname muss kleingeschrieben sein. Die Datei muss also immer robots.txt heißen. ROBOTS.TXT oder Robots.txt funktionieren nicht. Die robots.txt muss im Stammverzeichnis (oberste Ebene) liegen. Je Domain ist nur eine robots.txt zulässig. 19 Vorausgesetzt, auf der Domain wurde eine robots.txt hinterlegt.
115
Kapitel 5
Das war es bereits, was Sie an grundlegenden Dingen zu dieser Datei wissen müssen. Alles andere ist simpelste Syntax, die in einer normalen Textdatei definiert wird. Der Aufbau der robots.txt folgt einem bestimmten Schema. Dabei gibt man zunächst den Crawler an, für den die Anweisungen gelten sollen. Danach werden die einzelnen Anweisungen definiert. Wollen Sie erreichen, dass bestimmte Verzeichnisse für alle Spider gesperrt werden, verwenden Sie folgende Syntax: #
#
# Code
User-agent: * Disallow: /
Will man nur den Zugriff auf bestimmte Verzeichnisse verbieten, passt man die Syntax folgendermaßen an: #
Hierdurch werden alle Spider angewiesen, die beiden Verzeichnisse unwichtig und cgi-local nicht zu indexieren. Man kann auch explizit einzelne Spider ausschließen. Will man zum Beispiel, dass die Seiten von allen Crawlern bis auf den von Abacho indexiert werden, verwendet man folgende Syntax: #
#
# Code
User-agent: AbachoBOT Disallow: /
Dabei muss man hinter User-agent den entsprechenden Robot-Namen angeben. Für jeden Robot muss eine einzelne Zeile definiert werden. #
Auch wenn Sie keinerlei Angaben für die Crawler definieren wollen, sollten Sie eine robots.txt anlegen. Dadurch verhindern Sie die unzähligen Einträge in den Log-Dateien des Webservers, die immer erscheinen, wenn der Crawler die robots.txt nicht findet. Umgehen lassen sich diese Einträge durch folgende minimale Datei:
117
Kapitel 5
#
#
# Code
# robots.txt # Zugriff auf alle Dateien erlauben User-agent: * Disallow:
Zur Sicherheit sollten Sie die Datei robots.txt vor dem Einsatz auf Syntaxfehler untersuchen lassen. Hierfür gibt es zahllose Online-Tools. Eines davon finden Sie unter http:// www.sxw.org.uk/computing/robots/check.html. Ein schönes Beispiel für eine robots.txt Den grundlegenden Aufbau und den Einsatz der Datei robots.txt haben Sie kennengelernt. Vielleicht möchten Sie sich aber von den »Großen« für den Aufbau einer robots.txt inspirieren lassen. Ein schönes Beispiel ist die robots.txt von Wikipedia. Zu finden ist sie unter http://de.wikipedia.org/robots.txt.
5.3.1 Die Bildersuche austricksen Manche Seitenbetreiber machen es sich einfach. Wenn sie ein Bild benötigen, rufen sie einfach die Google-Bildersuche auf, geben den gewünschten Suchbegriff ein, speichern die passende Grafik ab und binden sie in ihre eigenen Seiten ein. Natürlich ist das illegal. Nur werden solche Urheberrechtsverletzungen eben kaum erkannt, weswegen viele Seitenbetreiber diesen Weg der Bildbeschaffung wählen, anstatt einen teuren Grafiker zu engagieren. Durch einen Eingriff in die Datei robots.txt können Sie den Google-Robot anweisen, die Grafiken Ihrer Seiten nicht zu indexieren. #
Geben Sie hinter Disallow jeweils das gewünschte Grafikformat an. Sollten Sie zum Beispiel auch PNG-Grafiken verwenden, tragen Sie zusätzlich Disallow: /*.png$ ein. Von Google selbst wird noch eine andere Syntax vorgeschlagen, die allerdings das Gleiche bewirkt. #
#
# Code
User-Agent: Googlebot-Image Disallow: /
118
Offpage-Optimierung
Sie können den Google-Robot übrigens auch dazu bringen, andere Dateiformate zu ignorieren. Durch die folgende Syntax werden sämtliche PDF- und DOC-Dateien, die sich innerhalb des betreffenden Webprojekts befinden, nicht indexiert: #
Auf diese Weise können Sie selbst bestimmen, was von Google in den Index aufgenommen werden soll und was nicht. Aber Achtung: Die gezeigte Syntax funktioniert nur unter Google. Andere Suchmaschinen bleiben davon unbeeindruckt und werden Grafiken und andere Dateien wie gewohnt indexieren.
5.4 Der perfekte Domain-Umzug Mit seinen Domains in Suchmaschinen gut gelistet zu sein, ist eine reife Leistung. Denn hinter jeder guten Platzierung steckt eine Menge Arbeit. Umso ärgerlicher ist es da, wenn man gezwungen ist, mit einer Domain umzuziehen und dann feststellt, dass man nun nur unter »ferner liefen« aufgeführt ist. Die folgende Checkliste soll Ihnen dabei helfen, die Probleme eines Domain-Umzugs so gering wie möglich zu halten. Bevor Sie sich an die Arbeit machen, noch ein Wort zum Zeitfaktor. Der Umzug selbst ist relativ schnell bewerkstelligt. Bis die neue Domain aber in den Suchmaschinen erscheint, kann es eine Weile dauern. Hier ein paar Erfahrungswerte: Google = 3–6 Monate Yahoo! = 1–3 Monate MSN = 1–3 Monate Dieser Aspekt sollte auf jeden Fall berücksichtigt werden, wenn Sie mit einem DomainUmzug liebäugeln. 1. Erstellen Sie für jede einzelne Seite eine 301-Weiterleitung von der alten zur neuen Seite. 2. Passen Sie alle internen Links so an, dass sie auf die neue Seite zeigen. (Das gilt natürlich hauptsächlich für absolut definierte Hyperlinks.) 3. Schreiben Sie die Webmaster an, die Links auf Ihre alten Seiten gesetzt haben, und teilen Sie denen den neuen URL mit.
119
Kapitel 5
4. Melden Sie die neuen Seiten bei den Suchmaschinen an. Google bietet hierfür zum Beispiel die Sitemaps an. Ausführliche Informationen dazu erhalten Sie auf der Seite http://www.google.de/webmasters/. 5. Versuchen Sie so viele Backlinks wie möglich auf die neue Seite zu setzen. Diese Schritte sind aus längerer Erfahrung heraus entstanden und führen in aller Regel zu einem problemlosen Umzug. Eine Garantie, dass die neuen Seiten dann tatsächlich indexiert werden, sind sie aber natürlich nicht.
120
6
Webseiten optimieren (Onpage) Ich bin so schnell, dass ich, als ich gestern Nacht im Hotelzimmer den Lichtschalter umlegte, im Bett lag, bevor das Licht aus war.
Muhammad Ali , Boxer
Im vorherigen Kapitel haben Sie die Offpage-Maßnahmen kennengelernt. Auf den folgenden Seiten erfahren Sie alles über die möglichen Maßnahmen zur Onpage-Optimierung. Mit Onpage sind all die Optimierungsmaßnahmen gemeint, die auf einzelne Webseiten zielen. Die Technik der kleinen Schritte Sie werden in diesem Abschnitt oft den Hinweis finden, dass bestimmte Optimierungsmaßnahmen kaum Einfluss auf das Ranking haben. Diese Aussagen treffen natürlich zu, überlesen Sie aber nicht das Wörtchen kaum. Denn nur, wenn Sie auch solche »unwichtigen« Maßnahmen ergreifen, können Sie sich gegenüber Ihren Konkurrenten einen kleinen, dafür aber möglicherweise entscheidenden Wettbewerbsvorteil verschaffen.
6.1 Die technische Seite Das Grundgerüst von Webseiten bildet die HTML-Syntax. In diesem Buch wird davon ausgegangen, dass Sie in dieser Sprache zumindest Grundkenntnisse besitzen. Sollte das nicht der Fall sein, finden Sie gute Seiten für HTMLNeulinge und Fortgeschrittene unter http://www.htmlworld.de/ und http://aktuell.de.selfhtml.org/.
Kapitel 6
6.1.1 Die Startseite Auf bemerkenswert vielen Seiten beginnt das Dilemma aus SEO-Sicht bereits mit dem Aufrufen der Startseite. Denn vielen Seitenbetreibern scheinen schlicht und ergreifend die Ideen zu fehlen, was sie auf der Startseite platzieren könnten. Entweder gibt es den netten Satz Herzlich willkommen auf unseren Seiten. oder man bekommt Links angezeigt, über die man zwischen einer HTML- und einer Flash-Version der Seite wählen kann. Beide Varianten sind für eine Seite, die gut platziert in den Suchmaschinen zu finden sein soll, denkbar ungeeignet. Denn gerade die Startseite eines Webprojekts wird von Suchmaschinen im Rankingverfahren besonders hoch bewertet.
!
!
!
ACHTUNG
In die gleiche Richtung gehen übrigens Seiten, auf denen Flash-Designer zeigen, was sie können, und die Besucher mit kleinen Intros erfreuen. Die sehen zwar meistens nett aus, bieten aber vor allem für Suchmaschinen keine verwertbaren Informationen. Aber nicht nur aus diesem Grund sind Flash-Introseiten in der Kritik. Denn anders, als in der Entwicklergemeinde gerne angenommen wird, verstehen viele Besucher den Skip-Intro-Link nicht, der auf vielen Introseiten zum Überspringen des Flash-Films untergebracht ist. Die meisten Besucher betrachten das Intro dann notgedrungen in voller Länge. Als Seitenbetreiber kann man dann davon ausgehen, dass diese Besucher die Seite kein zweites Mal aufrufen werden.
Ebenso wenig geeignet, um eine Top-Platzierung der Seite zu erreichen, sind Startseiten, auf denen sich vermeintliche SEO-Experten ausgetobt haben. Das Ergebnis sind dann oft solche Seiten: Wir bieten Ihnen die folgenden Leistungen: [...] Hier folgt dann eine Liste der Stichwörter, unter denen die Seite gefunden werden soll. Diese Optimierungsvariante bringt allerdings (fast) überhaupt nichts. Denn die integrierten Schlüsselwörter tauchen meistens nur einmal auf der Startseite auf. Für Suchmaschinen ist das natürlich zu wenig. Grund für dieses Vollstopfen der Seite mit Unmengen von Schlüsselwörtern ist der Sparzwang. So wollen viele Seitenbetreiber die Kosten für die Suchmaschinen-Optimierung sparen, indem sie all ihre dahin gehenden Fähigkeiten auf die Startseite konzentrieren. Das funktioniert nicht! SuchmaschinenOptimierung kann nur dann effektiv sein, wenn sie für alle Seiten durchgeführt wird. Stellt sich nun natürlich die Frage, wie die »perfekte« Startseite denn aussehen könnte. Wichtigster Punkt ist, dass die Hauptnavigation integriert wird, in der die wichtigsten Schlüsselwörter als Links enthalten sind. Noch besser ist es, wenn die Navigation nicht
122
Webseiten optimieren (Onpage)
nur aus einzelnen Keywords besteht, sondern die Menüpunkte durch kurze Infotexte beschrieben werden. Das liefert nicht nur den Crawlern zusätzliche Informationen, auch dem menschlichen Besucher wird auf diese Weise das Zurechtfinden auf der Seite erleichtert. Zusätzlich kann man aktuelle Meldungen auf der Startseite unterbringen, um so Besucher und Crawler eine gewisse Aktualität der Seite zu suggerieren. Ein schönes Beispiel für eine solche Startseite ist http://www.mozilla.com/.
Abbildung 6.1: So hat man die neuesten Informationen immer im Blick.
Wichtig bei der Gestaltung der Startseite ist vor allem, dass Besucher und Crawler gleichermaßen befriedigt werden. Denn es bringt nichts, wenn die Suchmaschinen die Seite lieben, sie von menschlichen Besuchern aber ignoriert wird. Es muss ein gesunder Kompromiss gefunden werden.
6.1.2 Navigation Eines der wichtigsten Elemente der gesamten Webseite ist die Navigation. Denn die ist aus zweierlei Aspekten heraus von elementarer Bedeutung. Sie muss einmal den Anforderungen der Suchmaschinen entsprechen, andererseits muss sie gut bedienbar sein und vom Besucher verstanden werden. Auf den folgenden Seiten werden verschiedene Menüarten und deren Vor- und Nachteile vorgestellt. Zunächst geht es aber darum, wie Sie Menüs effektiv entwerfen können.
123
Kapitel 6
Menüs entwerfen Selbst für erfahrene Webentwickler ist die Frage, aus welchen Menüpunkten sich eine gute Navigation zusammensetzt, eine Herausforderung. Dabei sieht es auf den ersten Blick ganz einfach aus. Ausgehend von der Startseite werden die Hauptpunkte notiert, denen man die entsprechenden Untereinträge zuordnet. Was auf den ersten Blick recht flink von der Hand geht, wird gegen Ende der Arbeit von einigen Störfaktoren torpediert. Denn dann tauchen Menüpunkte auf, die sich nicht so einfach einordnen lassen. Wohin dann mit denen? Einige Seitenbetreiber lassen die Punkte dann einfach weg, während andere sie einfach unter Menüeinträge wie Sonstiges oder Allgemeines zusammenfassen. Das ist natürlich »suboptimal«. Vermeiden lassen sich solche Probleme, indem Sie sich von der anderen Seite an das Menü herantasten. Bewährt hat sich dabei Folgendes: Nehmen Sie sich einen Stapel leerer Zettel zur Hand und schreiben Sie auf jeden einen Punkt, der später auf der Webseite erscheinen soll. Folgende Zettel könnten dann auftauchen: Kontakt Impressum Jobs Produktübersicht Versuchen Sie, so gewissenhaft wie möglich zu arbeiten. Nachdem alle potenziellen Seiten auf einem eigenen Zettel stehen, geht es ans Sortieren. Packen Sie dabei alle Seiten beziehungsweise Zettel, die thematisch zueinander passen, auf einen Haufen. Sie werden schnell merken, dass sich auf diese Weise eine Struktur herausbildet. Jetzt müssen Sie »nur« noch jeweils einen Namen für die einzelnen Zettelhaufen finden und schon haben Sie die Navigation. Nachdem die Grundstruktur steht, stellt sich die Frage, was für eine Navigationsart verwendet werden soll. Die wichtigsten Varianten werden auf den folgenden Seiten vorgestellt.
Navigation im Katalogstil Egal ob Yahoo! oder DMOZ, Webseiten im Katalogstil sind weitverbreitet. Für den Anwender ist diese Struktur äußerst angenehm. Er erkennt auf den ersten Blick, worum es sich bei den einzelnen Punkten handelt. Eine solche Navigation bietet sich allerdings nur für spezielle Seiten an. Für normale Firmenwebseiten ist so etwas ungeeignet.
124
Webseiten optimieren (Onpage)
Abbildung 6.2: Das wohl wichtigste Verzeichnis
JavaScript-Menüs Suchmaschinen haben Probleme mit Menüs, die auf einer clientseitigen Skript- oder Programmiersprache wie JavaScript basieren. Dennoch wollen viele Webentwickler nicht auf die Möglichkeiten verzichten, die beispielsweise JavaScript zu bieten hat. Die folgende Abbildung zeigt ein DHTML-Menü, das dynamisch ausfährt und so den Zugriff auf die jeweiligen Menüpunkte ermöglicht:
!
!
!
ACHTUNG
Nun haben solche Menüs gleich mehrere Nachteile. Zunächst einmal ist unklar, ob sie beim Anwender richtig angezeigt werden. Vielleicht hat er in seinem Browser JavaScript deaktiviert, möglicherweise verwendet er aber auch einen nicht JavaScript-fähigen Browser. All das sind Punkte, die gegen den Einsatz von JavaScript sprechen. Erschwerend kommt hinzu, dass Suchmaschinen JavaScript nicht mögen. Sollte sich der Einsatz von JavaScript nicht vermeiden lassen, sollten Sie im unteren Seitenbereich die Navigation als reine Textlinks wiederholen. So können nicht nur Besucher ohne JavaScript-Unterstützung die Seite nutzen, auch Suchmaschinen wird auf diese Weise ermöglicht, den Links zu folgen.
125
Kapitel 6
Abbildung 6.3: Eine Navigation, die nicht ideal ist
Flash- und Java-Menüs Noch fataler als JavaScript-Menüs können sich Flash- und Java-Menüs auswirken. Denn die können von Suchmaschinen normalerweise überhaupt nicht ausgewertet werden. Warum das so ist, macht ein Blick auf den folgenden Quelltext deutlich: #
#
# Code
Trifft eine Suchmaschine auf ein so eingebundenes Applet, kann sie damit kaum etwas anfangen. Denn verwertbare Informationen sind darin nicht enthalten. Sie sollten daher auf den Einsatz von Java-Applets für Menüs verzichten. Ganz ähnlich verhält es sich übrigens mit Flash-Menüs. Zwar gibt es mittlerweile durchaus Techniken, mit denen Suchmaschinen-Betreiber Flash-Inhalte auslesen und auswerten können, wirklich Gebrauch macht davon bislang aber kaum jemand.
126
Webseiten optimieren (Onpage)
Warum auch Flash-basierte Menüs hinsichtlich der Suchmaschinen-Optimierung eher »suboptimal« sind, zeigt ein Blick auf den folgenden HTML-Code, über den ein FlashFilm in eine Webseite integriert wird.20 #
#
# Code
Auch hier wird deutlich, dass Suchmaschinen keinerlei verwertbare Informationen darüber erhalten, was sich hinter dem