-Tag definiert werden. Was in diesen Zeilen steht, wird mit (steht für »table data«) festgelegt. Innerhalb des | -Containers kann also zum Beispiel Text stehen, der, sofern nicht anders definiert, dann im Browser in der Standardschriftart
32
Eine kurze Einführung in HTML und weitere Web-Inhaltstypen
erscheint. Soll eine Zelle leer sein, fügt man einfach in den | Container ein ein.Die Attribute des -Tags legen zum Beispiel fest, wie breit die Tabelle ist, und ob es einen sichtbaren Rand gibt oder nicht. Einige weitere wichtige Tags: xxxx
Alles, was in diesem Container steht, wird zentriert.
xxx
Legt mit Hilfe verschiedener Attribute fest, was mit dem in diesem Container enthaltenen Abschnitt passiert (z.B. die Ausrichtung).
Steht alleine und generiert Zeilenumbrüche.
xxx
Legt mit Hilfe verschiedener Attribute fest, was mit dem in diesem Container enthaltenen Text passiert (z.B. Schriftgröße oder -farbe). Die Standard-Schriftgröße beträgt 3.
xxx
Text, der in diesem Container steht, wird fett dargestellt.
xxx
»Paragraph« – generiert Absätze.
xxx
Generiert Hyperlinks, entweder ohne Attribut als »Anker« im selben Dokument, oder mit dem Attribut »href« auf andere Seiten innerhalb derselben Domain oder nach »draußen« auf andere Websites.
...xxx ...
In diesen Containern stehender Text wird als Überschrift angezeigt, wobei für die größte steht, für die kleinste.
Steht alleine und sorgt dafür, dass ein Bild an der Stelle eingefügt wird, wo das Tag auftaucht. Mit dem Attribut »src« wird der Pfad festgelegt, unter dem das Bild zu finden ist. Mit dem Attribut »alt« wird der Alternativtext angegeben, der immer dann angezeigt wird, wenn das Bild nicht geladen werden kann, und der außerdem in manchen Browsern erscheint, wenn man mit der Maus über das Bild fährt.
33
1 Begriffsklärung und kurze Einführung in HTML
Im folgenden ein Beispiel, wie ein solcher Quellcode aussehen kann. <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> <meta name="author" content="Beispielautor"> <meta name="description" content="Beispielbeschreibung"> <meta name="keywords" content="Beispiel -Keywords"> Hier steht der Titel
Im Browser sieht das dann so aus: Abbildung 1.3: Darstellung des Beispiel-Quellcodes im Internet Explorer 5 unter Windows 98
35
1 Begriffsklärung und kurze Einführung in HTML
Zu den -Tags sei gesagt: Die Standard-Schriftgröße beträgt 3, die Standardschrift ist – je nach Browser – meist eine Serifenschrift. Schöner und leserlicher sind jedoch serifenlose Schriften in Größe 2. Meistens werden Verdana oder Arial verwendet. Verdana hat den Vorteil, dass sie sehr breit läuft und somit noch ein wenig besser lesbar ist als zum Beispiel Arial. Übrigens sind alle Leerzeichen und Umbrüche im Code nur für die Leserlichkeit und Übersichtlichkeit da. Der Browser, der den Code nachher interpretiert, also in eine ansehnliche und gut lesbare Seite umwandelt, ignoriert sie einfach. Zumindest, sofern es sich bei einem Leerzeichen nicht um den Teil eines Textes handelt. Sie können sie also beliebig setzen. Die meisten HTML-Editoren praktizieren das ohnehin. Wichtig bei der Reihenfolge: Suchmaschinen lesen den Code einfach von oben nach unten aus und nicht etwa so, wie er im Browser dargestellt wird. Wie später noch einmal ausführlicher beschrieben, sollten für Suchmaschinen wichtige Informationen im Quelltext oben stehen – das heißt, vorne im HTML-Code. Es kann beispielsweise durchaus sein, dass ein Wort in der Browserdarstellung oben rechts steht, aber im Quelltext eher im unteren Teil. Maßgeblich für den Fundort aus Sicht der Suchmaschine ist jedenfalls immer der Fundort in der HTML-Quelltextansicht. Mehr dazu lesen Sie unter anderem in Kapitel 4. Leider ist es immer noch so, dass verschiedene Browser ein und dieselbe Seite oft unterschiedlich darstellen. Manche Browser kennen einige neuere HTML-Tags (noch) nicht oder haben zum Beispiel Probleme bei der Darstellung von Tabellenhintergründen. Gerade bei komplexeren Seiten ist es deshalb notwendig, sie sich in verschiedenen Browsern anzusehen, am besten auch gleich in verschiedenen Versionen dieser Browser. Auch das Betriebssystem spielt eine Rolle in der Darstellung, weshalb davon ebenfalls verschiedene getestet werden sollten. Wenn das jemand für ärgerlich und mühselig hält, ist dem wohl nicht zu widersprechen – leider ist es aber noch immer notwendig. Über die hier dargestellte Seitengestaltung in reinem HTML hinaus geht die Möglichkeit, komplexere und/oder dynamische Elemente anhand von Cascading Style Sheets, JavaScript (siehe Begriffsklärung) oder serverseitigem Code einzubinden. Das
36
Eine kurze Einführung in HTML und weitere Web-Inhaltstypen
erfordert meistens eine gründliche Einarbeitung, gerade mit Server-Programmierung werden im Regelfall Experten beauftragt. Solche Seiten sollten auf jeden Fall besonders auf Browser- und Betriebssystems-Kompatibilität getestet werden. Über die Probleme, die für Suchmaschinen durch Elemente dieser Art eventuell entstehen können, lesen Sie in Kapitel 6. Weiterführende Informationen zum Thema HTML und Seitenerstellung im allgemeinen finden Sie zum Beispiel unter www.netzwelt.com/selfhtml und unter www.w3.org, der Seite des W3-Konsortiums, das sich mit der offiziellen Standardisierung im World Wide Web befasst. Unter dieser Adresse können Sie Ihre HTML-Seite auch auf eventuelle Fehler prüfen lassen, indem Sie dem Link »Validation« folgen und die Adresse der Seite eingeben, die geprüft werden soll.
1.2.2
Web-Formulare
Web-Formulare erzeugen Interaktivität, indem der Benutzer in vordefinierte Felder Daten eingeben kann, die beim Absenden – zum Beispiel beim Anklicken einer entsprechenden Schaltfläche – an den Webserver übertragen und dort weiterverarbeitet werden. Diese Felder haben folgende Typen: 왘 Ein- und mehrzeilige Textfelder; eventuell als Passwortfelder,
die am Bildschirm nur als Sternchen angezeigt werden 왘 Kästchen (Checkboxes) und runde Optionsfelder (Radio But-
tons) zum Anklicken 왘 Mehrzeilige Auswahl- und Kombinationsfelder 왘 Schaltflächen: Submit (= Absenden), Reset (= Zurücksetzen)
und Button (zum Auslösen von JavaScripts) Selbst wenn nur eine Schaltfläche auf einer Seite angelegt ist, ist dafür bereits ein Web-Formular notwendig. Es gibt noch eine Reihe weiterer Feldtypen, die uns hier aber nur am Rand interessieren. Auch die Eingabeseiten der Suchmaschinen sind übrigens Web-Formulare. Suchmaschinen füllen keine Textfelder aus, klicken nichts an und übersenden außer der URL-Zeile und den http-Protokoll-Informationen keine weiteren Daten an den Server. Inhalte, die nur über
37
1 Begriffsklärung und kurze Einführung in HTML
Web-Formulare zu öffnen sind, sind für Suchmaschinen grundsätzlich nicht erreichbar. Dies gilt erst recht, wenn Formulardaten in einer verschlüsselten Verbindung an den Server übertragen werden. Seiten, die nur über verschlüsselte Verbindung erreichbar sind – meist aus WebFormularen, in denen personenbezogene Daten aufgenommen werden – werden von Suchmaschinen nicht besucht. Abbildung 1.4: Webformular mit unterschiedlichen Feldern zur Aufnahme von Benutzerdaten
1.2.3
Frames
Die modernen Browser seit Netscape Navigator 2.0 und Microsoft Internet Explorer 3.0 bieten die Möglichkeit, eine Webseite aus mehreren HTML-Dateien aufzubauen, die neben- und übereinander auf dem Bildschirm verteilt sind. Man bezeichnet einen solchen Aufbau als Frameset, die einzelnen Bestandteile sind die Frames. Technisch funktioniert das so, dass eine HTML-Seite, die für den Benutzer selbst so gut wie unsichtbar bleibt, die Frames anlegt und in jedes eine weitere HTML-Datei lädt. Die für den Benutzer
38
Eine kurze Einführung in HTML und weitere Web-Inhaltstypen
sichtbaren Inhalte liegen nun nicht in der eigentlich aufgerufenen Seite, sondern in den einzelnen HTML-Dateien in den Frames. Während beispielsweise Altavista diese Frames-Inhalte aufruft und auswertet, werden sie dagegen von Google ignoriert. Als Autor einer Website, die aus Frames aufgebaut ist, wünscht man sich wahrscheinlich, dass deren Inhalte auch von den Suchmaschinen ausgewertet werden und die Adressen der einzelnen Seiten in den Ergebnislisten dargestellt werden. Die Vorgehensweise von Google kann jedoch auch durchaus Sinn machen: Die in ein Frame geladene Seite ist in ihrem Informationsgehalt meist nicht vollständig, vielleicht fehlen Navigationselemente, Firmenname oder sonstiges. Wenn der Benutzer in der Ergebnisliste einer Suchmaschine nun einen Hyperlink auf diese Datei findet und diesen anklickt, kann die Seite zur Sackgasse werden: Es gibt keine weiterführenden Links, eventuell ist gar nicht erkennbar, auf wessen Website er sich überhaupt befindet. Ein Profi würde in dieser Situation vielleicht den URL verwenden, daraus alle Angaben zum Ordner und zur Datei löschen und den Request neu absenden, um so zur Homepage des Webangebots zu kommen. Leider funktioniert das aber nicht immer, und als Autor eines Internetauftritts kann man wohl nur selten davon ausgehen, nur Fachleute als Besucher zu haben. Auch kann es sein, dass JavaScripts (in das HTML-Dokument eingearbeitete Programmzeilen, die vom Browser ausgeführt werden; diese werden gleich erklärt) in ein anderes Frame oder die vorgeschaltete Seite hineingreifen und dort etwas verändern wollen. Wenn nun der Zusammenhang des Framesets fehlt, in den diese Seite eingebettet ist, wird sich ein solches JavaScript dem Benutzer mit einer Fehlermeldung zu erkennen geben, die viele Benutzer verunsichern würde. Für Suchmaschinen optimierte Seiten sollten nie als Frames angelegt sein. Für Seiten, bei denen Funktionalität wichtig ist, die aber nicht von Suchmaschinen erfasst werden sollen, können sie dagegen eine hervorragende Lösung darstellen.
39
1 Begriffsklärung und kurze Einführung in HTML
1.2.4
Cascading Style Sheets
HTML bietet leider nur sehr eingeschränkte Möglichkeiten, um Schriftarten, -größen und -farben sowie weitere Formatierungseigenschaften festzulegen. Die Formatierung in HTML ist weder besonders vielseitig, noch ist sie genau. Dies liegt daran, dass die Formatierung in HTML ursprünglich, also um 1990 herum, gar kein Thema war, die ersten Clients waren textbasiert und kannten nur wenige Möglichkeiten, Textteile voneinander durch Formatierungen abzugrenzen. Die ursprünglichen Tags hatten vor allem die Aufgaben, spezielle Textelemente wie Überschriften oder Zitate zu kennzeichnen. Die meisten Tags mit Formatierungsinformationen sind erst später hinzugefügt worden, und die dabei entstandenen Lösungen waren eigentlich nie wirklich überzeugend. Beispielsweise gibt es in HTML keine Möglichkeit, Schriftgrößen in der üblichen Maßeinheit »Punkt« (ca 1/3 mm) darzustellen. Sehr viel weiter gehen hierbei Cascading Style Sheets, abgekürzt CSS, die eine Erweiterung von HTML darstellen. Viele Web-Designer nehmen die damit verbundenen Möglichkeiten dankbar auf, ihr Design wird dadurch präziser, klarer und moderner. Es gilt jedoch aus Sicht der Optimierung für Suchmaschinen auf einige Fallstricke zu achten. Zum Beispiel den folgenden: Um eine Überschrift mit dem Text »Homepage« festzulegen, sind die folgenden Anweisungen anscheinend weitgehend gleichwertig7: Homepage Homepage Homepage
Im ersten Fall wird eine Überschrift nicht nur durch große und fette Schriftzeichen vom sonstigen Text unterschieden, sondern auch einem maschinellen Leser – wie es eine Suchmaschine eben ist – durch den Tag-Container kenntlich gemacht. Für die meisten Suchmaschinen gilt Text, der in einer H1-Überschrift (= Heading 1, besonders hochrangige Überschrift) steht, als wich-
7
40
Je nach Browser und dessen Einstellungen zur Standardschriftart und zur Schriftgröße können sich gewisse Unterschiede ergeben.
Eine kurze Einführung in HTML und weitere Web-Inhaltstypen
tig für die Seite, Übereinstimmungen zwischen den hier zu findenden Wörtern und den Suchbegriffen des Benutzers führen zu hoher Relevanz-Bewertung. In zweiten Fall sieht der Benutzer einen normalen Absatz (gekennzeichnet durch den Tag-Container wie Paragraph). Darin befindlicher Text erhält eine Schriftgröße 6, das ist um 3 Stufen mehr als die normale Schriftgröße, die bei 3 liegt.8 Der TagContainer legt dann fest, dass dieser Text fett dargestellt werden soll. Damit sieht der Text für den Benutzer am Browser genauso aus, wie der im ersten Beispiel. Aus Sicht der Suchmaschine ist es aber nicht der bedeutungsvolle Text einer Überschrift erster Ordnung, sondern einfacher Absatztext. Vielleicht gibt es die eine oder andere Suchmaschine, die die Hervorhebung noch positiv bewertet, von den professionellen Beobachtern von Suchmaschinen ist über solches Verhalten jedoch noch nichts berichtet worden. Im dritten Beispiel werden nun statt HTML-Tags- und -Attributen Stylesheet-Festlegungen verwendet, die nach dem HTML-Attribut style= folgen und hier in Anführungszeichen gesetzt sind. Soweit bekannt ignorieren alle Suchmaschinen Cascading-Stylesheet-Attribute weitestgehend aus folgenden Gründen: 왘 Stylesheet-Attribute lassen sich nicht zuverlässig relevanten
Textteilen zuordnen, jeder Layouter setzt hier seine eigenen Vorstellungen oder die seiner Kunden um. 왘 Stylesheet-Attribute können in externe Dateien ausgelagert
werden. Diese werden vom Browser getrennt geladen und auf die HTML-Seite angewandt. Für den Crawler (=Suchroboter, wir werden dies später ausführlich erläutern), der täglich Hunderttausende von Seiten laden und auslesen muss, wäre dies ein zu großer Verlust an Rechenzeit. 왘 Die Komplexität für die Entwickler von Suchmaschinen nimmt
deutlich zu, wenn sie die sehr große Zahl von Formatierungsmöglichkeiten und insbesondere von Kombinationsmöglichkeiten über Stylesheets berücksichtigen sollen. Um die eigenen
8
Diese Angaben sind natürlich alles andere als präzise, aber so ist HTML angelegt.
41
1 Begriffsklärung und kurze Einführung in HTML
Kosten gering und gleichzeitig die Leistung der Software hoch zu halten, sind Suchmaschinenentwickler eher geneigt, ihre Software einfach arbeiten zu lassen. 왘 Grundsätzliche Erwägungen: Suchmaschinen interessieren
sich für Inhalte, nicht für Gestaltung. Eine Ausnahme gibt es aber dennoch: Suchmaschinen schützen sich vor Cloaking, dem Versuch, ihnen das Vorhandensein von Informationen vorzumachen, die es für den Benutzer gar nicht gibt. Die folgenden Stylesheet-Attribute könnten dazu missbraucht werden, Text nur für den Benutzer, nicht aber für die Suchmaschinen unsichtbar zu machen: 왘 font-size: 0 pt 왘 color: white (auf weißem Grund) 왘 display: none 왘 visibility: hidden
Werden die Betreiber der Suchmaschinen auf Seiten aufmerksam, in denen sich solche Manipulationsversuche finden, so kann das zur Sperrung der gesamten Website führen. Zu bedenken ist auch, dass nicht alle Suchmaschinen nur auf automatischen Verfahren zum Auslesen der Webseiten aufbauen. Wie wir noch sehen werden, haben Verzeichnisdienste meist redaktionelle Mitarbeiter, die die Seiten wie ein Benutzer sehen.
1.2.5
JavaScript
JavaScript ist Code, der direkt in die Seite eingebettet ist. Grundsätzlich ist JavaScript heute ein zentraler Bestandteil jedes professionellen Web-Designs und hilft, Seiten durch dynamische Elemente aufzuwerten, bei Web-Formularen auf korrekte Eingabe zu prüfen und so weiter. Neben HTML und CSS ist JavaScript eine Standardanforderung im Skillprofil für einen Web-Designer. Da zwar jeder halbwegs zeitgemäße Webbrowser JavaScripts ausführt, die Suchmaschinen dies jedoch nicht tun, lässt sich auch damit leicht Cloaking betreiben:
42
Eine kurze Einführung in HTML und weitere Web-Inhaltstypen
Suchmaschinen-Optimierung ...
In diesem Beispiel ist der Titel, der in der Titelleiste des Browsers erscheint, in HTML mit »Suchmaschinen-Optimierung« festgelegt. Eine Suchmaschine könnte diesen Text als sehr hochrangig ansehen und die Seite bei Ergebnissen zu den Suchwörtern »Suchmaschinen« und »Optimierung« entsprechend top platzieren. Im Moment, in dem der Browser mit Laden fertig ist, weist ihn jedoch das JavaScript im onload-Attribut des Body-Tags an, den Titel auszutauschen gegen »Willkommen«. Der Benutzer würde also nicht dasselbe sehen, wie die Roboter der Suchmaschinen. Ein anderes Beispiel wäre die Umsetzung einer Doorway-Seite mit JavaScript: Der Browser wird mit location.href=... dazu gebracht, automatisch zu einer anderen Seite zu wechseln, während die Suchmaschine brav weiter die Inhalte der Doorway-Seite ausliest und in den Index stellt. Auch vor diesem und ähnlichen Verfahren ist abzuraten: Wenn ein Suchmaschinenbetreiber darauf eingerichtet ist, solche Manipulationen zu finden, kann das zum Ausschluss aus dem Index, der Liste, aus der die Suchergebnisse erzeugt werden, führen. Man sollte davon ausgehen, dass zumindest die wichtigen Betreiber dazu in der Lage sind.
1.2.6
Java-Applets, Flash-Animationen, andere clientseitige Komponenten
Ein moderner Webbrowser kann mehr, als nur HTML darstellen, eventuell erweitert durch Cascading Style Sheets für die Formatierung und JavaScript für die Interaktivität. Bestimmte Komponententypen können innerhalb einer Webseite eingebettet werden und bieten dem Betrachter meist eine Mixtur aus Funktionalität und Show-Effekten.
43
1 Begriffsklärung und kurze Einführung in HTML
Suchmaschinen fangen damit nichts an. Auch in Java-Applets und in Flash-Animationen gibt es das Element des Hyperlinks, da die Suchmaschinen diese Komponenten jedoch ignorieren, werden sie auch diese Hyperlinks nicht weiter verfolgen. Die beiden derzeit wichtigsten Browsertypen setzen die Komponententechnik etwas unterschiedlich um: Der Internet Explorer verwendet ActiveX-Komponenten, während der Netscape Navigator Plug-Ins kennt. Da jedoch beide Typen in der Regel von den Suchmaschinen ignoriert werden, wollen wir hier nicht ins Detail gehen.
1.2.7
Acrobat
Acrobat-Dokumente haben die Endung .pdf und werden gerne verwendet, wenn 왘 Dokumente ein präzises Layout für Bildschirmdarstellung
und Druck haben sollen, für das die eher unsichere und stark browserabhängige Darstellung in HTML nicht zuverlässig genug ist, 왘 Web-Dokumente aus anderen Dokumententypen, wie Quark-
Xpress, Microsoft Word oder PowerPoint erzeugt werden sollen, 왘 besondere Schriften verwendet werden sollen, die sich in Acro-
bat – anders als in anderen Formaten – einbetten und somit ohne Copyright-Probleme an den Benutzer senden lassen. Zur Darstellung der Acrobat-Datei wird eine spezielle Software benötigt: Der Acrobat Reader, den man kostenlos von der Website der Firma Adobe (www.adobe.de) herunterladen kann. Diese wird meist als ActiveX-Komponente beziehungsweise als Plug-In im Browserfenster angezeigt. Ähnlich wie HTML ist Acrobat ein textbasiertes Dateiformat, man kann eine Acrobat-Datei im Windows-Editor öffnen und wird dort eine Menge Code finden, das meiste davon allerdings eher unleserlich. Manche Suchmaschinen können diesen allerdings auswerten, Google beispielsweise, und bieten diese Dateien ebenfalls als Suchergebnisse an. Acrobat-Dateien werden von Google allgemein als hochwertig betrachtet.
44
Eine kurze Einführung in HTML und weitere Web-Inhaltstypen
Ähnlich wie HTML kennt Acrobat Hyperlinks, die auf andere Web-Inhalte verweisen. Diese werden jedoch offensichtlich von keiner Suchmaschine ausgewertet. Acrobat-Dokumente sind häufig sehr umfangreich. Man darf davon ausgehen, dass Suchmaschinen nur einen bestimmten Teil zu Beginn des Dokuments auswerten, da sie sich ansonsten mit den darin zu findenden Textmengen überfordern würden.
1.2.8
Bilder, Videos und Musik
Ein großer Teil dessen, was an Inhalten über das World Wide Web transportiert wird, hat Dateiformate wie .gif oder .jpg für Bilder oder .mp3 für Musik. Diese und weitere Formate werden von den uns interessierenden, textbasierenden Suchmaschinen nicht erfasst, es gibt allerdings spezialisierte Suchmaschinen dafür, zum Beispiel bei Altavista oder Google. Für bestimmte Branchen könnte es durchaus überlegenswert sein, auch diese Systeme für Marketing zu nutzen. Vielleicht kann ein Reiseanbieter über Bilder eines Ferienziels potenzielle Kunden auf seine Webseite ziehen. Zum jetzigen Zeitpunkt scheinen diese Möglichkeiten aber eher noch exotisch, insbesondere fehlen uns die klaren Möglichkeiten, steuernd auf Suchmaschinen zu wirken, wie wir sie im Textbereich haben.
1.2.9
Streaming-Formate
Sind vergleichbar mit den oben beschriebenen Sound- und Videoformaten, die Inhalte werden jedoch nicht als Datei heruntergeladen, sondern kommen in einem permanenten Strom vom Server, bis dieser unterbrochen wird. Im Moment werden diese Formate vor allem für Internet-Radio und Fernsehen eingesetzt, insbesondere letzteres steckt noch in den Kinderschuhen, da das Internet noch nicht über die Bandbreiten (Übertragungsleistung) für die dabei anfallenden Datenmengen verfügt. Mehr als alle anderen entziehen sich diese Inhalte den Suchmaschinen, zumindest wie wir sie heute kennen. Es gibt in ihnen nichts, was durchsucht und als Ergebnistabelle wieder ausgegeben werden kann.
45
1 Begriffsklärung und kurze Einführung in HTML
1.2.10
Dynamisch generierte Seiten
Es gibt heute eine fast unüberschaubare Menge von Verfahren, Webseiten nicht statisch auf einem Server zu speichern, der sie dann auf Anforderung an den Benutzer sendet, sondern erst im Moment der Anforderung dynamisch zu erzeugen: 왘 Server Side Includes (SSI) 왘 CGI-Scripts, meist in Perl oder PHP geschrieben 왘 Java Servlets, Java Server Pages 왘 Active Server Pages 왘 XML, XML Server Pages
und viele mehr. Dabei finden im Hintergrund oft umfangreiche Aktionen statt, Inhalte aus Datenbanken werden gelesen beziehungsweise diese mit Daten gefüllt, es werden Benutzer angelegt und gelöscht, möglicherweise werden selbst Warenlieferungen oder Geldtransaktionen ausgelöst. Wenn die Web-Technologie am Anfang vor allem dadurch begeisterte, dass man sich so einfach und für viele erreichbar präsentieren kann, geht es heute meist darum, mit interaktiven Lösungen Geschäftsziele zu erreichen. Aus Sicht des Browsers beziehungsweise des Roboters einer Suchmaschine ist es zuerst einmal völlig egal, ob die Seite als statisches HTML abgelegt worden ist, oder dynamisch generiert wird. Der Client sieht letztlich immer HTML, eventuell erweitert durch Cascading Style Sheets, JavaScripts und andere Elemente. Eine Einschränkung gibt es aber doch: Häufig benötigen dynamisch erzeugte Seiten Benutzereingaben in Formularfelder. Und – wie wir bereits gesehen haben – machen Suchmaschinen ebendies nicht, weshalb sie einen großen Teil dieser Seiten nicht wahrnehmen werden.
46
2
MarketingAktivitäten im Internet
Im Grunde kann man die Aktivitäten, die möglich sind, um den Marktplatz Internet zu nutzen, folgenden Gruppen zuordnen:
2.1
Verbindung des Web-Marketing mit anderen Maßnahmen
Einordnung des Internet-Marketing in einen umfassenden Marketing-Mix: Bei jeder sich bietenden Gelegenheit wird die WebAdresse veröffentlicht. Das kann in anderen Werbeumgebungen sein, aber auch auf Werbegeschenken oder im Umfeld von PRAktivitäten. Tatsächlich legen Untersuchungen die Vermutung nahe, dass die Mehrzahl der Besucher auf kommerziellen Websites diese direkt aufgerufen haben, und sie nicht über Suchmaschinen oder Werbebanner gefunden haben. Daher ist es essentiell, dass Sie die URLs besitzen, unter denen Ihr Kunde Sie zuerst suchen wird. Die Firma XYZ sollte also www.xyz.de und vielleicht auch www.xyz.com haben. Zu dieser Gruppe von Aktivitäten gehört auch die umgekehrte Nutzung: Der Website-Besucher kann Werbemittel anfordern oder sich über Maßnahmen informieren, wie zum Beispiel über besondere Ereignisse. Thema dieses Buchs ist das Internet selbst als eigenständiger Marktplatz. Daher soll dieser Gedanke hier nicht vertiefend verfolgt werden. Aber jeder, der sich im Internet vermarktet, sollte nach Lösungen suchen, dieses mit seinen sonstigen Aktivitäten zu verbinden.
47
2 Marketing-Aktivitäten im Internet
2.2
Das Internet als eigenständiges Marketing-Medium
Das Internet bietet eine große Zahl an Möglichkeiten für Marketing-Aktivitäten: 왘 Werbung mit Bannern und Tiles: Banner sind horizontal
gestreckte Werbe-Einsprengsel, die mit einem Hyperlink auf eine Website des Werbenden verbunden sind. Sind diese Werbeinseln eher quadratisch, sprechen manche immer noch von Bannern, korrekterweise bezeichnet man diese aber als Tiles, Fliesen. Bezahlt werden diese Werbemittel meist nach Views oder Page Impressions (wie viele Benutzer haben die Werbeeinblendung gesehen?) oder nach Klicks (wie viele Besucher haben auf die Werbung geklickt?). Bei der Berechnung nach Impressions liegt das Risiko, wie gut die Anzeige bei jenen Benutzern ankommt, die sie sehen, beim Anzeigenkunden, wird dagegen nach Klicks berechnet, liegt dieses Risiko eher beim Auftragnehmer. Es gibt auch Mischtarife dazwischen, also eine Einblendegebühr, die sowohl aus Impressions wie aus Klicks errechnet wird. Häufig werden dafür auch »Caps« definiert: Wenn die Kosten einen bestimmten Betrag übersteigen, wird die Bannerwerbung bis zur Neubeauftragung eingestellt. Nachdem es bis zum Jahr 2000 eine gewisse Euphorie für Bannerwerbung gegeben hatte – sie ist ja sehr funktionell und bietet vergleichsweise leicht messbare Ergebnisse – ist hier inzwischen eine allgemeine Ernüchterung eingetreten. Anbieter von Banner-Plätzen beklagen, dass damit nicht mehr sehr viel Geld zu machen ist. Andererseits kann hierin aber auch wieder eine Chance liegen: Bannerwerbung ist recht billig geworden und dadurch wirtschaftlich. Außerdem kann sie die Suchmaschinen-Optimierung, das eigentliche Thema dieses Buches, unterstützen: Viele Suchmaschinen bewerten das Ranking – die Bedeutung einer Webseite – auch anhand der Hyperlinks, die auf sie verweisen. Entdeckt eine solche Suchmaschine Ihre Bannerwerbung auf einer anderen Seite, kann dies das Ranking Ihrer Seite eventuell deutlich verbessern.
48
Das Internet als eigenständiges Marketing-Medium
왘 Werbung über Suchmaschinen: Durch Platzierung in Suchma-
schinen mit dem Ziel, ein hohes Ranking (Bewertung der Seiten) und optimale Relevanz (Übereinstimmung mit den erwarteten oder beobachteten Suchbegriffen des Benutzers) zu erzielen, soll dieser auf der Suche nach Information zum Angebot des Werbenden gelenkt werden. Dies ist der schwierigste und aufwändigste Teil des InternetMarketing. Die Unternehmen, die dies professionell bewerkstelligen, sind jedoch vom Nutzen sehr überzeugt. Die Hinweise für diese Arbeit sollen auch den größten Teil dieses Buches ausmachen. Die meisten Suchmaschinen bieten heute außerdem Banneroder Tiles-Werbung an, die aufgrund ihrer Spezifizierung an Zielgruppeninteressen recht wirkungsvoll sein kann. Man kann nun mal davon ausgehen, dass eine Person, die nach bestimmten Schlüsselwörtern sucht, an den dazu angebotenen Internet-Adressen auch entsprechend interessiert ist. Werbung bei Suchmaschinen ist deshalb oft spezifisch an Suchbegriffen der Benutzer orientiert, der Auftraggeber kann bestimmen, dass bei Eingabe bestimmter Suchwörter oder Wortkombinationen die Werbung auf der Ergebnisseite mit angezeigt wird. Sofern – wie beispielsweise bei Google – diese Werbung von den Suchergebnissen klar unterscheidbar bleibt und nicht überhand nimmt, ist dagegen mit Sicherheit nichts einzuwenden. Es kann auch durchaus von Vorteil sein, wenn der Benutzer ein Web-Angebot sowohl bei den Suchergebnissen wie auch bei den Werbeeinblendungen sieht. Problematisch wird dabei höchstens die Messung nach Klicks, da der Benutzer ja sowohl auf die Adresse in den Suchergebnissen wie auch auf die platzierte Werbung klicken kann. Daher berechnen Suchmaschinen meist nur nach Impressions. 왘 Interaktive Applikationen: Technisch sind diese für einen
guten Programmierer leicht umsetzbar: Eine Datenbank, eine Software, die diese mit dem Webserver verbindet und der Browser des Benutzers. Damit lassen sich Web-Shops, Infooder Buchungssysteme einrichten und Online-Banking anbieten. Eine Reihe von Unternehmen bauen heute ihr Geschäftsmodell auf solchen Systemen auf, Hotmail, GMX, Web.de und
49
2 Marketing-Aktivitäten im Internet
andere bieten ihren Benutzern neben E-Mail weitere Dienste kostenlos oder gegen eine geringe Gebühr an. Die damit erzeugte Kundenbeziehung wird dann für weitere, profitable Aktivitäten genutzt. Voraussetzung für solche Angebote ist natürlich, dass die Seite bei den Benutzern gefunden wird, und einer der effektivsten Wege dazu ist die Nutzung der Suchmaschinen. 왘 Permission Marketing: Die Erlaubnis des Benutzers, ihm
Informationen zusenden zu dürfen, ist ein äußerst wertvolles Gut. Zu diesem Thema gibt es inzwischen eine Menge an Literatur und eine Reihe neuer, sehr erfolgreicher Vorgehensweisen. 왘 Newsletter: Diese werden in der Regel per E-Mail versandt.
Gut gemachte Newsletter kommen bei Benutzern hervorragend an. Sie sind zielgruppenspezifisch und können über Hyperlinks auf Web-Inhalte verweisen Die hier gemeinten, erwünschten Newsletter sind unbedingt zu unterscheiden von Spam, jenen lästigen Rundmails, die sicherlich auch ihnen täglich den Posteingang »zumüllen«, und deren Angebote an Zweifelhaftigkeit oft nicht zu überbieten sind.1 Da »kalte« E-Mails bei uns in der Regel als unlautere Werbung unzulässig sind, sollen sie hier auch nicht weiter besprochen werden. 왘 Es gibt noch weitere Verfahren, beispielsweise Wählautoma-
ten: Manche, oft dubiose Seiten verlangen vom Besucher, dass er oder sie sich eine Software-Komponente herunterlädt, die jedes Mal beim Aufruf bestimmter Seiten eine teure 0190Nummer anwählt. Die von den Anbietern dieser Seiten häufig eingesetzten Verfahren werden zur Zeit immer raffinierter. Viele verwenden Tarnmanöver, die zum Ziel haben, dass der Benutzer gar nicht mitbekommt, wie sich ein solches DialerProgramm von alleine im Hintergrund installiert. Die böse Überraschung kommt dann mit der nächsten Telefonrechnung, deren Euro-Betrag leicht in fünfstellige Zahlenbereiche geraten kann. Die aktuelle Rechtsprechung steht im Zweifel eher nicht 1
50
Untersuchungen haben – leider – ergeben, dass diese Form des Verkaufens sogar sehr effizient sein kann. Grund: eine E-Mail-Nachricht kostet praktisch nichts.
Das Internet als eigenständiges Marketing-Medium
auf der Seite des Benutzers, der sich möglicherweise vorhalten lassen muss, dass es in seiner eigenen Verantwortung liegt, wenn er Dialer auf seinen Rechner geladen hat, und dass die Telekom oder ein anderer Telefon-Dienstleister zumindest nicht dafür mitverantwortlich gemacht werden kann. Dialer sind ein aufstrebendes Geschäft, es gibt bereits viele Anbieter dieser Art von Software, und die Unternehmen, die sie gerne auf Kosten der Benutzer einsetzen, haben genug Geld für teure Anwälte, die ihre Kritiker mundtot machen sollen. Tipps, wie man sich als Webbenutzer gegen Dialer-Software wehren kann, finden Sie im Internet zum Beispiel unter www.dialerundrecht.de oder www.dialerhilfe.de. Auch gibt es bereits Software, die wirkungsvollen Schutz bietet, vergleichbar dem Schutz von Antivirensoftware.2 Die neuesten Versionen unserer Webbrowser und der ebenfalls betroffenen MailClients, wie zum Beispiel Microsoft Outlook, machen es zusätzlich unmöglich, Softwarepakete ohne Zutun und Wissen des Benutzers auf dessen Rechner zu laden. Ältere Versionen dieser Software stellen dagegen noch ein größeres Risiko dar und sollten möglichst nicht mehr verwendet werden. Mittlerweile interessieren sich übrigens in Deutschland auch die Behörden für die schwarzen Schafe dieser Branche. Zum heutigen Zeitpunkt sind Dialer für einen seriösen Anbieter im Marktplatz Internet sicher eher ungeeignet, dem eigentlich sehr funktionalen Geschäftsmodell steht aufgrund des häufigen Missbrauchs der mögliche Verlust des guten Rufs gegenüber. Aber vielleicht werden dieses oder ähnliche Verfahren bald als normal gelten, das Telefon – speziell das Handy – als elektronische Geldbörse wird bestimmt Bestandteil künftiger Geschäftsmodelle sein, die erst noch entwickelt und auf den Markt gebracht werden müssen.
2
Dialer selbst sind zwar keine Viren, manche von Ihnen verstecken sich vor dem Benutzer jedoch ähnlich wie diese, und speziell für eine Privatperson ist der potenzielle Schaden eher noch höher.
51
3
Wissenswertes zu Suchmaschinen
Suchmaschinen sind Datenbanken. Es gibt mehrere Typen von Suchmaschinen: Roboter, auch Crawler oder Spider genannt, und Verzeichnisdienste. Außerdem gibt es Meta-Suchmaschinen und Spezialsuchdienste.
3.1
Suchmaschinen-Typen
Im folgenden werden die verschiedenen Typen von Suchmaschinen voneinander unterschieden. Tatsächlich sind viele Suchhelfer Mischtypen oder Kombinationen.
3.1.1
Roboter
Suchmaschinen vom Typ Roboter sind auf extreme Hochleistung getrimmte Systeme, die laufend das World Wide Web und andere Elemente des Internet analysieren. Google beispielsweise setzt nach eigenen Angaben1 einen Cluster aus über zehntausend PCs ein, die auf vier Datenzentren verteilt sind. Roboter bestehen im Grunde aus drei Elementen: 왘 dem eigentlichen Crawler, der ähnlich wie ein Browser Seiten-
inhalte aufruft und diese dann ausliest, er findet auch Hyperlinks und kann diesen folgen, um weitere Seiten zu entdecken, 왘 der Datenbank, die Wortlisten führt und zu den Wortlisten
Fundstellen (URLs) kennt, man bezeichnet diese Datenbank als Index, 왘 der Web-Oberfläche, über die der Benutzer mit der Suchma-
schine interagiert. 1
Die Angaben sind einem Interview mit Monika Henzinger, der Leiterin der Forschungsabteilung von Google in Mountain View, Kalifornien, in der Zeitschrift »Spektrum der Wissenschaft« vom Juli 2002 entnommen.
53
3 Wissenswertes zu Suchmaschinen
Nach diesem Prinzip arbeiten unter anderem Google, Altavista und AOL. Crawler übergeben nicht nur die gefundenen Wörter an die Datenbank, sondern finden und lesen auch Hyperlinks und verfolgen diese weiter. Auf diesem Weg können sie zuerst die gesamte Website und von hier aus auch weitere Sites erfassen, zumindest soweit diese durch Hyperlinks gefunden werden können. Abbildung 3.1: Eine Suchmaschine des Typs Roboter: Google
Wenn man sich allerdings überlegt, dass jede Seite auf mehrere andere Seiten verweisen könnte, die wiederum auf viele weitere Seiten verweisen und so weiter, wird einem schnell klar, dass es für solche Crawl-Verfahren Grenzen geben muss, ansonsten würde die Liste der vom Crawler noch zu besuchender Seiten ja deutlich schneller anwachsen, als er sie abarbeiten kann.
54
Suchmaschinen-Typen
Abbildung 3.2: Die Suchmaschine arbeitet eine Liste mit URLs ab, fügt aber selbst laufend neue URLs hinzu; die Liste wächst unten schneller an, als sie oben abgearbeitet wird
Auch der leistungssteigernde Einsatz von schnelleren Rechnern und so genannten Clustern, mehreren parallel und voneinander weitestgehend unabhängig arbeitenden Rechnern, die ihre Ergebnisse in eine gemeinsame Datenbank übergeben, ist keine Lösung zumindest für dieses Problem: Mit der erhöhten Leistung wächst auch die Liste der noch zu besuchenden Seiten schneller. Der Einsatz solcher Cluster lässt sich bei einigen Suchmaschinen übrigens tatsächlich beobachten, speziell wenn man Protokolldaten des Webservers auswertet, worüber wir noch sprechen werden. Die Lösung für Roboter ist es, die Liste der abzuarbeitenden URLs immer wieder zu verkürzen, also Einträge rauszulöschen. Wenn wir über den Umgang mit Suchmaschinen und die Probleme, die sich dabei ergeben können, sprechen, werden wir auf diesen Punkt zurückkommen müssen.
3.1.2
Verzeichnisdienste
Verzeichnisdienste funktionieren im Grunde ähnlich, statt eines Crawlers prüft allerdings zuerst ein Mensch die Inhalte, bewertet sie und stellt sie dann in die Datenbank. Es gibt auch einige Verzeichnisdienste, bei denen die Aufnahme eines neuen URL automatisiert erfolgt. Bekannte Verzeichnisdienste sind Yahoo, Dino-Online, Web.de oder – über das Open Directory Project – Netscape.
55
3 Wissenswertes zu Suchmaschinen
Abbildung 3.3: Beispiel für einen Verzeichnisdienst: Das von Menschen redaktionell geführte Open Directory Project
Die Anzahl von Fundstellen, über die ein Roboter zu einem beliebigen Begriff verfügt, ist meist um ein Vielfaches höher, als bei einem Verzeichnisdienst, dieser verspricht dafür aufgrund der Bewertung durch Menschen eine höhere Relevanz der Ergebnisse und Ausschluss von unerwünschten Ergebnissen, z.B. von pornografischen Seiten. Verzeichnisdienste fassen Angebote außerdem in Kategorien zusammen, die eine alternative Suchmöglichkeit zur Stichwortsuche ermöglichen. Diese Kategorien machen auch den Unterschied bei der Anmeldung aus: Während Roboter meist mit der Angabe des URL und einiger weniger zusätzlicher Infos zufrieden sind, wollen Verzeichnisdienste wissen, in welcher Kategorie die neue Website aufgenommen werden soll. Die Kategorien der Verzeichnisdienste sind hierarchisch aufgebaut. Einen kleinen Ausschnitt der Verzeichnishierarchie von Yahoo zeigt die folgende Grafik:
56
Suchmaschinen-Typen
Yahoo.de
Bildung & Ausbildung
Computer & Internet
Geisteswissenschaften
Ausbildung
Hardware
Institute
Behinderte
Software
Organisationen
Bildungspolitik
Internet & WWW
Altertumskunde
Bildungsurlaub
Betriebssysteme
Archäologie
Abbildung 3.4: Verzeichnishierarchie bei Yahoo (Ausschnitt)
Sobald der Redakteur eines Verzeichnisdienstes darüber entschieden hat, dass eine Website aufgenommen wird und in welcher Kategorie, wird zusätzlich ein Roboter eingesetzt, bei Open Directory Project heißt dieser beispielsweise Robozilla. Ausgehend von der angemeldeten Startseite werden über Hyperlinks weitere Seiten gefunden und in den Index aufgenommen. Der VerzeichnisRoboter besucht anschließend regelmäßig die Website, prüft sie auf Änderungen und informiert den Redakteur, falls sie nicht mehr verfügbar ist. Ähnlich wie bei den eigentlichen Robotern kann eine solche Situation auch beim Verzeichnisdienst dazu führen, dass die einmal angemeldete Site wieder entfernt wird. Wenn der Benutzer den Verzeichnisdienst über den hierarchischen Katalog durchsucht, werden ihm deshalb nur die Startseiten der jeweiligen Websites als Ergebnisse vorgeschlagen, von denen aus sich der Benutzer dann weiter durchklicken kann. Webverzeichnisse bieten allerdings meist auch ein Suchfeld an, in das wie bei Robotern Suchbegriffe eingegeben werden können. Hier hat der Benutzer nun Zugriff auf den vollen Bestand des Indexes. In der Regel kann der Benutzer hier auch Ergebnisse aus Robotern finden, was insbesondere sinnvoll ist, wenn die eigenen Ergebnisse des Verzeichnisdienstes zu wenig ergiebig sind.
57
3 Wissenswertes zu Suchmaschinen
Webverzeichnisse werden meist von Menschen gepflegt und versprechen so, relevante Inhalte zuerst anzubieten, denen die große Menge der vom Roboter gefundenen Seiten folgt. Verzeichnisdienste und Robots arbeiten oft eng zusammen. Während der Robot Google die Möglichkeit anbietet, alternativ auf das Verzeichnis des Open Directory Project zuzugreifen, bietet der Verzeichnisdienst von Yahoo.de an, die Daten des Robots Google mit anzuzeigen. Eine Besonderheit ist der Verzeichnisdienst des Open Directory Project. Hier hat der Benutzer selbst die Möglichkeit, Redakteur zu werden, wobei grundsätzlich nicht einmal untersagt ist, eigene Seiten anzumelden und hoch zu bewerten. Gewarnt wird nur davor, dass es zum Ausschluss des Redakteurs führen kann, wenn eine missbräuchliche Nutzung erkennbar ist, beispielsweise Ausschluss eines Wettbewerbers. Wenn man dann noch bedenkt, dass Google die Bewertungen des Open Directory Project in sein eigenes Ranking einfließen lässt...
3.1.3
Meta-Suchmaschinen
Ein dritter Typus sind Meta-Suchmaschinen, wie zum Beispiel Meta-Ger oder www.suchen.com. Diese besitzen keine eigenen Daten, die sie durchsuchen, sondern leiten die Anfrage im Hintergrund an mehrere andere Suchmaschinen weiter. Häufig kann der Benutzer auswählen, von welchen Suchmaschinen er die Ergebnisse sehen möchte. Da die angefragten Suchmaschinen teilweise unterschiedliche Datenbestände haben, erhält der Benutzer umfangreichere Suchergebnisse, was nicht unbedingt immer wünschenswert sein muss. Außerdem dauert es oft recht lange, bis alle Ergebnisse zusammengetragen und in einer Ergebnisseite verarbeitet sind, insbesondere, wenn man die Suchdauer mit der von Google und anderen Sprintern vergleicht.
58
Suchmaschinen-Typen
Abbildung 3.5: Eine Meta-Suchmaschine mit einer Auswahl an Suchmaschinen, an die eine Anfrage weitergeleitet werden kann.
Ein weiterer Ansatz ist, Meta-Suchmaschinen themenorientiert einzurichten. Diese durchsuchen dann andere Suchmaschinen, filtern aber nach den für sie relevanten Informationen aus. Das könnten Gebrauchtwagen sein, Software und viele andere. Sie verbinden also die Vorteile der Meta-Suchmaschinen mit denen der im folgenden beschriebenen Spezialsuchmaschinen. Meta-Suchmaschinen können für viele der hier beschriebenen Aufgabenstellungen recht nützlich sein, da sie einen vergleichsweise schnellen Überblick erlauben, in welchen Suchmaschinen eine Website bekannt ist, und welche Platzierung sie unter den Suchergebnissen hat. Man spart es sich damit, die Suchmaschinen mühselig einzeln abzuarbeiten.
59
3 Wissenswertes zu Suchmaschinen
Einige Meta-Suchmaschinen bieten als Geschäftsmodell an, für Kunden die Anmeldung bei den eigentlichen Suchmaschinen durchzuführen – natürlich gegen einen kleinen Obolus. Wenn man an solch einer Dienstleistung interessiert ist, sind die Meta-Suchmaschinen sicher keine schlechte Adresse.
3.1.4
Spezial-Suchmaschinen
Weiter zu berücksichtigen sind Suchseiten, die sich speziell an bestimmte Branchen richten. Auch sind Angebote, die sich auf spezielle Themen konzentrieren, hierunter zu fassen. Diese sind typischerweise redaktionell geführt und wirken gelegentlich nicht sehr professionell. Die dazu notwendige Fleißarbeit sollte aber nicht unterschätzt werden, zumal die Autoren diese Seiten selten hauptberuflich pflegen. Abbildung 3.6: Eine Spezialsuchmaschine für wissenschaftliche Seiten: Gerhard
Diese Verzeichnisse lassen sich eventuell nutzen: Kontaktieren Sie den Anbieter und versuchen Sie, darin mit einem Hyperlink auf Ihre Website platziert zu werden.
60
Suchmaschinen-Typen
Wenn Sie damit erfolgreich waren, können Sie die Seiten, auf denen der Link zu Ihnen zu finden ist, selbst bei Robotern anmelden, und wie wir sehen werden, kann dies Ihre Platzierung in den eigentlich interessierenden Suchmaschinen verbessern helfen. Für gewisse Branchen sind solche Spezial-Suchmaschinen bereits zu einem wertvollen und unverzichtbaren Service geworden. So gibt es für den Pressebereich Suchmaschinen, anhand derer man veröffentlichte Artikel und Nachrichten finden kann. Oder auch solche, die eine Suche speziell nach Bildern und Grafiken oder mp3-Dateien ermöglichen. Adressen finden Sie im Anhang. Oder wie wäre es mit einer kirchlichen Suchmöglichkeit? Abbildung 3.7: Kirchliche Spezialsuchmaschine
Es gibt auch Suchmaschinen, die sich auf das Web-Angebot eines Anbieters konzentrieren. Microsoft beispielsweise hat mehrere solcher Suchmaschinen im Einsatz. Das folgende Beispiel durchsucht MSDN, das Microsoft Developer Network, mit einer sehr großen Anzahl von Artikeln, die insbesondere für Programmierer von Interesse sind.
61
3 Wissenswertes zu Suchmaschinen
Abbildung 3.8: Suchmaschine für technische Artikel bei Microsoft
Eine breite Übersicht über Suchmaschinenangebote finden Sie übrigens unter anderem unter www.suchmaschinen.de. Roboter und Verzeichnisdienste sind zwar nicht voneinander getrennt, dafür ist die Sammlung aber recht umfangreich, auch einige Spezial-Suchmaschinen finden sich dort.
3.2
Die Bedeutung von Suchmaschinen für Anbieter von Web-Inhalten und eventuelle Probleme
Wahrscheinlich ist Teil Ihrer eigenen Erfahrung mit dem Internet, dass Suchmaschinen am Beginn jeder Recherche stehen. Es ist immer wieder erstaunlich, wie schnell man über sie Informationen zu Themen, Firmen, Personen oder Produkten findet, und seien sie noch so exotisch und selten.
62
Bedeutung und Probleme von Suchmaschinen
Sie wissen, beispielsweise, dass ein wichtiger Lieferant im Internet vertreten ist und dort Datenblätter zu seinen Produkten eingestellt hat. Sie kennen zwar den URL der Firma nicht, aber das ist kein Problem. Sie rufen Google oder Altavista auf oder eine andere Suchmaschine, geben den Namen der Firma ein, und erhalten eine Liste von Dokumenten, die mit dem Unternehmen zu tun haben. Wahrscheinlich ist auch schon mindestens ein Dokument aus der Website der Firma dabei. In seltenen Fällen mag es notwendig werden, zu »blättern«, sich also weitere Seiten mit Ergebnissen anzeigen zu lassen, aber wenn die gesuchte Firma tatsächlich eine eigene Website hat, werden Sie sie mit Sicherheit finden. Eigentlich interessiert Sie doch aber nicht der Lieferant, den kennen Sie ja bereits. Sie suchen ein Datenblatt zu einem Produkt, das Sie interessiert. Die Wahrscheinlichkeit ist groß, dass Sie das Datenblatt finden, wenn Sie gleich die Produktbezeichnung in eine Suchseite eingeben. Vermutlich werden Sie die gewünschte Information sogar schneller finden, als wenn Sie zuerst auf die Website der Firma gehen und sich von dort aus über mehrere Hyperlinks bis zum gewünschten Inhalt durchhangeln. Probieren Sie es doch mal aus: Schauen Sie nach, ob es für Ihren Drucker beim Hersteller einen aktuelleren Treiber gibt als den, den Sie gerade einsetzen. Machen Sie das auf zwei Wegen (und stoppen Sie jedes Mal die Zeit)2: 왘 Rufen Sie den URL des Herstellers auf (z.B. www.hewlett-pack-
ard.com) und suchen Sie von der Startseite aus die Seite, von der aus Sie den Druckertreiber herunterladen können. 왘 Gehen
Sie zu einer der großen Suchmaschinen (z.B. www.google.de), geben Sie die Bezeichnung des Druckers ein, dann das Wort »driver« und dann das Wort »download«.
Spätestens jetzt sollte klar sein, warum Suchmaschinen so wichtig sind und ihre Popularität eher noch zunehmen wird. Gut genutzte Suchmaschinen sind meist der schnellste Weg zur gesuchten Information.
2
Natürlich spricht auch nichts dagegen, stattdessen die de-ToplevelDomänen aufzurufen und nach einem deutschen »Treiber« zu suchen.
63
3 Wissenswertes zu Suchmaschinen
Es gibt heute sogar professionelle Trainings für Internet-Recherche. Einkäufer, Journalisten und Entscheider aus den unterschiedlichsten Bereichen lernen hier, wie man das World Wide Web und hier insbesondere die Suchmaschinen nutzt, um Informationen zu finden. Und auch Literatur gibt es hierzu. Sie, liebe Leserin, lieber Leser, bieten doch auch etwas an. Sie haben Inhalte im Internet, von denen Sie möchten, dass Benutzer sie finden, wenn sie sie brauchen. Sie möchten gefunden werden, und zwar von den Personen, die Suchmaschinen als Recherchemittel einsetzen. Auf den ersten Blick ist das einfach, tatsächlich stellen sich uns einige ganz vertrackte Probleme: 왘 Problem 1: Suchbegriffe und Schreibweisen berücksichtigen
Überlegen Sie einmal, nach welchen Stichwörtern ein Benutzer suchen könnte, von dem Sie wünschen, dass er Ihre Website findet. Vermutlich wird es dafür eine recht große Anzahl von Möglichkeiten geben, zum einen natürlich unterschiedliche Begriffe und Wörter, aber auch nur verschiedene Schreibweisen, die sich teilweise nur geringfügig unterscheiden. Probieren Sie diese Möglichkeiten einmal mit einer Suchmaschine aus. Sie werden feststellen, dass die Ergebnisse jedes Mal recht unterschiedlich sein können. Hier ein Beispiel aus der Welt eines der Autoren: 왘 Projektmanagementtraining 왘 Projekt-Management-Training 왘 Projektmanagement-Training 왘 Projektmanagement-Seminar 왘 Projekt-Management-Seminare 왘 Projektleiter-Seminare 왘 Seminare für Projektleiter 왘 Project Management Training 왘 project methodology seminar 왘 Kurse in Project Management
Wo es verschiedene Begriffe und Schreibweisen gibt, sollten Sie damit rechnen, dass auch alle verwendet werden.
64
Bedeutung und Probleme von Suchmaschinen
Übrigens: Beobachtungen haben ergeben, dass die meisten Benutzer von Suchmaschinen normalerweise nicht mehr als zwei Begriffe in das Suchfeld eingeben. Auch aus einem Begriff wie »Seminare für Projektleiter« wird oft nur »Seminare Projektleiter«, weil in den meisten Suchmaschinen häufig verwendete Wörter wie »für«, »und« oder »der«/»die«/»das« in der Suche weggelassen werden. Eine Hilfe beim Finden des richtigen Suchbegriffs sind Listen von häufigen Benutzer-Eingaben. Fireball bietet unter www.fireball.de/qstat.html eine solche Liste als Stichwort-Statistik, die hochaktuell ist. Sie zeigt die angefragten Begriffe des Vortages und wird laufend aktualisiert. Die Liste ist allerdings zensiert, mit Sex und Erotik verbundene Begriffe sind entfernt worden. Vermutlich wird Sie das bei Ihren Bemühungen eher unterstützen. Eine ähnliche, jedoch unzensierte Liste findet sich bei Suchmaschinentricks.de unter www.suchmaschinentricks.de/tools/keywords.php3. Die hier zu findende Liste bezieht sich nach Aussage ihres Autors auf Beobachtungen, die über einen längeren Zeitraum gemacht worden sind. Aber Vorsicht! Bevor Sie jetzt Begriffe wie SMS oder Download kostenlos auf Ihrer Titelseite platzieren: Erreichen Sie damit wirklich die Benutzer, an denen Sie interessiert sind? Die Website www.suchmaschinentricks.de/tools/kw_lookup.php3 bietet übrigens einen noch interessanteren Dienst an: Die Suche nach den häufigsten Kombinationen, in denen ein Wort von Benutzern gesucht worden ist. Wenn Ihre Seite zu der gesuchten Kombination eine besonders hohe Relevanz hat, wird sie bei den Suchergebnissen top platziert sein. Der Begriff Relevanz wird übrigens in Kapitel 4 ausführlich beschrieben. Wir werden in diesem Buch auch noch darüber sprechen, wie wir feststellen können, welche Schreibweise ein Besucher verwendet hat, wenn er oder sie die Website in der Suchmaschine gefunden hat, denn eines ist klar: Gehen Sie nicht davon aus, dass es die von Ihnen im allgemeinen verwendete oder erwartete ist.
65
3 Wissenswertes zu Suchmaschinen
왘 Problem 2: Die richtigen Suchmaschinen finden
Noch etwas weiteres müssen wir in Erfahrung bringen: Welche Suchmaschinen werden von unseren potenziellen Neukunden bevorzugt? Und wie werden diese eingesetzt? Die meisten haben eine Suchmaschine, die sie am liebsten verwenden, vielleicht, weil die Ergebnisse so genau sind, oder so umfangreich, oder weil der Benutzer die vielen kleinen Tricks der Expertensuche beherrscht, die bei dieser Suchmaschine funktionieren und bei einer anderen nicht beziehungsweise mit anderen Eingaben. Manch einer bevorzugt vielleicht Google, weil die Oberfläche so schlicht ist und sich auf das Wesentliche konzentriert, und weil der Benutzer sich nicht über lästige Pop-Up-Fenster ärgern muss. Auch verfügt Google, zumindest nach eigener Aussage, über die größte Suchwort-Datenbank (über 2 Milliarden Seiten). Andere suchen über Yahoo, Lycos oder Netscape, wo es redaktionell geführte Verzeichnisse gibt (siehe oben) und wo man nebenher weitere Informationen sammeln und Nachrichten lesen kann. Wieder andere bevorzugen Meta-Suchmaschinen wie Meta-Ger, die Such-Anfragen nicht selbst bearbeiten, sondern gleich an mehrere andere Suchmaschinen durchreichen und eine entsprechend höhere Menge an Ergebnissen haben, die aber auch im Umgang eher anspruchsvoller sind. Sie werden gerne von Studenten verwendet und von Personen, die ihr Einkommen im Bereich Forschung und Lehre erzielen. Manche verwenden gerne national ausgerichtete Suchmaschinen, andere eher die Global Players und so weiter. Es mag noch viele andere Gründe geben, warum sich Benutzer für eine Suchmaschine entscheiden, wir können nicht alle kennen. Und wir wissen, dass sich Bevorzugungen auch wieder ändern können. Welche Suchmaschinen werden gerne genutzt? Für Deutschland gibt es bei www.etracker.de unter dem Punkt »globale Statistik Suchmaschinen« eine Statistik für eine Reihe beobachteter Webseiten, von welchen Suchmaschinen aus Besucher zu ihnen gefunden haben. Anfang 2002 sah die Reihenfolge bei den wichtigsten Suchmaschinen wie folgt aus:
66
Bedeutung und Probleme von Suchmaschinen
Rang
Suchmaschine
Anteilig
1
Google
63.7%
2
Yahoo
7.5%
3
Lycos.de
6.1%
4
T-Online
4.4%
5
Web.de
3.7%
6
MSN Germany
3.3%
7
MetaGer
2.4%
8
Altavista
1.9%
9
Fireball
1.8%
10
Freenet
1.1%
11
MSN
0.8%
12
AllesKlar
0.5%
13
Dino Online
0.4%
14
NetCraft
0.4%
15
Crawler.de
0.3%
Aber Vorsicht: Dies muss für Ihre spezifische Website und die von Ihnen gewünschte Zielgruppe nicht identisch sein. Dennoch ist der von Google erzielte Anteil von über 60 Prozent der Weiterleitungen an Websites aus Suchergebnissen heraus beeindruckend, und die Tendenz ist weiter steigend. 왘 Problem 3: Die richtigen Besucher ansprechen
Wollen Sie wirklich jeden Besucher? Stellen wir uns den Marktplatz Internet als Krämer- oder Wochenmarkt vor. Wollen Sie von jedem, der vorbeigeht, dass er/sie stehen bleibt? Auch bei Desinteresse? Irgendwann ist der Platz vor Ihrem Stand gefüllt mit Betrachtern, die eigentlichen potenziellen Kunden finden keinen Platz mehr und gehen an Ihnen vorbei. Ähnliches kann Ihnen auch im Internet passieren. Für eine große Besucherzahl müssen Sie gerüstet sein, der Webserver muss ausreichend Bandbreite (Übertragungsleistung der Anschlussleitungen zum Internet), Festplattendurchsatz und Rechenleistung haben, um dies verarbeiten zu können. Wenn der Server in einem dieser Faktoren überlastet wird, kann dies zu unangenehmen Erlebnissen für Ihre Besucher führen: Das
67
3 Wissenswertes zu Suchmaschinen
Antwortverhalten des Servers wird immer träger, im schlimmsten Fall kommt er zum Stillstand. Oder der Benutzer erhält eine Fehlermeldung. Alles dies kann negativ auf Ihr Unternehmen zurückfallen. Ein guter Administrator wird die Last auf dem Server überwachen und rechtzeitig nachrüsten, bevor Engpässe bestehen, aber gute Administratoren sind eher knapp und eine Nachrüstung ist unter Umständen auch nicht billig. Ungewollte Besucher können also auf Kosten der interessanten die Leistung reduzieren. Unabhängig davon, ob Sie eigene Server einsetzen oder einen Dienstleister nutzen: Leistungsfähigkeit im Internet gibt es nicht zum Nulltarif. Dies gilt insbesondere, wenn Sie dynamisch erzeugte Seiten anbieten, da es für den Rechner nicht reicht, diese von der Platte abzurufen und an den Benutzer zu senden. Sie müssen oft umfangreiche Bearbeitungsschritte erfahren, die den Prozessor des Servers belasten und die Antwortzeiten erhöhen.
3.3
Indexgrößen wichtiger Suchmaschinen
Die folgende Grafik zeigt einige große, internationale Suchmaschinen, und wie sich deren Indexgrößen, die Listen der erfassten Wörter, im Zeitraum von über 5 Jahren entwickelt haben:
Abbildung 3.9: SuchmaschinenIndizes, Entwicklung 1995 bis 2001
68
Indexgrößen wichtiger Suchmaschinen
Die Zahlen, auf denen diese Grafik basiert, stammen von den Betreibern selbst, sind also mit Vorsicht zu genießen. Man kann deutlich erkennen, wie bei den meisten Anbietern die Indexgrößen laufend steigen. Für viele war das Jahr 2000 der Zeitraum des schnellsten Wachstums. Waagerechte Linien im Diagramm müssen nicht bedeuten, dass der entsprechende Index stagniert, sie können auch nur daher rühren, dass vom Suchmaschinenbetreiber keine neuen Angaben zu finden waren. Eine andere Interpretation ist die, dass die Erweiterung eines Index eine recht teure und technisch aufwändige Aktion zu sein scheint, die von den Suchmaschinen nur im Rahmen von gelegentlichen größeren Projekten durchgeführt werden kann. Immerhin soll ja auch während der Umstellung die Suchdienstsleistung weiter ungestört angeboten werden. Google startete erst im Juni 1998, hat aber – wenn die vom Unternehmen mitgeteilten Zahlen stimmen – mit 1 Milliarde Seiten im Sommer 2001 und einer Erweiterung auf 2 Milliarden Seiten im Spätherbst des gleichen Jahres den bei weitem umfangreichsten Index. Eine weitere Übersicht stammt von www.at-web.de. Hier finden sich auch Angaben speziell zu deutschsprachigen Suchmaschinen sowie zu Verzeichnisdiensten. Die Angabe »Datum« bezieht sich auf den Zeitpunkt der Veröffentlichung.3
3
Datum
Roboter/ Verzeichnisdienst
Suchdienst
Index
Acoon
87 Mio. (weltweit) 09.2001
Roboter
AllesKlar
370 000 Sites in 05.2001 10 000 Kategorien
VD
AltaVista.com
550 Mio.
09.2001
Roboter
AltaVista.de
(82 Mio.)
11.2001
Roboter
Bellnet
400 000 Sites; Zahl 11.2000 der Kategorien nicht bekannt
VD
Verzeichnisdienste versprechen ohnehin Relevanz anstelle von Menge, die vergleichsweise kleineren Datenbestände werden hier nicht unbedingt als Nachteil angesehen.
69
3 Wissenswertes zu Suchmaschinen
Suchdienst
Index
Datum
Roboter/ Verzeichnisdienst
Dino
275 000 Sites in 50 000 Kategorien , 20 Sachgebiete
08.2000
VD
Euroseek
50 Mio.
08.2000
Roboter
AllTheWeb (FAST Seach & Transfer ASA)
625 Mio. basierend auf 1,5 Milliarden erfasster Seiten
11.2001
Roboter
Fireball
8,2 Mio.
01.2001
Roboter
Google
2 Milliarden
12.2001
Roboter
HotBot (Inktomi)
ca. 600 Mio. basie- 09.2001 rend auf 1,5 Milliarden erfasster Seiten
Roboter
Infoseek (Deutschland)
42 Mio.
09.2000
Roboter
LookSmart
2,0 Mio. Sites in 200 000 Kategorien
10.2000
VD
Lycos (weltweit)
250 Mio.
09.2000
Roboter
Northern Light
354 Mio.
05.2001
Roboter
ODP (Open Directory Project)
2,839 Mio. Sites in 402 157 Kategorien
09.2001
VD
Qualigo
15 Mio.
05.2001
Roboter
Scoutmaster
6,3 Mio.
09.2001
Roboter
Sharelook
182 000 Sites in 36 000 Rubriken, 12 Hauptkategorien
08.2000
VD
Speedfind
12 Mio.
08.2000
Roboter
Teoma
100 Mio.
09.2001
Roboter
70
Indexgrößen wichtiger Suchmaschinen
Suchdienst
Index
Datum
Roboter/ Verzeichnisdienst
Voila (weltweit)
145 Mio. einschl. Bilder, Videos
08.2000
Roboter
WiseNut
850 Mio (1,495 Milliarden Links)
09.2001
Roboter
WEB.DE
459 843 Sites in über 36 650 Kategorien
09.2001
VD
Halten Sie sich auf dem Laufenden, was es Neues im Suchmaschinengeschäft gibt, und stellen Sie sicher, dass Sie wichtige Entwicklungen nicht verpassen. Es kann sein, dass zwei Jahre nichts passiert, dann kommt ein neues Angebot mit für den Benutzer überzeugenden Argumenten, und innerhalb kürzester Zeit ändern viele Benutzer ihre Präferenzen. Es gibt noch weitere Entwicklungen, die zu beachten sind: 왘 Die Anzahl an echten Suchmaschinen-Indizes ist kleiner als die
Menge von Anbietern des Dienstes für Benutzer. Viele Anbieter von Suchdiensten haben gar keine eigene Maschine, sondern nutzen die eines anderen Unternehmens, des eigentlichen Betreibers. Man nennt solch eine Zusammenarbeit in Anlehnung an ähnliche Verfahren bei Werbeanzeigen »Syndicating«. Wenn man so will, kann jeder Anbieter eines solchen Suchdienstes sein. Suchmaschinen sind daran interessiert, aus möglichst vielen Webbseiten genutzt und dadurch indirekt von ihnen empfohlen zu werden. Deswegen bieten viele die Möglichkeit an, ein kleines Suchformular auf die eigene Website zu platzieren, von dem aus eine Suche bei der Suchmaschine ausgelöst werden kann. Unternehmen wie Yahoo oder MSN machen es grundsätzlich nicht anders, allerdings steht dahinter eine kommerzielle Vereinbarung. In Kapitel 8 finden Sie eine Übersicht über wichtige Suchmaschinen und sehen, wer dabei auf fremde Datenbestände zurückgreift.
71
3 Wissenswertes zu Suchmaschinen
왘 Einige Suchmaschinenbetreiber sind recht erfolgreich damit,
die begehrten vorderen Plätze der Ergebnisseiten zu verkaufen oder sogar zu versteigern, zum Beispiel www.overture.com. Speziell beim Versteigern von vorderen Eintragsplätzen ist die Hoffnung dieser Unternehmen, dass sich Wettbewerber im Bemühen um die beste Platzierung gegenseitig zu immer höheren Platzierungsgebühren steigern können. Dieses Geschäftsmodell – Ranking gegen Geld – kommt nicht bei allen Unternehmen schlecht an: Große Unternehmen müssen oft feststellen, dass sie bei den Ergebnissen weit hinter kleinen Anbietern stehen, die aktiver und einfallsreicher waren, die besser wussten, worauf es ankommt, wenn man nach vorne kommen will, oder die einfach durch einen Zufall dort gelandet sind. Unternehmen, die bereit sind, für Platzierungen zu investieren, werden deshalb käufliches (oder sogar zu ersteigerndes) Ranking begrüßen. Google geht einen interessanten anderen Weg: Im Rahmen der AdWord-Kampagne kann man günstig einen eher schlichten Werbeplatz neben der Ergebnisliste buchen, der Benutzern gezeigt wird, die bestimmte Suchwörter eingegeben haben, maximal zwei Anbieter je Ergebnisseite haben zusätzlich die teurere Möglichkeit, sich oberhalb der Ergebnisliste, aber optisch klar von dieser getrennt, zu platzieren. Wenn man akzeptiert, dass auch ein Anbieter eines Suchdienstes ein funktionierendes Geschäftsmodell braucht, welches ihm das wirtschaftliche Überleben sichert, ist ein solches Vorgehen sicher zulässig. Auf jeden Fall ist die Trennung von Suchergebnis (quasi dem redaktionellen Teil) und Werbung zu begrüßen. Web.de macht es genau umgekehrt: Es gibt keine freie Anmeldung mehr, stattdessen muss man, um in das Verzeichnis aufgenommen zu werden, einen jährlichen Obolus zahlen, der schon für einen schlichten Eintrag bei 24 Euro liegt. In den Statistiken der Web-Beobachter, wie zum Beispiel etracker.de, ist Web.de nicht unter den großen Erzeugern von Verkehr zu den Websites, man sollte sich also überlegen, ob es den Einsatz lohnt. 왘 Viele Suchmaschinen haben Schwierigkeiten, profitabel zu
sein. Ein Beispiel ist Excite.de, das Ende 2001 den Betrieb einstellen musste.
72
Wichtig: Nutzerverhalten einschätzen
Es ist zu erwarten, dass sich die Zahl der Betreiber von Suchmaschinen in Zukunft nicht nennenswert steigern wird, selbst wenn neue Anbieter mit immer raffinierteren Ideen hinzukommen, und dass der kommerzielle Anreiz, Ranking zu verkaufen, weitere Anbieter dazu bringen wird, das Konzept zu übernehmen. Andererseits wird der wirkliche Erfolg einer Suchmaschine eher über die Zahl ihrer Nutzer definiert, und ob eine Suchmaschine, die empfunden wird wie ein Anzeigenblatt, noch genauso häufig aufgerufen wird, ist fraglich. Wenn dann die Nutzer ausbleiben, steht das Geschäftsmodell allgemein in Frage.
3.4
Wichtig: Nutzerverhalten einschätzen
Die meisten Nutzer sind eher träge: Sie entscheiden sich einmal für eine Suchmaschine, und verwenden dann überwiegend diese für einen Zeitraum von vielen Monaten oder Jahren. Manche kennen alle Tricks der Profisuche, wie »und«-, »oder«- oder »nicht«Verknüpfungen, die bei einer anderen Suchmaschine anders funktionieren und erst neu gelernt werden müssen (siehe Kapitel 4). Außerdem sind sie überzeugt, dass der Mix aus Reaktionszeit, sowie Umfang, Relevanz und Aktualität der Ergebnisse für sie richtig ist. Auch Stilfragen sind vielen Benutzern wichtig, wie die klare Trennung von redaktionellem Teil – also den Suchergebnissen und eventuellen weiteren Inhalten, wie Nachrichten – auf der einen Seite und Werbeeinblendungen auf der anderen. Auch Popup-Fenster, die sich ungewollt beim Öffnen der Seite auftun, tragen nicht gerade zur Kundenzufriedenheit bei. Es ist sicher kein Zufall, dass die wirklich erfolgreichen Sites ohne sie auskommen. Möglicherweise hat die für Sie interessante Benutzergruppe hinsichtlich Suchmaschinen ganz spezielle Vorlieben, die Sie kennen sollten? Möglicherweise ändern sich diese gerade jetzt. Vielleicht werden in naher Zukunft neue technische oder kommerzielle Angebote auf den Markt kommen, die von der von Ihnen anvisierten Zielgruppe dankbar angenommen werden? Sie werden nicht umhin kommen, den Suchmaschinenmarkt laufend weiter zu verfolgen. Das Wissen aus diesem Buch mag Ihnen dabei helfen, dies mit einem kritischen Blick für das wirklich Wesentliche und für die Zusammenhänge zu tun.
73
4
Wie Suchmaschinen funktionieren
4.1
Speichern und suchen...
Wenn man sich einmal die Wortlisten vor Augen hält, die von den Suchmaschinen – insbesondere von den Robotern – vorgehalten werden, wird man erkennen, wie umfangreich sie sind. Es handelt sich hierbei um den größten Teil des Wortschatzes vieler Sprachen, einschließlich Komposita (zusammengesetzter Wörter) und Abkürzungen. Hinzu kommen exotische Kombinationen aus Zahlen, Buchstaben und Sonderzeichen, wie sie beispielsweise bei Artikelnummern, Preisangaben, ISBN-Nummern und vielem mehr verwendet werden. Viele Suchmaschinen können wahlweise zwischen Groß-/Kleinschreibung unterscheiden oder dieses unterlassen, prüfen auf mögliche Schreibfehler bei der Eingabe des Suchbegriffs und weiteres. Bei Eingabe mehrerer Wörter können diese als »oder«-, »und«- oder Phrasenverknüpfung behandelt werden oder als Kombination davon. Manche können Seiten auch noch übersetzen, wobei allerdings die dabei erzielten Ergebnisse eher als Beitrag zur Komik im Alltag taugen denn durch Nutzwert auffallen, aber immerhin gibt es diese Möglichkeit. Und das alles geschieht innerhalb weniger Sekunden, meist sogar in Bruchteilen davon. Der Aufwand für Hard- und Software, den die Betreiber leisten müssen, ist enorm. Neben attraktiver Funktionalität und Schnelligkeit spielen zusätzlich Faktoren wie Ausfallsicherheit und Schutz vor böswilligen Angriffen eine Rolle. Man kann zu Recht annehmen, dass die beteiligten Computerexperten, von den Entwicklern über die Systemadministratoren bis hin zum Management, zu den besten in der Branche gehören. Weiter oben haben wir schon gesehen, dass es für Suchmaschinen schwierig sein kann, die Listen jener Adressen abzuarbeiten, die es zu besuchen gilt. Tatsächlich geht das Problem noch tiefer, und
75
4 Wie Suchmaschinen funktionieren
zwar für beide Typen von Suchmaschinen mit eigenem Index, Roboter und Verzeichnisse. Diese URL-Listen werden nämlich aus mehreren Quellen gespeist: 왘 Hyperlinks, die in besuchten Seiten gefunden worden sind; 왘 URLs von Seiten, die bereits besucht worden sind und nun
erneut zur Überprüfung anstehen; 왘 URLs, die von Anbietern von Inhalten neu mitgeteilt worden
sind. Wenn man in diesem Zusammenhang noch bedenkt, wie schnell das World Wide Web wächst und wie groß die Anzahl der laufend neu eingestellten Inhalte ist, dann überrascht es nicht, dass viele Suchmaschinen den Eindruck machen, davon überfordert zu werden: 왘 Neu angemeldete URLs werden oft erst Wochen später besucht
und in die Datenbank aufgenommen – oder gar nicht. 왘 Der Wiederbesuchsrhythmus liegt (trotz Meta-Tag »revisit
after«, darauf kommen wir noch zu sprechen) im Bereich von Monaten.1 왘 Entgegen den Versprechen der Suchmaschinenbetreiber, dass
ein URL ausreiche, und dass die weiteren Inhalte der Website von dort aus über die Navigier-Hyperlinks sofort gefunden werden, werden in Wirklichkeit nur einzelne Seiten sofort besucht und erfasst, die restlichen Inhalte kommen erst nach weiteren Wochen. 왘 Seiten, die zu früheren Zeiten schon im Index gewesen sind,
scheinen zu einem Zeitpunkt aus ihm entfernt worden zu sein, und können zu späteren Zeiten wieder in den Ergebnissen gefunden werden.
1
76
Beobachter von Google sind sich einig, dass der Besuchsrhythmus bei 1 bis 3 Monaten liegt, und dass es meist 2 bis 3 Besuchszyklen bedarf, bis eine Website halbwegs vollständig erfasst ist. Google selbst spricht übrigens von 28 Tagen Aktualisierungszyklus.
Wie Suchmaschinen eine Web-seite sehen
Besonders bei neu angemeldeten URLs ist es also wichtig, die Suchmaschinen genau zu beobachten und die Mittel immer wieder gezielt einzusetzen, mit denen sie sich steuern lassen (siehe Kapitel 8). Dabei sollten Sie grundsätzlich davon ausgehen, dass Ihre wichtigsten direkten Wettbewerber im Moment genau dasselbe tun. Besser, Sie gehen von dieser Annahme aus und stellen fest, dass Sie sich dabei getäuscht haben, als anders herum. Andererseits: Je mehr Personen die Mittel einsetzen, mit denen sich die Suchmaschinen beeinflussen lassen, um so mehr wachsen die Listen der auszuwertenden URLs an. Übertriebenes Anmelden wird als Spamdexing bezeichnet, von vielen Anbietern gleichzeitig angewandt würde es schnell zur Überlastung der Systeme führen. Es gilt also, ein für Sie und die Allgemeinheit vernünftiges Maß zu finden, wobei auch zu bedenken ist, dass sich die Suchmaschinen gegen dieses und andere Verfahren, sie zu überlisten, wehren können.
4.2
Wie Suchmaschinen eine Webseite sehen
Für Suchmaschinen sieht eine Seite im WWW anders aus als für den Nutzer, der sie sich in seinem Browser ansieht. Suchmaschinen sehen nur den für sie relevanten Teil des Codes, also zum Beispiel die Meta-Tags, den auf der Seite vorkommenden Text oder Alt-Texte von Bildern. Sie erkennen dagegen keine layouttechnischen Anordnungen wie Tabellenzellen, die sie nur als HTML-Tags wahrnehmen und mangels für sie interessanter Information ignorieren, oder Frames, in mehrere Bereiche unterteilte Browserfenster, die die meisten Suchmaschinen ebenfalls ignorieren. Außerdem sehen sie im Regelfall nicht, was in eingebundenen Flash-Animationen oder Java-Applets steht (siehe Kapitel 1). Auch Textelemente, die als Bilddatei eingebunden worden sind, sind natürlich für Suchmaschinen nicht erfassbar, zumindest für die uns hier interessierenden Text-Suchmaschinen. Nehmen wir unseren Beispiel-Code aus Kapitel 1.
77
4 Wie Suchmaschinen funktionieren
Im Browser dargestellt, sieht er folgendermaßen aus: Abbildung 4.1: HTML-Seite im Browser
Als Nutzer achtet man für gewöhnlich nach dem Prinzip »von links oben nach rechts unten« zuerst auf die Überschriften, dann auf die Navigation links. Danach nimmt man den Text wahr und zuletzt das Bild. Zuallerletzt wird bei Interesse der Text ganz durchgelesen. Eine Suchmaschine geht anders heran: Sie sieht nur den Quellcode und nimmt innerhalb diesem nichts wahr, was das Layout betrifft. Daraus ergibt sich folgendes Bild: <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> <meta name="author" content="Beispielautor"> <meta name="description" content="Beispielbeschreibung"> <meta name="keywords" content="Beispiel-Keywords"> Hier steht der Titel ...
78
Wie Suchmaschinen eine Web-seite sehen
Überschrift ... Link 1 ... Link 2 ... Link 3 ... Link nach draußen ... Unterüberschrift Hier steht der Text der Seite. Hier steht der Text der Seite. Hier steht der Text der Seite. Hier steht der Text der Seite. Hier steht der Text der Seite. Hier steht der Text der Seite. Hier steht der Text der Seite. ... ...
Das würde im Browser dann so aussehen: Abbildung 4.2: Darstellung im Web-Browser ohne Tabellen
79
4 Wie Suchmaschinen funktionieren
Wie in Kapitel 8 ausführlicher behandelt, messen manche Suchmaschinen den Überschriften besondere Bedeutung zu. Außerdem registrieren sie, welche Seiten durch Hyperlinks verknüpft sind, wobei Web-interne wie externe, also auf andere Websites verweisende Hyperlinks wichtig sind. Nicht zuletzt wird natürlich der Textinhalt dieser Seite aufgenommen. Hierbei gilt: Was weiter vorne steht, erhält sehr wahrscheinlich auch die höhere Bewertung. Außerdem beachten einige Suchmaschinen auch den Text, der bei Bildern angezeigt wird, wenn der Benutzer die Maus darauf legt. In HTML handelt es sich hierbei um das alt-Attribut zum -Tag. Eine Übersicht über das Verhalten von Suchmaschinen finden Sie ebenfalls in Kapitel 8.
4.3
Platzierung in der Ergebnisseite
Suchmaschinen führen Wortlisten, in denen Verweise zu den ihnen bekannten Webseiten stehen. Man nennt eine solche Wortliste »Index«. Die Verweise werden automatisch erzeugt, wenn die Suchmaschine eine Seite abarbeitet. Man könnte also sagen, die Suchmaschinen »lesen« Webseiten und werten die darin gefundenen Wörter aus. Wenn der Suchende dann seine Suchbegriffe in das Web-Formular der Suchmaschine eingibt und dieses absendet, schaut die Suchmaschine nach, welche Verweise sie zu den entsprechenden Wörtern in ihrem Index findet und erzeugt daraus die Ergebnisseite. Die zentralen Fragen dieses Buches sind ja, wie man sicherstellt, dass die eigenen Seiten in diesen Ergebnislisten zu finden sind, und zwar an möglichst hoher Position. In diesem Zusammenhang sind zwei Konzepte für die Bestimmung der Platzierung wichtig: 왘 Relevanz: Die Übereinstimmung des Seiteninhalts mit dem
gesuchten Begriff oder der Begriffskombination 왘 Ranking: Die Bewertung einer Seite aufgrund festgelegter
Maßstäbe, z.B. Link-Popularität
80
Platzierung in der Ergebnisseite
Leider gibt es für die Funktionalität der Suchmaschinen keinen allgemeingültigen Standard. Jeder Betreiber hat seine eigene Vorstellung davon, wie eine leistungsfähige Suchmaschine zu funktionieren hat und welche Möglichkeiten dem Benutzer zur Verfügung stehen, auf die Ergebnisausgabe Einfluss zu nehmen. Das gilt zum einen für den Benutzer. Wer mehrere Wörter für die Suche verwendet, sollte sich in der benutzten Suchmaschine schlau machen, wie diese miteinander zu verbinden sind. Bei einigen gelten Regeln wie die folgenden: Bedingung Beschreibung
Beispiel
Oder
Bei Angabe mehrerer Wörter muss davon mindestens eins in der Seite vorkommen
Weiße Katze
Und
Ein Wort mit einem vorangestellten +-Zeichen muss im Suchergebnis vorkommen
+Weiße + Katze
Nicht
Ein Wort mit einem vorangestellten –-Zeichen darf im Suchergebnis nicht vorkommen
-Weiße + Katze
String (Phrase)
In "" eingebetteter Text muss genau so im Suchergebnis stehen
»Weiße Katze«
Ähnlich
Ein Sternchen vor oder hinter einem Wort steht als Platzhalter für beliebige andere Zeichen
*atze*
Während Google zwei Suchwörter automatisch mit einer »und«Verbindung verknüpft, verwendet Altavista die »oder«-Verknüpfung. Die sehr unterschiedlichen Vorstellungen der Entwickler zeigen sich auch beim Einfluss, den der Anbieter von Inhalten auf die Ausgabe in den Ergebnisseiten hat. Die Informationen, die die verschiedenen Suchmaschinen den Benutzern ausgeben, sind sehr unterschiedlich. Auch das Ranking, also die Festlegung, in welcher Reihenfolge die Ergebnisse ausgegeben werden, erfolgt nach höchst unterschiedlichen Konzepten und Kriterien.
81
4 Wie Suchmaschinen funktionieren
Glücklicherweise gibt es aber einige Standardregeln, mit denen wir bei den meisten (wichtigsten?) Maschinen erfolgreich sein können. Diese werden unten beschrieben. Man darf sich auch nicht darauf verlassen, dass eine einmal erzielte Position in einer Ergebnisliste auf Dauer garantiert ist. Es hat sich im Gegenteil gezeigt, dass man den Vorgang des »Submitting«, der Anmeldung des eigenen URL, regelmäßig wiederholen sollte, da man ansonsten in Gefahr gerät, langsam wieder abzurutschen und von anderen Seiten verdrängt zu werden. Man muss auch damit rechnen, dass Ranking-Regeln von den Betreibern gelegentlich verändert werden, was insbesondere bei den großen Suchmaschinen zu beobachten ist. Mehr zu Ranking und Relevanz und zur Platzierung lesen Sie in Kapitel 8 – »Suchmaschinen steuern«.
4.4
Geschäftsmodelle der Suchmaschinenbetreiber
Noch ein Problem kommt auf Sie zu: Wie die einzelnen Suchmaschinen ihr jeweiliges Ranking genau betreiben, werden Sie selten sicher wissen. Zum Teil gibt es – meist eher vage – Aussagen der Betreiber selbst, dann gibt es Beobachtungen, die von Experten angestellt und diskutiert werden, und natürlich Erfahrungen von Anbietern von Inhalten, die gute Ergebnisse erzielt haben. Trotz allem, eine Unsicherheit bleibt. Auch einige der hier gemachten Einzelaussagen sind als Annahmen zu verstehen und mit entsprechender Vorsicht zu betrachten. Wenn Sie den Empfehlungen in diesem Buch folgen, werden Sie aber mit Sicherheit innerhalb weniger Wochen erleben, wie Ihre Inhalte in den meisten Ergebnislisten der Suchmaschinen unter den Top-Plätzen rangieren. Die Schnelligkeit, mit der Roboter neue Seiten aufnehmen bzw. vorhandene aktualisieren, schwankt stark. Beobachtungen zeigen, dass beispielsweise die Crawler von AOL sehr häufig indizierte Seiten wieder aufsuchen, um nach Änderungen Ausschau zu halten. Google dagegen besucht eine Website nur alle paar Wochen – vielleicht ist das der Preis der sehr großen Indexgröße, dass die Roboter in der Aktualisierungsleistung nicht mehr mithalten. Altavista scheint eher dazwischen zu stehen.
82
Geschäftsmodelle der Suchmaschinenbetreiber
Bei Verzeichnisdiensten hängt die Aktualität von den Personen ab, die die Datenbestände pflegen. Auch hier scheinen die mittlerweile recht großen Datenbanken dazu zu führen, dass die Aktualisierung hinterherhinkt. Wenn viele Suchmaschinenanbieter heute Portale mit Nachrichten darstellen (zum Beispiel Freenet.de oder AOL), so mag das auch als Ausgleich für die Trägheit der Suchmaschinen dienen: Schon aus technischen Gründen sind die Informationen, mit denen sie uns bedienen, oft nicht aktuell oder schon tatsächlich veraltet, beispielsweise durch ins Leere führende Hyperlinks. Zum Ausgleich erhalten wir dann eben das Neueste aus der realen Welt... Ein weiterer Tatbestand, der zu berücksichtigen ist, sind die Bemühungen der Suchmaschinen, sich vor Manipulation zu schützen. In den frühen Zeiten waren die Platzierungsregeln recht einfach, je häufiger beispielsweise ein Wort im Seitentitel, Überschriften, Meta-Tags (wir kommen noch darauf) und am Anfang des Textes stand, umso relevanter wurde er betrachtet, wenn ein Benutzer gerade dieses Wort in die Suchmaschine eingab. Das Ergebnis waren Anbieter von Seiten, die sich gegenseitig mit der Häufigkeit des Wortes »Sex« im Titel überboten. Dazu könnten noch mehr Beispiele genannt werden, aber in unserem Kontext können wir uns das wohl ersparen. Mittlerweile haben Suchmaschinen Funktionen, solche Manipulationsversuche zu erkennen, entsprechende Seiten würden in die Datenbank gar nicht mehr aufgenommen werden. So sehr eine solche »Netiquette« auch zu begrüßen ist, die jeweils verwendeten Ausschlussregeln werden nicht publiziert, und es kann einem ahnungslosen Anbieter von Inhalten dadurch passieren, dass er versehentlich eine solche Regel verletzt. Die Seite wird dann möglicherweise nicht nur nicht in die Datenbank aufgenommen, manche Suchmaschinen führen regelrechte Sperrlisten: die Seite, die einmal darin aufgenommen worden ist, wird auch so schnell nicht wieder besucht. Es ist sogar damit zu rechnen, dass eine nicht akzeptierte Seite zum Ausschluss der ganzen Website führen kann (siehe auch Kapitel 8). Also Vorsicht!
83
4 Wie Suchmaschinen funktionieren
Zur Zeit erweitern viele Suchmaschinen-Anbieter ihr Angebot, was das Anmelden von URLs betrifft. So bieten zum Beispiel AltaVista und Yahoo die Möglichkeit, dass anhand eines kostenpflichtigen »Express Service« angemeldete Seiten laut Aussagen der Betreiber schneller in den Index aufgenommen und häufiger vom Roboter besucht und somit aktualisiert werden. Genaueres darüber lesen Sie in Kapitel 7. Übrigens wird derzeit eine rechtliche Problematik diskutiert, die damit zusammenhängt, dass Suchmaschinen natürlich täglich jede Menge URLs indizieren, die – sozusagen an der Eingangsseite vorbei – direkt auf die für das Suchergebnis relevanten Unterseiten eines Web-Auftritts führen. Das Problem nennt sich Deep Linking. Dieser Begriff wird nicht nur im Zusammenhang mit Suchmaschinen gebraucht, sondern generell immer dann, wenn eine direkte Verlinkung von untergeordneten Seiten eines fremden Angebots stattfindet. Manche Firmen haben bereits begonnen, das Deep Linking ihrer Seiten zumindest theoretisch zu verbieten, weil sie das als eine Urheberrechtsverletzung ansehen, und haben ihren Disclaimer – ihr Dokument zu Nutzungsrechten der Webinhalte und zur Freistellung von Verantwortlichkeit bei Missbrauch oder technischen Fehlern – entsprechend verfasst. Problematisch wird Deep Linking aus Sicht vieler Firmen vor allem dann, wenn sie durch diese Praxis finanzielle oder rechtliche Interessen in Gefahr sehen. Dem Benutzer entgeht eventuell Werbung, die auf der Startseite geschaltet ist, was zur Folge hat, dass dem Anbieter der Seite die entsprechenden Einnahmen fehlen. Auch werden Seiten mit Angaben zu Copyright, Markenrechten etc. umgangen, was für den Anbieter bei einer späteren juristischen Auseinandersetzung zu Nachteilen führen könnte. Wenn nun doch jemand auf Seiten einer solchen Firma anhand von Deep Links verweist, kann sich diese Person tatsächlich strafbar machen? Die Rechtsprechung ist zum Zeitpunkt der Drucklegung dieses Buches noch nicht einheitlich, neigt aber offenbar eher der Sichtweise der Gegner von Deep Linking zu. Suchmaschinen leben jedoch vom Deep Linking, es ist ihr zentrales Funktionsmerkmal, und alle miteinander führen dies in jeder Sekunde viele tausend Mal durch. Ein Roboter kann auch nicht jedes Mal den Disclaimer eines Web-Auftritts lesen und dann erst entscheiden, ob die Seiten aufgenommen werden sollen. Selbst ein von Menschen redigierter Verzeichnisdienst steht vor dem glei-
84
Geschäftsmodelle der Suchmaschinenbetreiber
chen Problem: Den Redakteuren ist nicht zuzumuten, ellenlange Texte mit Vorschriften zur Nutzung der Website durchzulesen. Wenn sich die Sichtweise durchsetzen sollte, dass Deep Linking geistige Eigentumsrechte verletze, werden die Suchmaschinenbetreiber ein juristisches Problem bekommen, bei dem unsicher ist, ob es sich durch technische Maßnahmen lösen lässt. Etwas mehr Augenmaß bei den betroffenen Parteien scheint dringend notwendig. Ebenfalls problematisch ist die Tatsache, dass manche Suchmaschinen, wie zum Beispiel Google, Seiten duplizieren und in den suchmaschineneigenen Cache aufnehmen. Auch das könnte man im engen Sinne als eine Art Copyrightverletzung interpretieren. Somit befinden sich Suchmaschinen in einer Art rechtlicher Grauzone, und im Umfeld dieser Technologie bedarf wohl noch einiges einer endgültigen Klärung.
85
5
Elemente eines professionellen und suchmaschinengerechten Web-Auftritts
Auch wenn Elemente eines professionellen Web-Auftritts nicht der eigentliche Inhalt dieses Buchs sind – wir kommen um das Thema nicht herum, da es ja kein wünschenswertes Ziel sein kann, eine für Suchmaschinen optimierte Website zu entwickeln, die zwar jeder findet, mit der aber niemand mehr etwas anfängt. Außerdem ist zu bedenken: Sobald Sie eine Website erfolgreich bei Suchmaschinen angemeldet haben, verringert sich ihre Freiheit drastisch, diese zu überarbeiten und zu verändern. In den Suchmaschinenindices finden sich dann nämlich in großer Zahl Verweise auf Seiten, die sie nicht mehr umbenennen geschweige denn löschen sollten, da sonst der Besucher den Fehler »http Error 404 – File not found« beziehungsweise »Datei nicht gefunden« erhält, und den wollen wir ihm sicher ersparen. Wenn man sich früher über verschiedene Versionen an den optimalen Webauftritt hingearbeitet hat, so ist heute allgemein sehr viel mehr Planung notwendig. Wenn die Website dann überarbeitet oder komplett erneuert wird, wird man sich überlegen müssen, wie das gelingt, ohne die erzielten Platzierungen zu gefährden.
5.1
Der Domänenname
Viele Suchmaschinen reagieren auf Übereinstimmungen zwischen Suchbegriffen der Benutzer und den Wörtern, die in der Adressee der Seite zu finden sind. Daraus ergeben sich zwei Strategien, die man verfolgen kann: 왘 Belegen von Domänennamen mit Begriffen, die aussagekräftig
und als Suchbegriffe zu erwarten sind.
87
5 Elemente eines professionellen und suchmaschinengerechten Web-Auftritts
Dieses Verfahren hat eine sehr hohe Wirkung, ist aber auch nicht gerade billig. Zu prüfen ist auch, welche Domänennamen überhaupt noch frei sind und wie letztlich der Effekt der oft seltsamen Domänennamen beim Benutzer ist. Bei den meisten Suchmaschinen gibt es auch eine Rangfolge der Toplevel-Domänen, also der Endungen: Rang
ToplevelDomänen
1
gov, edu, org
2
com
3
net; de, uk und weitere Länderdomänen
Bemerkung Da die meisten deutschen Suchmaschinen auf amerikanische Datenbestände zurückgreifen, steht auch hier gov ganz oben Rangfolge der Länderdomänen nach ihrer Größe oder Bedeutung. »de« steht weit vorne, da dies nach com die zweitgrößte Toplevel-Domäne ist.
왘 Erzeugung von »sprechenden« Namen von Unterverzeichnis-
sen und Dateien, die mit Suchbegriffen und insbesondere mit Wort-Kombinationen zusammenpassen. Auch dies ist recht wirkungsvoll und zudem kostenlos. 왘 Keine zu »tiefen« und verschachtelten Verzeichnisstrukturen
erzeugen. Die meisten Suchmaschinen gehen nicht weiter als bis zur fünften oder sechsten Verzeichnisebene, wenn sie eine Website erfassen, manche hören bereits nach der zweiten auf.
5.2
Dateistruktur und Benutzerführung
Wenn man sich den Internetauftritt vieler erfolgreicher Unternehmen anschaut, wird man manchmal feststellen können, dass sie in diesem Medium einiges vergessen haben, was sie sonst an Kundenfreundlichkeit und verkäuferischer Professionalität leisten. Wer seine Support-Kosten senken will, indem er dem Kunden technische Dokumente und Treiber zum Download anbietet, sollte den Kunden auf möglichst kurzem Weg zur Datei führen. Sonst
88
Dateistruktur und Benutzerführung
muss er eben damit rechnen, dass ihm der Kunde bald doch telefonisch Kosten verursachen wird, weil er das Gesuchte nicht aus eigener Kraft gefunden hat. Dass er dabei kein zufriedener Kunde sein wird, versteht sich ebenfalls. Schon der Versuch, das Internet zu nutzen, um eine Telefonnummer oder E-Mail-Adresse schnell zu ermitteln, scheitert bei manchen Web-Auftritten. Schlimmstenfalls kann man bei einem Unternehmen sogar zu dem Eindruck gelangen, es möchte lieber in Ruhe gelassen werden. Der Betreiber einer Website sollte sich klarmachen, dass jeder Aufruf einer Datei seine wertvollen Server-Ressourcen nutzt und somit für andere blockiert: Bandbreite, Prozessor und Speicher kosten zwar nicht mehr viel, aber wir wollen doch viele Benutzer gleichzeitig bedienen und wünschen uns dafür schnelle Response-Zeiten. Benutzer, die eine Website verzweifelt nach Inhalten durchsuchen, machen den Server langsamer für diesen und andere Besucher, insbesondere, wenn die Inhalte für jeden Benutzer dynamisch neu erzeugt werden müssen. Wer Suchmaschinen intensiv nutzt, muss noch etwas anderes bedenken: Jede Seite kann zur Einstiegsseite in den Webauftritt werden. Die Benutzerführung muss auch dann stimmen, wenn die erste besuchte Seite nicht die »index.htm« oder »default.htm« ist, also die Seite, die gerne als Homepage bezeichnet wird, und von der aus man die Benutzer normalerweise zu den interessierenden Seiten führt. Die folgenden Grafiken zeigen ein einfaches Web aus acht Seiten, die durch Hyperlinks verknüpft sind. Links findet ein Benutzer dieses Web durch Eingabe des URL, der auf die Startseite verweist. Von da aus kann eine Benutzerführung eingerichtet werden, die ihn letztlich zu den gewünschten Inhalten bringt. Im rechten Beispiel dagegen finden Benutzer das Web über Suchmaschinen. Diese haben alle Seiten in ihren Index aufgenommen, so dass jede Seite nun der Einstiegspunkt für einen Besucher sein kann.
89
5 Elemente eines professionellen und suchmaschinengerechten Web-Auftritts
Abbildung 5.1: Einstiegspunkte über URLEingabe des Benutzers (links) und über Suchmaschine (rechts)
5.3
Die Webseiten
Im Mittelpunkt jedes Web-Auftritts stehen die Seiten – in HTML geschriebene Dateien, eventuell erweitert durch Grafiken und andere Multimediaelemente und durch Codeelemente, die für Interaktivität sorgen.
5.3.1
Zielsetzung
Bei manchen Web-Auftritten von Firmen kann man sich fragen, ob sie ihren Zweck eigentlich ganz erfüllen. Ein bisschen belanglosen Text darüber, wie gut man ist, Fotos vom Chef und seinem Hund, die wichtigsten Produkte, der nächste Messeauftritt, vielleicht eine Seite mit Pressemeldungen zur Selbstbedienung für Reporter. Oft findet man keine Telefonnummer der Firma oder einen Hyperlink, anhand dessen man ihr eine Mail schicken kann. Dafür gibt es manchmal Kontaktformulare, in denen Felder mit roten Sternchen geschmückt sind, die an anderer Stelle als Markierungen für »Pflichtfelder« beschrieben werden. Schon das Wort lässt die meisten Nutzer erschaudern oder wenigstens zögern. Normalerweise wird das Internet doch als ein Ort der Freiwilligkeit betrachtet. Nicht gerade selten sind auch Hyperlinks, die versprechen, auf Seiten zu führen, in denen man etwas zu offenen Stellen, neuen Produkten oder zu aktuellen Preisen erfahren soll. Man klickt sie an und erhält auf der nächsten Seite vielleicht nur eine Telefonnummer, die man anrufen soll, um sich zu informieren.
90
Die Webseiten
Ebenso unbeliebt bei Internet-Nutzern ist die »Verwechslung« von interaktiv mit hyperaktiv. Es flimmert und flackert, animierte Gifs und misslungene Flash-Animationen werden vielleicht noch übertitelt von einem Marquee, einer Laufschrift, für die MicrosoftBrowser leider nur einen einfachen HTML-Tag brauchen. Schlimmstenfalls fühlt ein Kunde sich so eher auf dem Times Square als in seinem Wohn- oder Arbeitsbereich. Auch manche Seiten mit Informationen für Aktionäre fallen unangenehm auf, weil sie nicht professionell genug gestaltet sind: Die Inhalte sind längst veraltet, einseitig, Kaufempfehlungen von Profis werden zitiert, nicht aber, dass die vielleicht inzwischen wieder zurückgezogen wurden. Bei manchen der im neuen Markt abgestürzten Unternehmen kann man sich fragen, ob es nicht doch auch ein bisschen an der unprofessionellen Website gelegen haben könnte. Der Internet-Auftritt sollte als eine öffentliche Aktivität verstanden werden. Jeder Mensch auf dieser Welt, der technisch über einen Zugang zum Internet und über einen Webbrowser zur Darstellung der Inhalte verfügt, kann sehen, wie sich der Anbieter damit präsentiert. Eine Website ist für das öffentliche Image eines Unternehmens somit ähnlich wichtig wie das Firmengebäude oder das persönliche Auftreten von Geschäftsführern und Mitarbeitern. Die Website ist die elektronische Visitenkarte des Unternehmens. Bevor die erste Zeile HTML geschrieben wird, sollte also ein strategisches Konzept erstellt werden, was mit der Website erreicht werden soll. Nicht jeder Kunde ist über das Internet erreichbar und nicht alles lässt sich per World Wide Web verkaufen. Geschäftsziele für die Website sollten realistisch erreichbar sein. Zuerst muss also definiert werden, wer die Zielgruppe ist, und was für diese überhaupt in Frage kommt. Wer Produkte oder Dienste verkauft, die nach einer solchen Analyse als über das Internet erfolgreich handelbar erscheinen, sollte dies probieren. Es gibt aber auch eine Vielzahl anderer Zwecke, für die der Internet-Einsatz sinnvoll sein kann: 왘 Bereitstellung von Kundensupport per Selbstbedienung mit
Entlastung des eigenen Personals (zum Beispiel Vorhalten von Datenblättern oder Treibersoftware, vielleicht auch Handbücher und Hilfen bei Problemen) 91
5 Elemente eines professionellen und suchmaschinengerechten Web-Auftritts
왘 Verbreitung tagesaktueller Information (zum Beispiel zur Ver-
fügbarkeit von Personen und Betriebsmitteln, Tagespreise und -kurse) 왘 Einstellung von Zeichnungen, Bildern, Exposés und anderen
Beschreibungen zu erklärungsbedürftigen Produkten, wie Immobilien, Maschinen- und Anlagentechnik, die vom Außendienst, aber auch von Kunden selbst genutzt werden können 왘 Sammlung von Adressen, Telefonnummern und E-Mail-
Adressen (letztere mit Checkbox, dass der Kunde den Versand von Werbenachrichten über dieses Medium akzeptiert – Spam1 gilt zu Recht als unlauterer Wettbewerb) 왘 Nennung von Referenzen (schaffen Vertrauen – und fängt
nicht alles Verkaufen mit Vertrauen an?) 왘 Veröffentlichung von ethikbezogenen Inhalten des Unterneh-
mens. Noch nicht viele Unternehmen haben einen Code of Conduct, also einen für Unternehmensleitung und Mitarbeiter verbindlichen Verhaltenskodex. Wo es diesen aber gibt, gehört er in die Website. 왘 Verteilung von Software, aber auch von Beta- und Demover-
sionen für Test und Evaluation. In Gesprächen zu diesem Thema hört man oft die Angst der Unternehmen davor heraus, dem Wettbewerber zu viel Information zu geben. Man muss diesen Einwand sicher ernst nehmen, andererseits: 왘 Teilen Sie Ihrem Kunden etwas mit, und der Wettbewerb wird
es erfahren. Falls der Wettbewerber professionell aufgestellt ist – und davon sollte man immer ausgehen – wird sein Außendienst den Kunden als Informationsquelle nutzen. In einem solchen Unternehmen werden Information zum Wettbewerb, also zu Ihrem Unternehmen, ohnehin sofort in die Zentrale geleitet und dort weiterverarbeitet. 왘 Die interessantesten Informationen zur Strategie eines Unter-
nehmens erhält man ohnehin meist über die von ihm publizierten Stellenangebote. Wer bereit ist, für eine neue Entwicklung in Mitarbeiter zu investieren, dem muss dies 1
92
Spam: unverlangt versandte Massenwerbung per E-Mail. Die meisten Benutzer empfinden dies übrigens als Plage.
Die Webseiten
etwas bedeuten, und die Anforderungen an den Mitarbeiter erzählen etwas darüber, was das Unternehmen plant. Selbst eine zwischengeschaltete Personalagentur lässt oft immer noch erkennen, wer der Auftraggeber ist, und was er vorhat. Die obigen Beispiele für Internet-Strategien sind natürlich nicht vollständig. Sie sollten unbedingt mit einer allgemeinen Unternehmens- und Produktstrategie integriert werden. Es mag insbesondere sinnvoll sein, einen übergeordneten Marketing-Plan zu entwickeln, der die unterschiedlichen Marketing-Aktivitäten als eine Gesamtanstrengung beschreibt und jedem Element im darin vorgesehenen Marketing-Mix seine Rolle und Aufgabe zuweist. In einem solchen System müssen die Aktivitäten im Internet mit den anderen Marketing-Maßnahmen koordiniert sein, so dass sie sich gegenseitig unterstützen und verstärken. Was spricht in einem Marketing-Mix für die Verwendung des Internet und hier speziell des World Wide Web? Zuerst einmal die Kosten. Für ein derart dynamisches und interaktives Medium eigentlich lächerlich niedrig. Obwohl dies nicht täuschen darf: Der Preis für einen komplexen und Datenbankgetriebenen Auftritt mit integriertem Buchungs- oder Bestellsystem kann schnell siebenstellig werden. Im allgemeinen ist der Preis je Kontakt dennoch deutlich niedriger als bei anderen Maßnahmen, wie Direct Mail, Telefonmarketing oder gar dem Kundenbesuch. Ein weiterer Vorteil ist die Funktionalität. Daten lassen sich in kaum einem anderen Medium derart einfach aktuell halten. Wir können zudem in begrenzte Kommunikation mit einem Kunden eintreten, ohne dafür einen Mitarbeiter abstellen zu müssen. Die Daten, die wir sammeln, können direkt in anderen Medien weiterverwendet werden. Dazu gehören zuerst einmal unsere Logfiles, die vom Server erzeugten Protokolle, mit denen wir das Surf-Verhalten unserer Besucher auswerten können. Außerdem werden wir versuchen, vom Kunden weitere Informationen per Web-Formular zu sammeln, wie Name, vielleicht Adresse, mit Sicherheit aber die E-Mail-Adresse.
93
5 Elemente eines professionellen und suchmaschinengerechten Web-Auftritts
Kostensenkend kann sich auswirken, dass wir dem Kunden Informationen zum Selbstausdrucken anbieten können. Während dieser den Vorteil hat, nicht auf Post warten zu müssen, spart der Anbieter Druck und Versand. Dem Besucher zur Verfügung gestellte Informationen müssen nicht einmal selbst erstellt sein. Externe Hyperlinks auf fremde Inhalte können das eigene Angebot unterstützen und die Glaubwürdigkeit erhöhen – allerdings muss laufend das Dokument beobachtet werden, auf das verwiesen wurde, um sicherzustellen, dass am Zielort noch der erwartete Inhalt zu finden ist. Außerdem sollten diese Inhalte in einem anderen Fenster geöffnet werden – wenn dieses geschlossen wird, ist der Besucher wieder zurück im eigenen Angebot.2 Die Kunden, mit denen wir im Marktplatz Internet zu tun haben, sind für viele Unternehmen eine interessante Zielgruppe. Sie sind eher überdurchschnittlich gebildet, zahlungskräftig und oft erstaunlich bereit, Neues auszuprobieren. Andererseits finden wir hier alle Schichten sowie Alters- und Interessensgruppen vertreten. Es gibt sicher nicht mehr viele professionelle Einkaufsabteilungen, die das Internet nicht für Recherchen nach neuen Lieferanten nutzen. Auch Körperbehinderte erreichen uns leichter. Nicht zu unterschätzen ist auch der »Spaßfaktor«, den viele Benutzer mit dem Internet verbinden. Die potentiellen Kunden im Internet sind global. Noch nie war es so billig, das Interesse zu testen, das das eigene Angebot im Ausland wecken kann. Das World Wide Web ist ein Pull-Dienst. Der Benutzer muss Inhalte abrufen, es gibt (fast) keine Möglichkeit, ihm die Inhalte unverlangt zuzusenden.3 Das hat sein Gutes: Der Benutzer hat den ersten Schritt gemacht, indem er einen Hyperlink angeklickt oder einen URL eingetippt hat. 2
3
94
Dies ist nicht mit Pop-Up-Fenstern zu verwechseln, die oft als Teil von Werbeauftritten verwendet werden, und die von den meisten InternetNutzern grundsätzlich abgelehnt werden, weil es sie eher nervt als anspricht. Beispiele für das Gegenteil – Push-Dienste – wären Telefax und E-Mail. Die sich daraus ergebenden Nachteile in Form von Spam – unverlangt versandter Werbung – sind bekannt. Auch die oben genannten Pop-UpFenster lassen sich als Push-Kommunikation verstehen, allerdings meist als unerwünschte.
Die Webseiten
Dem stehen Einschränkungen gegenüber: Das World Wide Web hat etwas Belangloses und Unverbindliches an sich. Viele Besucher geraten versehentlich auf eine Seite oder sie stellen nach kurzer Zeit fest, dass sie eigentlich am Angebotenen gar nicht interessiert sind. Vielleicht haben sie selten gestellte Fragen, die in einer FAQ4-Seite keine Antwort finden. Oder sie sind einfach nur neugierig und wollen ohne Kaufbereitschaft ein bisschen stöbern. Negativ mag auch die Wettbewerbssituation sein. Schneller den »billigsten« Anbieter zu finden, ist nirgends so einfach wie im Internet. Argumente, die einen höheren Preis rechtfertigen würden (besserer Service, kürzere Lieferzeit), sind oft schwer zu übermitteln. Im Laden akzeptiert ein Kunden einen höheren Preis vielleicht mit der Überlegung »bestimmt würde ich den Artikel woanders billiger finden, aber das kostet Zeit, und jetzt bin ich schon mal da...« Im World Wide Web ist der billigere Anbieter nur wenige Mausklicks entfernt. Noch jemand ist nicht weit weg: Die Instanzen, die Angebote kritisch prüfen. Fachzeitschriften bieten Testergebnisse zum Download an, und in Diskussionsgruppen tauschen Benutzer ihre Erfahrungen aus. Dies kann den Verkaufserfolg fördern, aber auch bremsen. Eine weitere Hemmschwelle mögen Befürchtungen sein, die Herausgabe personenbezogener Daten könnte zu Problemen führen. Dieses Misstrauen bezieht sich nicht nur auf die oft genannte Kreditkartennummer, selbst die Herausgabe der eigenen MailAdresse kann dazu führen, dass man bald übermäßig mit Werbung bombardiert wird. Einen erheblichen Anteil an der Erzeugung von Misstrauen haben außerdem Organisationen, die sich dem Schutz von Urheberrechten und dem Kampf gegen »Software-Piraterie« (zumindest nach ihrer Interpretation) verschrieben haben. Software-Lizenzierung ist ein juristisch hochkomplexes Feld, und kaum ein Benutzer kann sich wirklich sicher sein, dass seine Festplatte hundertprozentig legal eingerichtet ist. Die Angst, über das World Wide Web könnten Unternehmen prüfen, ob Software lizenzwidrig installiert wurde, mag einem Fachmann übertrieben erscheinen, für den Normalbenutzer ist sie ein Quell der Verunsicherung. 4
FAQ: Frequently asked questions, häufig gestellte Fragen – welche das sind, darüber entscheidet der Anbieter der Inhalte.
95
5 Elemente eines professionellen und suchmaschinengerechten Web-Auftritts
Man kann die Verkaufssituation im Internet mit der in einem Einkaufszentrum oder einer Einkaufsstraße in einer Fußgängerzone vergleichen. Viele Passanten wollen nur bummeln, Schaufenster besichtigen, sich inspirieren lassen, Preise vergleichen. Die Kunst des Verkäufers ist es, diejenigen ausfindig zu machen, die mit tatsächlichen Kaufabsichten unterwegs sind, und vielleicht noch aus der Gruppe der Unentschlossenen einige zum Spontankauf zu motivieren. Noch besser geeignet erscheint mir der bereits des öfteren in diesem Buch erwähnte Vergleich mit einem Marktplatz. Um auf einem Wochen- oder Krämermarkt zu überleben, muss man bereit sein, sich dem direkten Wettbewerb jeden Tag aufs Neue zu stellen. Den eigenen Auftritt regelmäßig überprüfen und anpassen. Auch im Internet heißt Professionalität, jeden Tag etwas dazuzulernen und dieses auch sofort umzusetzen. Integration von Marketinganstrengungen bedeutet, jedes Element im Marketing-Mix so einzusetzen, dass es seine spezifischen Stärken ausspielen kann, und da, wo es Einschränkungen hat, diese durch andere Elemente und deren spezifische Stärken zu kompensieren. Das mag trivial klingen, die Praxis zeigt, dass das nur selten durchgängig umgesetzt wird.
5.3.2
Erscheinungsbild
Im Zweifel eher schlicht. Es gibt viele tolle Web-Auftritte, und Designprofis haben heute eine breite Palette an Werkzeugen, mit denen sie ihr Können umsetzen und sich aus der Masse der Angebote abheben können. Sie nutzen diese mit Können und Augenmaß und lassen sich diese Fähigkeit teuer bezahlen. Nicht zu vergessen ist dabei die Tatsache, dass ein aufwändiges Design, zum Beispiel mit Flash-Einbindung, die Chancen für hohe Platzierungen in Suchmaschinen verringern kann. Die Entscheidung sollte daher sorgfältig abgewägt werden. Normalerweise gilt also: Schlicht ist besser. Man schaue sich Dokumente auf Papier an, die als hochwertig empfunden werden. Sie sind meist schwarz auf weiß, verwenden eine schnörkellose Schrift und haben ein einfaches Layout, das aber durchgängig eingehalten wird.
96
Die Webseiten
Das Erscheinungsbild muss sich vor allem an drei Dingen orientieren: 왘 An der Zielgruppe – wer Kinder anspricht, muss anders auf-
treten als jemand, dessen Zielgruppe Senioren sind, und so weiter 왘 Am eigenen Angebot – für Exposés zu Immobilien ist ein ande-
res, gediegeneres Erscheinungsbild angemessen als für sportliche Automobile 왘 Am Anbieter – das Erscheinungsbild muss dem angestrebten
Image in der Öffentlichkeit entsprechen und sollte über die sonst auch verwendeten Elemente des Corporate Design für Wiedererkennung sorgen Fotos sind immer ein hervorragendes Mittel, das Erscheinungsbild aufzuwerten. Es ist aber zu bedenken, dass so gut wie jedes Bild der Nachbearbeitung bedarf, selbst ein professionelles Foto sollte nach dem Einscannen oder der Aufnahme mit der digitalen Kamera noch einmal zumindest hinsichtlich Tonwert und Gradationskurve korrigiert werden. Auch ist die optimale Kompression für einen schnellen Download bei minimalen Qualitätsverlusten nicht leicht zu finden. In das Werkzeugsortiment eines Webdesigners oder -entwicklers gehört darum neben dem Autorensystem unbedingt das Bildverarbeitungsprogramm, und man sollte gelernt haben, damit professionell umzugehen. Fotos werden von vielen Suchmaschinen ebenfalls erfasst. Google, Altavista und andere bieten die Möglichkeit, nach Bilddaten zu suchen. Da sich jedoch dieses Angebot nur eingeschränkt dafür eignet, Benutzer gezielt auf die eigene Seite zu führen, beschäftigen wir uns in diesem Buch nur am Rand damit.
97
6
Probleme für Suchmaschinen
Wenn unsere Website steht, die strategischen Ziele des Unternehmens unterstützt und die gewünschte Erscheinung und Funktionalität besitzt, könnten wir uns eigentlich an die Anmeldung bei den Suchmaschinen machen. Dies scheint auf den ersten Blick recht einfach zu sein, es ist nur erforderlich, die Startseite (»Homepage«) der Suchmaschine mitzuteilen, diese wird dann den darin befindlichen Hyperlinks folgen und so nach und nach die ganze Website erfassen. Andererseits sollten wir bedenken: Eine einmal erfolgreich angemeldete Website kann nicht mehr beliebig geändert werden. Speziell das Löschen oder Umbenennen von Dateien kann dazu führen, dass Benutzer, die von einer Ergebnisseite einer Suchmaschine zu uns geführt werden sollen, stattdessen ins Leere (beziehungsweise in die Fehlermeldung 404 – File not found / Datei nicht gefunden) geleitet werden können. Bevor wir daran gehen, unsere Website bei den Suchmaschinen anzumelden, prüfen wir deshalb, ob es darin nicht Stolpersteine gibt, die zu Problemen führen können. Stellen Sie sich für diese Aufgabenstellung doch bitte einmal vor, Sie wären Mitglied in einem Entwicklerteam eines Suchmaschinenbetreibers. Es gibt nun für Sie einige Produktziele, die Sie umsetzen müssen. 왘 Schnelligkeit – Ihre Suchmaschine soll in kurzer Zeit eine
große Zahl an Seiten auswerten können. 왘 Fähigkeit zu crawlen – man bezeichnet damit die Funktionali-
tät, Seiten zu »lesen« und darin Hyperlinks zu finden, und anschließend die Seiten, auf die sie verweisen, ebenfalls zu laden und auszuwerten.
99
6 Probleme für Suchmaschinen
왘 Relevante Ergebnisse – der Marktwert einer Suchmaschine
bestimmt sich letztlich daraus, wie intensiv sie genutzt wird. Suchmaschinen, die häufig unbrauchbare Ergebnisse liefern, zum Beispiel, weil sie sich durch Cloaking austricksen lassen, werden bei den Benutzern abgewertet. 왘 Unfangreiche Ergebnislisten – man kann diskutieren, ob man-
che der von den Suchmaschinen gelieferten Ergebnislisten nicht sogar zu umfangreich sind. Aber es gibt sicher keinen Zweifel, dass zu kleine Ergebnislisten eher unbefriedigend sind. 왘 Stabilität – Der Besucher, der eine Suchmaschine aufruft, die
gerade nicht verfügbar ist, wird auf eine andere ausweichen und eventuell bei dieser dann bleiben. 왘 Mehrsprachigkeit – Brauchbarkeit für zu durchsuchende Sei-
ten und Ergebnislisten in verschiedenen Sprachen. 왘 Optimale Nutzung des zur Verfügung stehenden Speicherplat-
zes. Die Anpassungen, die dafür zu entwickeln sind, wirken sich direkt auf das Verhalten der Suchmaschine aus:
6.1
Die Zeichensatz-Problematik
Eigentlich ein Problem, vor dem jeder Web-Autor steht, und das man ohnehin im Griff haben sollte. Im Zusammenhang mit den Suchmaschinen erhält es aber neue Bedeutung. Das Problem: Computer kennen Zeichen, also Buchstaben, Satzund Sonderzeichen, Ziffern, Leerstellen etc., eigentlich gar nicht wirklich. Sie tauschen im Web nur Zahlen aus, wobei jede Zahl für ein Zeichen steht. Welche Zahle für welches Zeichen steht, ist in sogenannten »Zeichensatztabellen« definiert. Wenn Sie zum Beispiel ihrem Kollegen in einer Nachricht per E-Mail das Wort »Internet« senden wollen, muss die Software das von ihnen geschriebene Wort in die Zeichenfolge 73 – 110 – 116 – 101 – 114 – 110 – 101 – 116
umwandeln. Der Rechner des Empfängers wandelt diese Zahlen gemäß der gleichen Zeichensatztabelle wieder zurück und der Empfänger sieht das Ergebnis wie gewünscht.
100
Die Zeichensatz-Problematik
Das Internet ist ein Netzwerk mit Rechnern unterschiedlicher Hersteller und Betriebssysteme. Auch die Tatsache, dass sie an verschiedenen Orten stehen, wirkt sich auf die hier beschriebene Problematik aus. Die heute verwendeten Zeichensatztabellen bestehen aus maximal 256 Zeichen, von denen die ersten 32 Zeichen – das sind die Zeichen von 0 bis 31 – für Text gar nicht zur Verfügung stehen, da das System sie für eigene Zwecke reserviert hat. Ab Zeichen 32 bis Zeichen 127 werden alle Zeichen auf allen Systemen einheitlich dargestellt, zumindest in den westeuropäisch/amerikanischen Zeichensätzen. Die Zeichen von 128 bis 255 sind dagegen auf unterschiedlichen Systemen immer wieder anders. In diesem Bereich befinden sich unsere deutschen Umlaute, das scharfe ß und viele Sonderzeichen, wie das Symbol für Grad (»°«) oder die hochgestellte 2. Wenn der Web-Autor seine Seiten, die er beispielsweise auf einem Windows-Rechner erstellt hat, sich auch auf diesem wieder anschaut, wird er das Problem gar nicht erkennen, da der Browser auf dem gleichen Betriebssystem läuft und somit die gleiche Zeichensatztabelle verwendet. Das Problem kann aber sichtbar werden, wenn er sich seine Seiten unter Apple Macintosh oder einer der vielen Unixversionen, wie zum Beispiel Linux ansieht. Wenn dort die Sonderzeichen falsch dargestellt werden, liegt es an den unterschiedlichen Zeichensätzen.1 Das Problem lässt sich relativ leicht lösen, wie wir gleich sehen werden, und ein guter Web-Entwickler macht das schon im Interesse seiner Darstellungsqualität für seine menschlichen Besucher. Ein Entwickler könnte sich aber auch sagen: Ich arbeite unter Windows, meine Kunden verwenden alle Windows, der Rest der Internetwelt interessiert mich nicht – warum soll ich mich um Zeichensätze und speziell um korrekte Darstellung von Sonderzeichen auf anderen Betriebssystemen kümmern?
1
Internet-Cafés sind übrigens oft eine gute Lösung, wenn man sich die eigene Seite auf einem fremden Betriebssystem oder einem unbekannten Browser ansehen möchte, da sie je nach Betreiber recht unterschiedlich ausgestattet sind.
101
6 Probleme für Suchmaschinen
Nun, er hat seine wichtigen Verbündeten, die Suchmaschinen, übersehen. Schauen wir uns doch einmal an, welche Betriebssysteme von ihnen verwendet werden: Suchmaschine
Betriebssystem
Google
Linux
Yahoo
FreeBSD
Lycos
Linux
Web.de
Linux
T-Online
Sun Solaris
MSN
Microsoft Windows 2000
Fireball
Compaq True64
MetaGer
Sun Solaris
Altavista
Linux
Open Directory Project
Sun Solaris
Außer MSN, dem »Microsoft Network«, das natürlich schon aus Prinzip nicht auf einem Microsoft-fremden Betriebssystem laufen darf, verwenden alle anderen Suchmaschinen diverse Unix-Varianten. Ohne Zweifel arbeiten die meisten dieser Systeme nicht mit dem Windows-Zeichensatz als Standardvorgabe. Die Lösung der Zeichensatzproblematik ist einfach, genauer gesagt gibt es sogar drei Lösungen:2 왘 Verzicht auf Sonderzeichen: Man sieht das recht oft im World
Wide Web: aus »ä« wird »ae«, aus »ß« wird »ss« und so weiter. Es werden also nur noch Zeichen verwendet, die Bestandteil des Zeichensatzbereichs sind, der in allen Betriebssystemen gleich ist. Das Verfahren ist jedoch nicht gerade suchmaschinenfreundlich, der Benutzer, der nach »Gefäß« sucht, wird die Seite mit der Schreibweise »Gefaess« nicht unter den Ergebnissen finden. Und die Anzahl der Benutzer, die diese Art der
2
Es gibt noch eine vierte Lösung: Die Festlegung des Zeichensatzes im http-Header des Webservers. Wer einen eigenen Web-Server administriert und damit diese Option selbst hat, wird wissen, wie man es macht, den meisten Lesern wird diese Option jedoch nicht zur Verfügung stehen, weshalb sie hier nicht weiter besprochen werden soll.
102
Die Zeichensatz-Problematik
Umschreibung von Sonderzeichen bei Eingaben in die Suchfelder der Suchmaschinen verwenden, ist aller Erkenntnis nach nahe Null. 왘 Verzicht auf Sonderzeichen im HTML-Quelltext: Deutlich bes-
ser als die erste Lösung. Im Quellcode wird aus ä ein ä und aus ß ein ß. Vom Browser des Benutzers werden diese Umschreibungen, die auch als »Character Entities« bezeichnet werden, in die korrekten Zeichen umgewandelt und dem Benutzer angezeigt. Gleiches können auch die Suchmaschinen, nach der Umwandlung werden die Wörter mit den korrekten Zeichen in den Index eingetragen. Nachteilig ist dabei jedoch, dass das Wort »Gefäß« im Quelltext als »Gefäß« nicht mehr unbedingt leicht lesbar und bearbeitbar ist. Dafür kann dann aber die grafische Oberfläche in WYSIWIG-Editoren hilfreich sein (siehe Kapitel 1). Einige Entities Sonderzeichen
Umschreibung
Ä
Ä
Ä
ä
Ö
Ö
Ö
ö
Ü
Ü
Ü
ü
ß
ß
“
"
왘 Festlegung des Zeichensatzes im Kopfteil des HTML-Quell-
codes, typischerweise ISO 8859-1. Die beste Lösung. Sie können anschließend normal weiter schreiben, ohne sich über die richtige Interpretation Ihrer Sonderzeichen Gedanken machen müssen – sowohl Suchmaschinen als auch die meisten WebBrowser wissen, wie sie damit umgehen müssen (das sehen Sie, wenn Sie Ihre Seiten in verschiedenen Umgebungen testen). <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> ...
103
6 Probleme für Suchmaschinen
6.2
Website nicht schnell genug verfügbar
Kehren wir noch einmal zu unserem Gedankenspiel zurück: Sie entwickeln einen Roboter, und dieser soll in kurzer Zeit große Mengen an URLs aufrufen, prüfen, ob von dort überhaupt Daten gesandt werden, und diese dann auslesen und in die Wortlisten des Index eintragen. Was kann eigentlich dazu führen, dass Roboter von einem URL keine Daten erhalten? Dafür gibt es mehrere Möglichkeiten: 왘 DNS – das DNS ist eine Art Telefonbuch des Internet, über das
sich die Rechner gegenseitig finden. Sollte es zu einem URL keine DNS-Nummer geben (diese wird als IP-Adresse bezeichnet), erhält der Roboter eine entsprechende Rückmeldung. Falls es sich hierbei nicht um einen Fehler im DNS-System handelt, gibt es zu dem URL keinen passenden Web-Server. Die Suchmaschine geht übrigens immer von letzterer Möglichkeit aus. 왘 Die angeforderte Seite gibt es nicht oder sie steht aus anderen
Gründen nicht zur Verfügung, zum Beispiel weil für ihren Aufruf eine Benutzeridentifikation notwendig ist. In diesem Fall erhält der Roboter ebenfalls eine Rückmeldung, zum Beispiel die bekannte http-Meldung 404 – File not found. 왘 Es kann auch sein, dass der Server ein technisches Probleme
hat, oder dass er überlastet ist. Auch die Leitungen zum Server könnten überlastet sein. Die Suchmaschine wird eine vordefinierte Zeit auf die Antwort warten und – falls sie bis dahin nichts erhalten hat – davon ausgehen, dass diese Seite nicht verfügbar ist. Sie wird die Seite aus dem Index löschen, die meisten Suchmaschinen entfernen dann übrigens gleich die ganze Website. Sie als theoretischer Entwickler sollen nun den Timeout bestimmen, den Zeitraum, in dem der Roboter auf Rückmeldung wartet. Lange Wartezeiten akzeptieren würde Ihren Roboter langsamer machen, also werden Sie einen knappen Zeitraum wählen. Der Anbieter der Seite hat nun folgendes Problem: Einerseits wünscht er sich eine hohe Besucherzahl, andererseits können viele Benutzer zur Leistungsbremse auf dem Server werden, die langen
104
Website nicht schnell genug verfügbar
Antwortzeiten wiederum können zum Ausschluss aus dem Index führen. Es gibt auch Beobachtungen, die für einige Roboter nahe legen, dass in die Festlegung des Ranking einer Website, das ist die allgemeine Bewertung unabhängig von der inhaltlichen Übereinstimmung mit den Suchwörtern des Benutzers, Antwortzeiten mit eingehen. Die Betreiber der Suchmaschinen selbst haben das nicht bestätigt, und es ist auch schwierig nachzuweisen. Aber es fällt schon auf, dass bei vielen dieser Systeme die top-platzierten Suchergebnisse meist auf schnelle Sites verweisen. Wir sehen also, wie wichtig es ist, einen schnellen Server zu halten, dessen Antwortzeiten nicht durch ein Übermaß von Benutzern oder an auszuführendem Code, wie Perl, PHP oder Active Server Pages, heruntergebremst wird. Ganz besonders ist auf Datenbankzugriffe zu achten, die leicht zum Flaschenhals werden können. Außerdem ist natürlich auch dafür Sorge zu tragen, dass eine ausreichende Bandbreite für die Leitungen vorhanden ist, damit die Anfragen der Roboter schnell beantwortet werden können. Wie macht man das als Kunde eines Dienstleisters ohne eigenen Server? Dienste wie Internetseer (www.internetseer.com) bieten an, Ihre Website kostenlos zu überwachen und Ihnen einen wöchentlichen Bericht darüber zu senden, aus dem Sie auch ersehen können, wie schnell Ihr Server geantwortet hat.
Natürlich kann dieser Dienst auch sinnvoll sein, wenn man einen eigenen Webserver hat, den man überwachen lassen möchte.
105
Abbildung 6.1: Ein Bericht von Internetseer mit Angabe der Antwortzeiten (connect time) in Sekunden und einer Nichtverfügbarkeit von 3 Stunden am Samstag, den 4.5.
6 Probleme für Suchmaschinen
6.3
Hyperlinks, die keine sind
Hyperlinks werden in HTML durch den Container ... festgelegt. Anstelle von ### würde der URL stehen, die beim Anklicken aufgerufen wird. Inhalt des Containers ist, was der Benutzer im Browser sieht: Text oder ein Bild. Suchmaschinen sind darauf ausgelegt, diese Hyperlinks zu finden und zu verfolgen. Es gibt aber auch andere Verfahren, Hyperlink-ähnliche Verweise zu erzeugen: 왘 Imagemaps – Bereiche innerhalb von Bildern, die beim Ankli-
cken wie ein Hyperlink wirken; innerhalb eines Bildes kann es mehrere solche Bereiche geben. Dies Hyperlinks werden nicht von allen Suchmaschinen erkannt und verfolgt. 왘 JavaScript-Lösungen – Ein Entwickler einer Seite kann den
JavaScript-Befehl location.href verwenden, um eine andere Seite aufzurufen. Geschieht dies, sobald der Benutzer an eine bestimmte Stelle klickt, wirkt dieses Verfahren wie ein Hyperlink. Das Verfahren wird gerne mit Schaltflächen eingesetzt, funktioniert aber auch mit Bildern oder Text. Solche Verweise werden nach allgemeiner Beobachtung von keiner Suchmaschine verfolgt. 왘 Hyperlinks in eingebetteten Komponenten – Manche Designer
ziehen es vor, Hyperlinks in Java-Applets oder Flash-Komponenten einzubinden, was im Browser auch gut funktioniert. Auch eine PowerPoint-Datei könnte eingebunden werden und Hyperlinks beinhalten, die von der zur Anzeige im Browser verwendeten Komponente beim Anklicken umgesetzt werden. Suchmaschinen werden diese Arten von Verweisen aber ebenfalls nicht finden.
106
Hyperlinks, die keine sind
Abbildung 6.2: Diese Website verwendet als Java-Applets angelegte Schaltflächen (oberer Rand) anstelle von HTML-Hyperlinks. Diese sind für Suchmaschinen nicht sichtbar.
Übrigens ist es aus Sicht des Suchmaschinenentwicklers durchaus nachvollziehbar, dass diese in Komponenten eingebundenen Hyperlinks nicht verfolgt werden: Für ihre Umsetzung muss der Browser zusätzliche Software starten, eine Java Virtual Machine oder eine ActiveX-Komponente beziehungsweise ein Plug-In für Flash. Dies kostet Zeit und Prozessorleistung. Für den Benutzer mag das kein großes Problem sein, für die auf Hochgeschwindigkeit optimierten Suchroboter wäre das jedoch eine Leistungsbremse. Da eine Suchmaschine ohnehin nicht gerade mit einem Mangel an auszuwertenden URLs kämpfen muss, ist es nur logisch, dass sie darauf verzichtet, diese Art von Verweisen zu verwenden. Noch ein weiteres Argument spielt mit: Die erhöhte Komplexität durch Ausführung von Komponenten, die gegenüber dem einfachen Textcode der HTML-Seiten in komplexeren Binär- oder Bytecode angelegt sind, kann zu Stabilitätsproblemen der Suchmaschine führen. Zumal die Entwickler dieser Komponenten dem Suchmaschinenteam ja unbekannt sind. Keine Suchmaschine wird sich auf das Risiko einlassen, solchen fremden Code auszuführen, der bei ihr zu Fehlern führen kann, die ihre Stabilität gefährden können.
107
6 Probleme für Suchmaschinen
6.4
Extern zuzuladende Seiteninhalte
Entwickler von Webseiten machen sich das Leben gerne leicht. Seiteninhalte, die sich in vielen Seiten wiederholen, wie zum Beispiel Navigationselemente, werden gerne in eine externe Datei ausgelagert, die dann in den einzelnen Seiten zugeladen wird. Der Entwickler spart sich damit eine Menge Schreibarbeit, vor allem, wenn es um spätere Änderungen geht, da er nur noch eine Datei bearbeiten muss, und verhindert Inkonsistenzen, wenn er beispielsweise beim Ändern eine Seite auslässt. Für den Benutzer ist zumindest auf den ersten Blick nicht erkennbar, ob Seiteninhalte auch wirklich in dieser Datei stehen, oder aus einer anderen Datei zugeladen worden sind. Für das Zuladen gibt es grundsätzlich zwei Verfahren: 왘 Serverseitig – Verfahren wie »Server Side Includes«, aber auch
die meisten anderen auf dem Server verwendeten Programmiersprachen, bieten Mittel an, externe Dateien zuzuladen. Dies geschieht, bevor die Seite an den Client gesandt wird, und macht daher einer Suchmaschine grundsätzlich keine Probleme. Wenn in diesen zuzuladenden Elementen Hyperlinks stehen, sieht die Suchmaschine diese genauso wie der Benutzer am Browser. 왘 Clientseitig – Auch der Browser kann angewiesen werden, das
Zuladen durchzuführen. Ein beliebtes Verfahren ist die Verwendung externer JavaScript-Dateien, die nach der Einfügung den Browser anweisen, Text oder Bilder mit Hyperlinks anzulegen. Wenn beispielsweise der Name dieser externen Datei navigation.js ist, und diese im gleichen Web-Ordner wie die aufrufende Seite steht, würde dann im Quelltext an der Stelle der HTML-Seite, wo die Einfügung platziert werden soll, ein ähnliches Tag wie das folgende stehen: <script language=javascript src=navigation.js>
Die Suchmaschine ist zwar auch ein Client, führt aber diese zeitund rechenintensiven Javascript-Aktionen nicht aus. Die mit dieser Methode von einem Browser erzeugten Hyperlinks stehen ihr damit nicht zur Verfügung, um weitere Seiten zu finden. Die Struktur der Website bleibt ihr somit verborgen.
108
Am Seitenende liegende Inhalte
6.5
Am Seitenende liegende Inhalte
Eine Suchmaschine liest von jeder Seite nur eine maximale Länge von Text aus. Bis wohin dies führt, wird von Suchmaschinenbetreibern nicht veröffentlicht, die Gründe sind aber naheliegend: 왘 Suchmaschinenbetreiber gehen grundsätzlich davon aus, dass
das Wichtige in einer Seite oben steht. Weiter vorne stehen Titel, Überschriften, vielleicht Schlagzeilen und alle Arten von relevanten Informationen. Die Suchmaschinen nehmen an, dass es ausreicht, eine bestimmte Textmenge aus der Datei zu laden, um die für die Seite interessanten Schlüsselwörter zu erfassen. Für Google lässt sich beispielsweise feststellen, dass diese Grenze bei 15.000 Zeichen liegt, und zwar im Quelltext. Die im Browser angezeigten Textmengen sind übrigens deutlich kleiner, da hier keine HTML-, CSS- und JavaScriptelemente mehr zu finden sind. 왘 Speziell das Laden großer Dateien kann zeitintensiv werden.
Außer einer Größenbegrenzung kann es daher auch eine Zeitbegrenzung geben: Was nach einer maximalen Zeitdauer von vielleicht 2 Sekunden nicht bei der Suchmaschine angekommen wird, wird dann ebenfalls ignoriert. Auch dieser Timeout ist nicht veröffentlicht und lässt sich auch nicht ermitteln. Navigationselemente am Ende einer Seite werden also möglicherweise von Suchmaschinen gar nicht erfasst, darin befindliche Hyperlinks entsprechend auch nicht weiterverfolgt.
6.6
Layers und DHTML
Layers sind in älteren Netscape-Browserversionen ein Verfahren, um Seiten während der Anzeigezeit dynamisch zu gestalten, zum Beispiel für ausklappbare Menüs und andere ein- und ausblendbare Inhalte. Mit dem gleichen Ziel wurde von Microsoft DHTML als Erweiterung zu HTML entwickelt. Dies wurde inzwischen offiziell standardisiert und wird zumindest teilweise auch in neueren Versionen des Netscape-Navigator und in anderen Browsern, wie zum Beispiel Opera, angewandt. Letztlich stellen beide Verfahren eine erweiterte Umsetzung von Cascading Style Sheets für die Formatierung und JavaScript als vom Browser auszuführender Scriptsprache dar.
109
6 Probleme für Suchmaschinen
Während einige Suchmaschinen DHTML- beziehungsweise Layer-Elemente komplett ignorieren, spielt es aus Sicht anderer keine Rolle, ob Texte oder Hyperlinks normaler Bestandteil der Seite sind oder in einem Layer beziehungsweise DHTML-Code eingebunden sind. Es gibt aber doch einige Ausnahmen: 왘 Worauf schon weiter oben hingewiesen wurde, gilt auch hier:
Aus externen Dateien eingebundener Quelltext wird von allen Suchmaschinen ignoriert 왘 Textinhalte, die mit der DHTML-Eigenschaft innerText dyna-
misch zugewiesen werden, sind für Suchmaschinen ebenfalls unsichtbar.
6.7
Sitemaps in Ergebnislisten
Vielleicht ist es jemandem im Unternehmen aus irgendeinem Grund wichtig, die oben beschriebenen Verfahren einzusetzen, obwohl sie Hyperlinks und andere wichtige Inhalte für Suchmaschinen unsichtbar machen können. Das Ergebnis könnte sein, dass die so wichtige Funktionalität der Suchmaschinen, sich selbst durch das Web zu crawlen, nicht mehr genutzt werden kann. Kann man die Seiten Suchmaschinen dennoch so bekannt machen, dass sie von selbst alle Seiten finden? Ja, mit den in Kapitel 8 genauer beschriebenen Sitemaps. Hierbei handelt es sich um eher einfache HTML-Dateien, in denen Hyperlinks auf andere Seiten der Website so angelegt sind, dass die Suchmaschinen ihnen leicht folgen können. Diese Sitemaps werden bei den Suchmaschinen angemeldet, welche sich von dort aus weiter durch die Website hangeln. Dabei kann sich ein neues Problem ergeben: Sitemaps sollen nicht unbedingt den Ergebnislisten, die den Suchenden angeboten werden, erscheinen. Die Sitemaps sind nur als Hilfe für die Suchmaschine gedacht, für Besucher haben wir die normalen Seiten mit ihrem besseren Layout und ihrer Benutzerführung vorgesehen. Im Kapitel »Suchmaschinen steuern« lernen Sie das Meta-Tag »Robots« und die Datei »robots.txt« kennen. Sie können diese verwenden, um den Suchmaschinen explizit mitzuteilen, welche Seiten sie indizieren sollen, und welche nicht. Leider werden diese Mittel nicht von allen Suchmaschinen berücksichtig.
110
Mit Cookies für den Benutzer optimierte Seiten
Eine andere Option: Geben Sie der Sitemap einen Dateinamen, der möglichst nichtssagend ist oder zumindest mit den Suchbegriffen Ihrer Besucher nichts tun hat. Lassen Sie sie außerdem ohne Titel, ohne Überschrift und ohne Textinhalte, die in den Index einer Suchmaschine kommen könnten, außer etwas Text natürlich für die Hyperlinks. Anders gesagt, machen Sie einfach alle die Fehler, vor denen sonst in diesem Buch gewarnt wird.
6.8
Mit Cookies für den Benutzer optimierte Seiten
Moderne Portallösungen möchten dem Benutzer ein Angebot an Web-Inhalten machen, das sich an seinen Interessen und Gegebenheiten orientiert. Das kann zum Beispiel in der Form geschehen, dass der Benutzer beim ersten Besuch nach der von ihm bevorzugten Sprache, nach seinen Wünschen und Hobbies befragt wird. Ein anderer Weg ist die Beobachtung des Klickverhaltens des Benutzers, um auf diesem Weg zu erfahren, woran er interessiert ist. Auch aus Online-Aufträgen des Benutzers können Informationen über seine Interessen abgeleitet werden, der Buchhändler Amazon.de verwendet dieses Mittel beispielsweise ausgiebig. Die Summe der Optimierungsinformationen für einen Benutzer wird übrigens als »Profil« bezeichnet, leider wird damit mittlerweile manchmal ein schwunghafter Handel getrieben. Das Problem für den Server ist dabei folgendes: Der Benutzer ist für den Server im Internet zuerst einmal anonym. Um jedoch Seiten entsprechend seinem Profil optimieren zu können, muss der Server den Benutzer wiedererkennen. Zu diesem Zweck sendet der Server dem Browser beim ersten Besuch einen Cookie, eine kleine Textmenge, die dieser auf der Festplatte des Benutzers abspeichert. Beim nächsten Aufruf einer Datei schickt der Browser diese Information wieder mit an den Server, so dass der Server den Benutzer wiedererkennen und die Inhalte für ihn optimieren kann. Eine Suchmaschine empfängt, speichert und sendet keine Cookies.
111
6 Probleme für Suchmaschinen
Das kann Probleme verursachen, im folgenden ein Beispiel: Ein Portal bietet Informationen in verschiedenen Sprachen an. Der Besucher, der diese Website zum ersten Mal aufsucht, muss eine Sprache auswählen. Wenn er sich beispielsweise für Deutsch entscheidet, wird dies in einem Cookie vermerkt, der auf der Festplatte des Benutzers gespeichert wird. Von jetzt an weiß der Server, dass er diesem Benutzer bei jedem Aufruf die Inhalte in Deutsch liefern muss, eventuell mit den für diese Sprache vorgesehenen Hyperlinks zu weiteren deutschsprachigen Dokumenten. Eine Suchmaschine würde diese sprachoptimierte Version und damit auch die in ihr befindlichen weiterführenden Links nie zu sehen bekommen. Entweder würde sie in der Seite hängen bleiben, in der der Erstbenutzer die Sprache auswählen soll, oder sie würde in eine Standardsprache geführt, zum Beispiel Englisch, die der Server für alle Benutzer bereithält, die keine Cookies übersenden.
6.9
Mehrsprachige Seiten
Das Beispiel mit der Sprachauswahl oben führt uns zu einem nächsten Problem: Seiten mit Inhalten in mehreren Sprachen. Mehrsprachige Werbeprospekte gelten in vielen Branchen als üblich. Man spart sich den Druck mehrerer Versionen eines Prospektes und muss nicht darauf achten, welche Version man einem Kunden zusendet. Wie geht man aber im World Wide Web mit Mehrsprachigkeit um? Nicht jeder Benutzer einer Suchmaschine ist daran interessiert, sich durch Suchergebnisse durcharbeiten zu müssen, die in einer Vielzahl von Sprachen abgefasst sind. Für manchen Suchbegriff mag es eindeutig erscheinen, da er nur in einer bestimmten Sprache vorkommt. Andere Begriffe, wie »Computer«, gibt es identisch in so ziemlich allen Sprachen.3 Die meisten Suchmaschinen sind deshalb daran interessiert, für jede Seite die Sprache zu erfassen, in der sie erstellt worden ist. Dies ermöglicht es ihnen, den suchenden Benutzern eine Option anzubieten, dass sie nur Ergebnisse für eine von ihnen gewünschte Sprache erhalten.
3
Außer in Französisch, hier heißt dieses Gerät »Ordinateur«.
112
Index voll
Der Entwickler der Seite kann diese Information in ein Meta-Tag setzen, die meisten Suchmaschinen analysieren die Inhalte der Seiten aber auch selbst daraufhin, in welcher Sprache sie geschrieben sind. Da es für jede Sprache typische Wörter gibt, auf deren Vorhandensein im Text geprüft werden kann, ist diese Aufgabe nicht allzu schwierig. Wie geht eine Suchmaschine nun damit um, wenn sie mehrsprachigen Text findet? Einfach gesagt: unvorhersehbar. Mehrsprachige Web-Inhalte sollten grundsätzlich in verschiedene Seiten, oder besser noch in verschiedene Web-Ordner, gestellt werden. Dies ermöglicht es Suchmaschinen, in ihrem Index jeder erfassten Seite die Sprache zuzuordnen und diese Information dann auch bei der Ergebnisausgabe am Bildschirm zu berücksichtigen.
6.10 Index voll Im Gegensatz zu den vorigen Problemen, die durch Änderungen in der Website und den darin befindlichen Inhalten zu lösen sind, kann der Anmeldende beim nächsten Problem erst einmal selbst nichts zur Lösung beitragen. Eine Suchmaschine speichert die von ihr gefundenen und gelesenen Seiteninhalte in Wortlisten ab. Das sind Datenbanken, die auf physikalischen Medien gespeichert werden. Solche Medien kennen Sie von Ihrem eigenen PC als Arbeitsspeicher, Festplatte, CDRom und so weiter. Was Sie von Ihrem PC kennen, gilt natürlich auch für Suchmaschinen: Das Fassungsvermögen des Speichers ist nicht unbegrenzt, irgendwann ist er einfach voll. Was macht eine Suchmaschine nun, wenn die Kapazitätsgrenze ihrer Medien erreicht ist? Sie prüft zwar weiter die in der Wortliste aufgeführten Seiten, ob es sie noch gibt oder ob sich darin etwas verändert hat. Bei gefundenen Änderungen wird sie die Wortliste aktualisieren, bei nicht vorhandenen Seiten werden die zugehörigen Einträge aus dem Index gelöscht. Jedenfalls wird sie nur in dem Maß neue Seiten aufnehmen, in dem Platz durch Löschen alter Verweise entsteht.
113
6 Probleme für Suchmaschinen
Google ist ein Beispiel, an dem sich dieses Verhalten beobachten lässt: Im Herbst/Winter 2001 hat Google offensichtlich den Index so vergrößert, dass er nun circa zwei Milliarden Seiten, statt wie bisher eine Milliarde, erfassen kann. Vermutlich war das für Google nicht so einfach zu bewerkstelligen wie etwa ein Speicherausbau oder der Einbau einer neuen Festplatte auf dem PC. Im Gegenteil ist anzunehmen, dass dies ein komplexes und wahrscheinlich recht teures Projekt war. Im November oder Dezember 2001 scheint dieser erweiterte Index erneut voll gewesen zu sein. Seither (Stand: Juni 2002) ist dieser Index nämlich nicht weiter gewachsen, sondern hat weiter eine Größenordnung von rund zwei Milliarden Seiten. Dies erklärt auch, warum es so mühselig sein kann, eine Website bei Google anzumelden. Für neue Inhalte ist erst mal einfach kein Platz. Wenn Sie Ihre neue Website anmelden wollen, sind Sie in einer ähnlichen Situation wie samstags in der Großstadt auf der Suche nach einem Parkplatz. Nur wenn Sie auf Ihrer Suche zufällig gerade dabei sind, wenn jemand anders einen Platz freimacht, haben Sie die Chance, diesen zu ergattern. Bei Google heißt das, über einen Zeitraum von mehreren Wochen in einer vernünftigen Frequenz die Website immer wieder anmelden mit dem Ziel, dabei zu sein, wenn entweder bei Google Speicherplatz frei wird, oder wenn Google erneut seinen Speicher ausbaut. Das Anmelden einer Website bei einer Suchmaschine ist Inhalt des nächsten Kapitels.
114
7
Die Website bei Suchmaschinen anmelden
Neben der Erstellung suchmaschinengerechter Dateien (siehe vorige Kapitel) ist die wichtigste Aufgabe zur erfolgreichen Platzierung in Suchmaschinen das Submitting. So bezeichnet man den Prozess, die Suchmaschine über die Website zu informieren. Dies kann mit viel Arbeit verbunden sein, und man sollte sich über einen Zeitraum von mehreren Wochen immer wieder eine halbe bis eine Stunde dafür nehmen.
7.1
Suchmaschinen über die eigene Website informieren – Submitting
Eigentlich sollte man meinen, dass Submitting gar nicht notwendig ist. Die Suchmaschinen finden bei ihrer Arbeit, die Inhalte des Web zu indizieren, laufend neue Hyperlinks, die sie in ihre Liste zu erfassender Seiten aufnehmen. Irgendwann sollten sie doch jede Seite erfasst haben. Muss man sich trotzdem dieser oft langwierigen und mühevollen Arbeit unterziehen? Ja, Submitting bleibt eine wichtige Arbeit: 왘 Vielleicht gibt es noch gar keine Seiten, die auf Ihre Inhalte ver-
weisen. Dann können Suchmaschinen diese gar nicht finden. 왘 Vielleicht gibt es bereits solche Seiten, aber die Suchmaschinen
wissen das noch nicht. 왘 Vielleicht stellen Sie auch fest, dass die einstmals gute Platzie-
rung Ihrer Seite verloren gegangen ist, und Sie wollen diese nun wieder herstellen. Gerade der letzte Punkt darf nicht unterschätzt werden. Platzierungskiller gibt es mehrere: 1. Vorübergehende Ausfallzeiten des Webservers. Suchmaschinen, die während einer solchen Auszeit eine Ihre Seiten aufrufen wollen, werden eine Fehlermeldung erhalten, dass der 115
7 Die Website bei Suchmaschinen anmelden
Server nicht verfügbar ist. Sie werden dann entweder nur die aufgerufene Seite oder möglicherweise alle Seiten Ihrer Website aus dem Index löschen. Das Thema wird ausführlicher in Kapitel 9 besprochen. 2. Lange Zeiträume ohne Änderungen an den Inhalten. Viele Suchmaschinen werden diese Inhalte als weniger aktuell im Vergleich zu anderen, jüngeren Inhalten betrachten und daher abwerten. 3. Suchmaschinengerechtere Seiten anderer Anbieter, die Ihre Seiten verdrängen. Submitting sollte zumindest für eine neu angemeldete Site in kurzen Abständen wiederholt werden. Wie schon in den Kapiteln 3 und 4 beschrieben, erzeugt ein Robot eine Liste von zu besuchenden Seiten. Da diese Liste mit der Zeit immer länger wird (neue URLs werden schneller hinzugefügt als alte abgearbeitet werden), muss die Suchmaschine diese regelmäßig wieder kürzen, also Einträge löschen. Die Wahrscheinlichkeit, dass es hierbei Ihren neu übermittelten URL trifft, ist sehr hoch. Die dazu gehörenden Seiten werden sie dann zumindest in der nächsten Zeit auch nicht besuchen. Bei manchen Suchmaschinen ist auch beobachtet worden, dass regelmäßiges Submitting die Platzierung verbessern kann. Die Entwickler sind wohl davon ausgegangen, dass die Anmeldung eines URL eine Art Empfehlung darstellt. Dies entspricht vielleicht einem früheren, etwas naiven Verständnis, dass ein Benutzer eine Seite, die er besucht hat und für wertvoll hält, einer Suchmaschine mitteilen würde. Heute gehen alle Beteiligten dagegen eher davon aus, dass es der Anbieter der Inhalte ist, der mit den Besuchern seines Internet-Auftritts bestimmte Interessen und Ziele verfolgt, und dass die Anmeldung daher vor allem von dieser Gruppe durchgeführt wird. Funktionen, die im Rahmen des älteren Verständnisses entwickelt worden sind, scheinen aber bei manchen Robotern noch vorhanden zu sein. Da der Anmeldeprozess ein wichtiger und unabdingbarer Bestandteil in der Arbeit von Suchmaschinen ist, wird von den Entwicklern auch immer weiter daran gefeilt. Neue Ideen und Methoden richten sich dabei nach Beobachtungen des Marktes, insbesondere natürlich der Konkurrenz. Was man bei der einen Suchmaschine schon länger kennt, kann eines Tages auch von einer anderen übernommen worden sein. Das gilt besonders
116
Suchmaschinen über die eigene Website informieren – Submitting
dann, wenn finanzielle Interessen der Betreiber dahinter stecken. So macht im Moment ein neues Angebot die Runde, das eine schnelle Seitenaufnahme und regelmäßige Aktualisierung im Index der Suchmaschine garantiert, dafür aber Geld kostet (nicht zu verwechseln mit der Schaltung von Werbe-Einträgen; im Grunde ist der Verkauf von Platzierungen zwar ähnlich – nur nach außen hin meist nicht erkennbar). Ob man es als störend empfindet, wenn diese Betreiber damit nicht alle Anbieter gleich behandeln und sich somit nicht unbedingt an das journalistische Prinzip halten, redaktionellen Teil und Werbung klar voneinander zu trennen, mag jeder selbst entscheiden – natürlich haben auch Suchmaschinenbetreiber ein kommerzielles Interesse und müssen versuchen, ihr Angebot finanziell abzusichern, gerade bei wachsender Konkurrenz. Allgemein sind die Verfahren bei den Suchmaschinen, wie neue Seiten angemeldet werden, leider sehr unterschiedlich. Im Folgenden sollen einige Beispiele für wichtigere Suchmaschinen zeigen, wie es funktioniert:
7.1.1
Altavista
Der Weg zur Anmeldeseite für neue URLs führt bei Altavista über den Hyperlink »Hilfe«. Abbildung 7.1: Erster Schritt bei Altavista
117
7 Die Website bei Suchmaschinen anmelden
In der nächsten Seite wird der Hyperlink »URL hinzufügen« angeklickt Abbildung 7.2: Links auf »URL hinzufügen« klicken
Bei AltaVista gilt seit Frühling 2002 das oben Erwähnte – Sie haben jetzt mehrere Möglichkeiten des Submitting zur Auswahl: Für Nutzer, die mehr als 500 URLs anmelden möchten, gibt es das sogenannte »Trusted Feed« und bei weniger als 500 URLs den »Express Inclusion Service«, den AltaVista in Partnerschaft mit der Firma infospider betreibt. Beide Angebote ermöglichen laut AltaVista eine schnellere Aufnahme und Aktualisierung der URLs, sind kostenpflichtig und erfordern eine vorherige Registrierung. In unserem Beispiel werden wir den kostenfreien »Basic Submit« nutzen. Sie finden ihn unten auf der Seite.
118
Suchmaschinen über die eigene Website informieren – Submitting
Abbildung 7.3: Basic Submit ist kostenlos, kann aber dauern
Um automatische Anmeldung unmöglich zu machen, muss der Benutzer Buchstaben in ein Feld eintragen. Außerdem werden der URL und eine E-Mail-Adresse benötigt Abbildung 7.4: Spiel mit Buchstaben zum Ausschluss von Submit-Diensten und -Software
119
7 Die Website bei Suchmaschinen anmelden
Was Altavista mit der E-Mail-Adresse macht, bleibt übrigens ziemlich unklar. Die erfolgte Übermittlung der Daten erhält der Benutzer anschließend bestätigt. Wir haben schon darüber gesprochen, dass sie keine Garantie dafür ist, dass die Seiten auch in den Index aufgenommen werden. Abbildung 7.5: Der Anmeldeprozess ist fertig – zumindest für den Augenblick
120
Suchmaschinen über die eigene Website informieren – Submitting
7.1.2
Google
Die Anmeldung in Google ist denkbar einfach. Klicken Sie auf den Hyperlink »Alles über Google«: Abbildung 7.6: Die Eingangsseite von Google
Auf der nächsten Seite finden Sie einen weiteren Link »Ihre URL hinzufügen/entfernen«. Bei Google gibt es keine Möglichkeit, gegen eine Bezahlung schneller in das Suchergebnis aufgenommen zu werden. Sie können natürlich – wie bereits erwähnt und wie bei fast allen großen Suchmaschinen – Werbe-Einträge schalten. Diese werden optisch strikt von den übrigen getrennt: Sie erscheinen dann, durch farbliche Hervorhebung gekennzeichnet, entweder mit den Hinweis »Sponsoren-Link« in der Ergebnisliste eines relevanten Begriffes ganz oben oder mit der Beschriftung »Werbung« am rechten äußeren Rand. Dass Werbe-Einträge hervorgehoben werden, ist ebenfalls bei fast allen großen Suchmaschinen so – da aber die Möglichkeit des kostenpflichtigen Express-Submittings bei Google fehlt, weiß man hier mit größerer Sicherheit, welche Einträge bezahlt wurden und welche nicht.
121
7 Die Website bei Suchmaschinen anmelden
Abbildung 7.7: Hier können Sie zur Seite »Ihre URL hinzufügen« wechseln
Nachdem Sie auf »Ihre URL hinzufügen/entfernen« geklickt haben, geben Sie Ihren URL ein sowie weitere Informationen, die dem Benutzer der Suchmaschine angezeigt werden. Abbildung 7.8: Tragen Sie hier Ihren URL ein
122
Suchmaschinen über die eigene Website informieren – Submitting
Auch bei Google erhalten Sie zur Bestätigung eine Mitteilung. Abbildung 7.9: Bestätigung, dass das Submitting erfolgt ist
Google weist – wie andere Betreiber auch – darauf hin, dass es in der Regel reicht, eine Ausgangsseite (das kann entweder die Startseite oder eine Sitemap sein, siehe auch die Kapitel 6 und 8) anzugeben, von wo aus der Roboter die weitere Suche beginnt. Dennoch kann es sinnvoll sein, weitere Seiten anzugeben, da wir ja schon gesehen haben, dass die Liste der Seiten, die von Robotern noch zu besuchen sind, immer wieder teilweise gelöscht werden müssen. Darunter könnten natürlich auch einige der Seiten sein, die von den Robotern gefunden werden sollten. Außerdem gilt auch hier die Regel, dass man den Anmeldeprozess regelmäßig wiederholen sollte.
7.1.3
Yahoo
Als Beispiel für die Anmeldung in Verzeichnisdiensten soll hier Yahoo vorgestellt werden. Das Verfahren ist bei den meisten Verzeichnisdiensten ähnlich. Sie müssen die entsprechende Kategorie, in der Ihr Eintrag erscheinen soll, anwählen und von dort
123
7 Die Website bei Suchmaschinen anmelden
dann den Anmeldeprozess starten. Die Anmeldung erfolgt dann auch für diese Kategorie, häufig lässt sich aber eine weitere Kategorie angeben, gelegentlich auch mehrere. Auch bei Yahoo gibt es verschiedene Möglichkeiten des Submitting: Yahoo bietet ebenfalls eine kostenpflichtige »Express«Anmeldung, die eine schnelle Aufnahme garantiert. Die Suchkategorien finden sich im unteren Teil der Startseite. Abbildung 7.10: Startbildschirm von Yahoo mit Kategorien
Anschließend wird weiter verzweigt bis in die gewünschte Kategorie.
124
Suchmaschinen über die eigene Website informieren – Submitting
Abbildung 7.11: Yahoo Kategorien
In den Kategorien mit den Ergebnislisten findet sich unten der Hyperlink »Website vorschlagen«. Abbildung 7.12: In der richtigen Kategorie die URL vorschlagen
125
7 Die Website bei Suchmaschinen anmelden
Wie schon beschrieben gibt es einen (teuren) Express-Dienst und die kostenlose Standardanmeldung. Abbildung 7.13: Optionen für die Anmeldung bei Yahoo
Die nächste Seite informiert über die Modalitäten und weist noch einmal darauf hin, in welcher Kategorie die Anmeldung vorgenommen wird. Abbildung 7.14: Infos zur Anmeldung in einer Kategorie
126
Suchmaschinen über die eigene Website informieren – Submitting
Im folgenden werden Informationen zur Website eingetragen. Abbildung 7.15: Infos eintragen zur eigenen Website
Im unteren Teil dieser Seite werden noch Fragen zur Person gestellt, mit »Weiter« werden die Daten übermittelt. Abbildung 7.16: Kontaktinformationen für Yahoo
127
7 Die Website bei Suchmaschinen anmelden
Auch Yahoo bestätigt die Anmeldung am Ende. Auch hier ist wieder der Hinweis zu finden, dass es keine Garantie für die Aufnahme gibt Abbildung 7.17: Fertig
7.1.4
Besonderheiten beim Open Directory Project
Wenn man sich die Statistiken ansieht, wie viel Verkehr bestimmte Suchdienste für Websites erzeugen1, steht das Open Directory Project an vergleichsweise untergeordneter Position. Wer nun jedoch annimmt, dieser Suchdienst sei unwichtig, unterschätzt dessen Bedeutung gewaltig. Die Anmeldung in diesem Verzeichnisdienst erfolgt im Grunde genauso wie bei Yahoo: Sie suchen die Kategorie auf, in der Sie Ihre Website gelistet sehen möchten, und folgen dort dem Hyperlink »URL anmelden«. Verzeichnisdienste bieten dem Benutzer zwei Suchmöglichkeiten: 왘 ein Formularfeld, in das der Benutzer seine Suchwörter eintra-
gen kann, und 왘 das hierarchische System aus Kategorien und Unterkategorien,
in dem man sich via Hyperlinks fortbewegen kann. 1
www.etracker.de.
128
Suchmaschinen über die eigene Website informieren – Submitting
Während Seitenverweise über Formularfelder wie schon beschrieben von (anderen) Suchmaschinen – speziell vom Typ Roboter – nicht verfolgt werden können, ist die Hierarchie des Kategoriensystems für einen Roboter leicht verfolgbar. Was diese Funktion beim Open Directory Project besonders interessant macht: Google kennt die Open Directory Kategorien nicht nur recht gut, sondern nutzt sie auch selbst als Datenbasis für ein eigenes Verzeichnisangebot. Im Unterschied zu den Ergebnisseiten des Open Directory Project, in denen die Ergebnisse alphabetisch sortiert sind, werden sie im Google-Verzeichnis mit dem Google-eigenen PageRank versehen und danach sortiert. Die so erzeugten Seiten mit Linklisten werden auch sehr hoch bewertet. Wie wir später sehen werden, wirkt sich bei Google ein hoher PageRank in einer Seite, die auf eine andere Seite verweist, auch auf die verwiesene Seite aus. Einträge im Open Directory Project sind also ein wichtiges Hilfsmittel, um bei Google zu einer verbesserten Bewertung und damit besseren Platzierungen zu kommen.
7.1.5
MetaGer
Als Meta-Suchmaschine verfügt MetaGer über keinen eigenen Datenbestand, sondern greift auf die Daten anderer Suchmaschinen zurück. Daher findet sich links der Hinweis: »URL melden: NEIN«. Abbildung 7.18: URL melden? Nein
129
7 Die Website bei Suchmaschinen anmelden
7.2
Submit-Dienste
Alternativ zur manuellen Anmeldung gibt es auch automatisierte Verfahren – zum Beispiel Dienste im Internet, die einem kostenlos oder gegen Bezahlung die Arbeit abnehmen. Dies kann vorteilhaft sein; manchmal ist der Zeitaufwand aber auch bei diesen Systemen doch noch recht groß, da man während des Anmeldeprozesses eine große Anzahl von Fragen, die jeweils nur für bestimmte Suchmaschinen von Bedeutung sind, beantworten muss. Außerdem sind die von solchen Systemen angesprochenen Suchmaschinen oft recht exotisch, man hat bei vielen den Eindruck, dass sie den Benutzern gar nicht bekannt sind und deshalb auch kaum benutzt werden. Abbildung 7.19: Angebot eines Submit-Dienstleisters, der Einträge in über 250.000 Suchmaschinen anbietet. Wie viele davon wohl in der Praxis eine Bedeutung haben?
130
Software
Ein weiteres Problem ist die Tatsache, dass manche Suchmaschinenanbieter Ihre Anmeldeseiten so eingerichtet haben, dass Submit-Dienste nicht darauf zugreifen können. Bei Altavista muss beispielsweise zur Anmeldung eine Reihe von zufällig erzeugten Buchstaben aus kleinen Grafik-Dateien ausgelesen und in ein Textfeld eingegeben werden. Diese Aufgabe kann von einem automatisierten System praktisch nicht erfüllt werden. Andere Suchmaschinen akzeptieren nur Anmeldungen, die von bestimmten Formularseiten aus abgesandt worden sind. Noch ein Problem kann sein, dass eine Suchmaschine den Anmeldeprozess oder vielleicht sogar nur die Adresse, wo dieser zu finden ist, ändert. Automatisierte Submit-Dienste und -Software werden dies vielleicht erst verzögert wahrnehmen und bis dahin für die spezielle Suchmaschine eben nicht funktionieren. Manche Submit-Dienste erzeugen übrigens am Ende ein Protokoll, aus dem zu entnehmen ist, wo sie erfolgreich waren, und wo nicht.
7.3
Software
Ein weiteres automatisiertes Verfahren kann der Einsatz spezieller Software sein, die man sich kostenpflichtig aus dem Internet beschaffen kann. Diese kann man sich einmal konfigurieren und anschließend wiederholt einsetzen. Die zu Submit-Diensten genannten Einschränkungen gelten auch hier: 왘 Eine Suchmaschine, die von Eintragsdiensten und -software
nichts wissen will, wird sich dauerhaft dagegen zu schützen wissen. 왘 Änderungen in den Anmeldeformularen und -verfahren der
Suchmaschinen können Submit-Software schnell veralten lassen. 왘 Übertriebener Einsatz kann von Suchmaschinen als Spamde-
xing (siehe unten) und damit letztlich als Missbrauch der Anmeldeoption interpretiert werden. Eine Suchmaschine könnte darauf mit Ausschluss der Website reagieren.
131
7 Die Website bei Suchmaschinen anmelden
7.4
Maschinelles oder manuelles Submitten?
Warum wehren sich einige Suchmaschinen gegen automatisiertes Anmelden? Einer der Hintergründe ist »Spamdexing«: das Überfluten der Suchmaschinen mit einer großen Zahl Anmeldungen in kürzester Zeit. Wie wir schon in Kapitel 4 gesehen haben, wächst die Liste der zu besuchenden Seiten schneller, als ein Roboter sie abarbeiten kann. Dies ist ein Gesetz, dem sich kein Entwickler eines Roboters entziehen kann. Wiederholtes Anmelden in vernünftigen Abständen – vielleicht zwei oder dreimal am Tag – ist sinnvoll und wird auch von den Suchmaschinenbetreibern selbst empfohlen. Submit-Dienste und -Software, die es dem Benutzer einfach machen, Anmeldungen abzusenden, verführen jedoch fast zwangsläufig zu Spamdexing. Wenn nun ein Benutzer innerhalb sehr kurzer Zeit eine große Zahl von Anmeldungen bei derselben Suchmaschine durchführt, wird dieses Ungleichgewicht weiter vergrößert, und nun muss man sich noch vorstellen, was es für eine Suchmaschine bedeutet, wenn das Hunderte oder Tausende Benutzer zur gleichen Zeit machen. Und dazu verführen Submit-Dienste und noch mehr natürlich Submit-Software. Bei Verzeichnisdiensten wie Open Directory Project oder Yahoo ist Spamdexing ohnehin tabu! Hier sitzen Menschen und führen redaktionelle Arbeit aus, denen jede Anmeldung einer Website zugestellt wird. Die Software, mit der sie arbeiten, kennt natürlich ebenfalls Sperrfunktionen, die der Redakteur immer dann einsetzen wird, wenn ihm ein Anmelder »auf die Nerven geht«. Es gibt übrigens einen zweiten, weniger offiziellen Grund, warum sich manche Suchmaschinen gegen automatisierte Anmeldung wehren: Viele Suchmaschinenbetreiber, wie Altavista oder Fireball, betreiben eigene Submit-Dienste und möchten diese Aufgabe einfach selbst übernehmen. Noch etwas sollte erwogen werden: Die Zahl der wirklich wichtigen Suchmaschinen ist eher klein, maximal 10 oder 15 von ihnen haben wirklich Bedeutung. Davon sind vielleicht die Hälfte Verzeichnisdienste, bei denen man sich ohnehin nur einmal anmeldet und dies frühestens eine Woche später wiederholt, falls man bis
132
Die Webagentur als Submitter
dahin nicht in den Index aufgenommen worden ist. Von den anderen Suchmaschinen wird es bei der Hälfte nicht allzu schwer sein, in den Index aufgenommen zu werden. Bleiben noch ein paar wenige richtig schwierige Roboter übrig, darunter wahrscheinlich auch Google. Bei diesen Diensten ist die Anmeldung aber vergleichsweise komfortabel: URL in ein Formularfeld eintragen und absenden. Eine Arbeit von Sekunden. Ob dafür die Kosten für Submit-Dienste und -Software lohnen? Submit-Dienste und -Software sollten also nicht als Werkzeug für Spamdexing missbraucht werden. Als Arbeitshilfe können sie nützlich sein, dagegen sind die Kosten zu rechnen. Adressen einiger Anbieter finden Sie im Anhang. Probieren Sie es einmal aus, um selbst abwägen zu können.
7.5
Die Webagentur als Submitter
Viele Internetprovider und Webagenturen bieten Submitting als Dienstleistung an. Dies kann eine gute Lösung sein, da sie in dieser Arbeit erfahren sind und durch die häufige Wiederholung diese Aufgabe schnell und professionell erledigen können. Es gibt aber auch Probleme, insbesondere den Leistungsnachweis: Niemand kann im Vorfeld eine Garantie darüber abgeben, ob und wann Submitting erfolgreich ist. Für Ihre eigene Website werden Sie die zugehörigen Prozesse in den für Sie interessanten Suchmaschinen so oft wiederholen, bis Ihr URL überall gelistet ist. Dies kann durchaus langwierig und manchmal auch mühselig werden. Und es ist nicht überprüfbar, ob die Agentur sich wirklich die Mühe macht, zumindest im vereinbarten Umfang. Submitting ist hier also auch Vertrauenssache. Oder man rechnet es erfolgsabhängig ab, vereinbart also einen festen Betrag für die erfolgreiche Platzierung in bestimmten Suchmaschinen.
133
7 Die Website bei Suchmaschinen anmelden
7.6
Mehrfache Anmeldung der gleichen Website?
Die meisten Webserver haben eine Default-Startseite definiert, die index.htm, index.html, default.htm oder anders heißen kann, der Administrator des Servers kann hierfür auch eigene Einstellungen vergeben. Wenn ein Benutzer eine Website aufruft, ohne einen Dateinamen anzugeben, wird der Server nachschauen, ob er eine Datei mit diesem Namen hat, und diese dann an den Benutzer senden. Wenn beispielsweise die Website www.abc.de als Startseite »index.htm« hat, erhält der Benutzer bei folgenden Aufrufen dieselbe Datei: http://www.abc.de http://www.abc.de/index.htm Dass bei beiden Aufrufen tatsächlich dieselbe Datei an den Client gesandt wird, ist nur am Server erkennbar. Der Client identifiziert eine Datei anhand Ihres URL, und der ist nun mal unterschiedlich. Was kommt dabei heraus, wenn Sie beide URLs anmelden? Bei einer Start-Datei mit der Bezeichnung »index.htm« wird jede Suchmaschine bemerken, dass es sich um die gleiche Datei handelt. Dies ist einfach der Normalfall, auf den alle Suchmaschinen eingerichtet sind. Sofern Sie einen eigenen Webserver einsetzen, können Sie den Namen der Standardseite verändern. Sie heißt dann nicht mehr »index.htm«, sondern hat einen von Ihnen gewünschten Namen, über den sie zugänglich ist. Sie wird aber auch für den Benutzer, der keinen Seitennamen angibt, erreichbar sein. Beide Adressangaben können dann in den Index übernommen werden. Sie werden vielleicht unterschiedliche Platzierungen haben, vor allem da sie von der Link-Popularität her verschieden sein werden. Vermutlich werden die meisten externen Links auf die Standard-Version zeigen. Bei internen Links haben Sie es selbst in der Hand, auf welche Adresse der Startseite Sie sie legen wollen; es hat Sinn, auch hier die erste Version zu verwenden, so dass sich die Ergebnisse beim Ranking aufaddieren.
134
Mehrfache Anmeldung der gleichen Website?
Der Benutzer sieht nun den ersten URL unter den Top-Platzierungen. Etwas weiter hinten taucht dieselbe Seite dann – mit ausführlichem URL – nochmal auf. Wiederholung kann die Wirkung steigern. Natürlich machen Sie dies nicht mit Verzeichnisdiensten, die von Menschen gepflegt werden. Die Redakteure werden merken, dass es sich um dieselbe Seite handelt, und dies eher negativ auffassen. Auch einige Roboter, zum Beispiel Google, scheinen dies zu merken, zumindest wenn die Startseite »index.htm« heißt. Es gibt oft noch einen weiteren Weg: Wenn Ihr normaler URL www.xyz.de lautet, dann versuchen Sie doch einmal, ob sie auch unter xyz.de erreichbar ist, Sie lassen also das »www.« zu Beginn weg. Ob das funktioniert, hängt davon ab, wie Ihre Site im DNS angemeldet ist, sozusagen dem Telefonbuch im Internet. Wenn es funktioniert, erkennen viele Roboter nicht, dass dies dieselbe Website ist. Auch so können Sie Ihre Site mehrfach anmelden. Seien Sie jedoch immer auf der Hut und übertreiben Sie es nicht, einige Suchmaschinen bemerken es sonst doch, interpretieren es als Betrugsversuch und nehmen infolgedessen Ihre Seiten nicht mehr auf.
135
8
Suchmaschinen steuern
Leider sind Bedienung und Steuerung von Suchmaschinen nicht einheitlich. Im Folgenden sehen Sie eine Übersicht über einzelne Verhaltensweisen – aber auch Aspekte, die im weitesten Sinne allgemeingültig sind.
8.1
Ranking und Relevanz
Wir erinnern uns an die bereits in Kapitel 4 erwähnten Begriffe: 왘 Relevanz: Die Übereinstimmung des Seiteninhalts mit dem
vom Benutzer gesuchten Begriff oder der Begriffskombination 왘 Ranking: Die Bewertung einer Seite aufgrund festgelegter
Maßstäbe, z.B. Link-Popularität Leider wird die Unterscheidung zwischen den beiden in der Fachwelt nicht klar durchgeführt. Selbst in Veröffentlichungen der Suchmaschinenbetreiber finden wir hier gelegentlich eine Begriffsverwirrung; wahrscheinlich haben die eigenen Marketingleute das Prinzip selbst nur teilweise verstanden. Da den Begriffen aber gänzlich andere Konzepte zugrunde liegen und sie miteinander letztlich die Platzierung bestimmen, müssen wir sie klar unterscheiden und unsere Arbeit auf sie einstellen. Top-Platzierung entsteht durch Top-Ranking und Top-Relevanz!
8.2
Relevanzkriterien im Seitentext
Der Benutzer erwartet von einer Suchmaschine Ergebnislisten, die auf Seiten verweisen, bei denen er eine hohe Übereinstimmung mit seinen Suchwörtern findet. Wie schaffen es Suchmaschinen, diese Erwartungen zu befriedigen? 137
8 Suchmaschinen steuern
8.2.1
Fundstellen-Relevanz
Es ist leider nirgends dokumentiert, wie viele Zeichen oder Wörter einer Seite von den einzelnen Suchmaschinen überhaupt gelesen werden, aber alle Suchmaschinen werden diese Anzahl begrenzen. Bei umfangreichen Dokumenten ist sicher, dass Wörter am Ende der Seite nicht mehr gelesen und indiziert werden. Das ist aber noch nicht alles. Viele Suchmaschinen, speziell Roboter, werten zusätzlich aus, wo im Inhalt die Wörter zu finden sind. Sie gehen davon aus, dass Wörter, die weiter oben im Text stehen, eine höhere Relevanz haben als Wörter, die weiter unten stehen, und dass Wörter in hochrangigen Überschriften und Titeln noch genauer mit dem Thema der Seite korrelieren. Wichtige Schlüsselwörter müssen also nach oben in der Seite. Es gibt eine alte Journalistenregel, die auch hier wieder Bedeutung erhält: Fakten nach vorne! Ebenfalls spielt für viele Suchmaschinen eine Rolle, welche Wörter in bestimmten HTML-Tags vorkommen, insbesondere in: xxx ....xxx.... |