Home
deutschenglishfrancais
 
HomeKontakt


Logo MOII
Logo LMZ



emco: deutsch >Know-how >Computer und Internet >Recherche im Internet >Akquisition und Indizierung >

Welche Dienste und Dokumente werden erfaßt?



Akquisition


Um zu wissen, welche Internet-Dokumente von den Suchrobotern erreicht werden, ist es wichtig, die Akquisition der Dokumente näher zu betrachten.

Woher bekommen Suchmaschinen die Adressen der zu holenden Dokumente?

  • "Bekannte" WWW-Seiten (Katalog- / Roboter-Treffer)
    Auch wenn roboterbasierte Suchdienste automatisch das Web erkunden, so ist der Nachweis meistens nur von bekannten und sowieso schon in Katalogen verzeichneten Dokumenten gesichert. Suchmaschinen benutzen oft Kataloge, inzwischen auch andere Suchmaschinen, um Startseiten für die automatische Suche zu bekommen.


  • Vom Benutzer (Add/Submit URL)
    Ansonsten ist bei den Suchdiensten ein manueller Eintrag über die Add/Submit URL-Seiten der Suchmaschinen notwendig. Dabei können oft auch zusätzliche Informationen (Autor, Kommentare, E-Mail-Adresse usw.) angegeben werden.


  • Rekursives Folgen von Links
    Über Kataloge und Benutzereintragungen werden Roboter auf Dokumente "aufmerksam" gemacht, von denen aus dann die Links automatisch weiterverfolgt und in regelmäßigen Abständen aktualisiert werden. Die Tiefe der rekursiven Verfolgung der Links ist von Suchmaschine zu Suchmaschine unterschiedlich. Im Schnitt wird ca. drei Ebenen tief weiterverfolgt.


Welche Dienste können von Suchmaschinen erreicht werden?

  • HTML-Dokumente (HTTP-Protokoll)
    WWW-Seiten sind natürlich die primäre Informationsquelle der Suchmaschinen.


  • Newsgroups
    Einige Suchmaschinen "abonnieren" selbst die wichtigsten und populärsten Newsgroups und ermöglichen die Suche in den aktuellen Postings. Es gibt aber auch schon spezialisierte Suchmaschinen, die nur Newsgroups beinhalten. Die Anzahl der Foren und die zeitliche Abdeckung ist bei spezialisierten Suchmaschinen natürlich weitaus größer. FAQ-Dateien werden ebenfalls über WWW oder FTP indiziert.


  • FTP-Daten
    Immer mehr Suchmaschinen analysieren auch FTP-Verzeichnisse. Die Suche in diesen ist meist auf Pfadnamen und Textdateien eingeschränkt.



Welche Problembereiche gibt es bei den erreichbaren Diensten?

  • WWW-Seiten mit Frames
    Fast keine Suchmaschine verarbeitet Frame-Dokumente außerhalb der Startseite, so dass (Frame-) Dokumente als Treffer nicht in die richtige Kombination mit den anderen Frame-Bereichen gebracht werden können.


  • Dynamische Dokumente
    Die Erfassung von dynamischen Dokumenten, also solchen die von Datenbanken generiert werden, ist oft schwierig, jedoch nicht unmöglich. Abhängig ist das z.B. von der Suchmaschine oder dem so genannten Query String (die URL einer dynamischen Seite enthält typische Zeichenfolgen wie php?).


  • Link-Bilder über CGI
    Suchmaschinen verfolgen keine Verweise in Bildbereichen (Imagemaps).


  • Neu erstellte / aktualisierte Dokumente
    Wie schnell neue oder aktualisierte Seiten erfasst werden, hängt von der Aktualisierungsfrequentierung und der so genannten Index-lag-Zeit ab. Das ist die Zeitspanne zwischen der manuellen Eintragung und der tatsächlichen Analyse einer Seite und deren Speicherung in der Suchmaschinendatenbank (ca. 2 - 4 Wochen!).


  • FTP-Daten
    Indiziert werden hauptsächlich Verzeichnisse und Textdateien.
    Programme, Bilder, Sounddateien usw. können nur über ihren Namen nachgewiesen werden.


  • Newsgroups
    Oft werden nur aktuelle Postings (etwa 14 Tage-Bereich) indiziert.


Welche Bereiche werden von Suchmaschinen nicht erreicht?

  • Nichtverlinkte Dokumente
    Dokumente, auf die kein Link verweist und die auch nicht bei den Suchmaschinen eingetragen werden.


  • Geschützte Dokumente
    Dokumente, die durch Passwort, Registrierung oder eine Firewall geschützt sind.


  • "robots.txt"
    Die meisten Suchmaschinen halten sich an den Roboter-Exclusion-Standard. Eine spezielle Datei (robots.txt) im Serververzeichnis teilt dem Suchroboter mit, welche Serverbereiche er nicht lesen soll.


  • E-Mail
    E-Mail-Adressen können nicht automatisch akquiriert werden.


  • Dateien (außerhalb des WWW-Server-Bereiches)
    Dateien, die über WWW-Browser mit "file:" erreichbar sind, können von den Suchmaschinen nicht erreicht werden.



Indizierung


Das Angebot von Suchmethoden und -operatoren ist in erster Linie von der Indizierung und der daraus resultierenden Datenbank abhängig. Dabei sind sowohl Analysemethoden als auch der Umfang der Indizierung der einzelnen WWW-Seiten von großer Bedeutung. Zur Dokumentenanalyse werden von den verschiedenen Suchmaschinen diverse Methoden eingesetzt:

  • Wortextraktion mit mehrsprachigen Stoppwortlisten (Füllwörter wie: und, der, die, das)


  • Position der Wörter


  • Funktion der Wörter (URL, Titel, Überschrift, Link usw.)


  • HTML-Elemente (Dateinamen von Bildern, Javaapplets, Kommentare, unbekannte Elemente, die nicht vom Browser angezeigt werden usw.)


  • Mathematische Verfahren zur Berechnung von Dokumentähnlichkeiten


Auch im Umfang werden verschiedene Strategien verfolgt:

  • Volltext
    Bei den meisten Suchmaschinen werden alle "relevanten" Begriffe (Mehrsprachige Stoppwortlisten) indiziert.


  • Teilindex
    Suchmaschinen mit einem Teilindex indizieren meistens URL, Titel (TITLE-Tag) und Überschriften (Hx-Tags).


  • META-Tag
    Spezielles HTML-Element, über das der Autor oder die Autorin eines Dokuments selbst Deskriptoren und Zusatzinformationen zum Dokument übergeben kann. Wenn eine Suchmaschine META-Tags unterstützt, analysiert sie eine Seite nicht selbst, sondern übernimmt die Informationen aus dem META-Tag.


  • Kommentare, Deskriptoren
    und zusätzliche Angaben, die bei der Eintragung des Dokuments angegeben werden.


Autor: Andreas Konitzer. © Andreas Konitzer 2003.

Weiter zu: Anfragebearbeitung und Aktualisierung

Drucken
nach oben


 


Projektplattform
Besuchen Sie die Projekt-Plattform des European MediaCulture-Online Projekts (Emac-Projekte)


Highlights

Special
Multimediales Unterrichtsmaterial zum Dokumentarfilm "Sold Out" beschäftigt sich mit den Themen Emigration, Rassismus und Menschenrechte.
Mehr...

Bibliothek
Hans Dieter Kübler betrachtet in diesem Beitrag verschiedene Kontexte, in denen das Thema "Ätere Menschen und Medien" derzeit diskutiert wird: Ältere als kaufkräftige Konsumenten, die Präsenz Älterer in den Medien und gesellschaftliche Partizipationsmöglichkeiten Älterer über das Internet.
Mehr...

Know-how
Die Einheit "Mehrsprachige Medienarbeit mit Kindern" bietet Module zur Umsetztung von Medienprojekten mit Kindern verschiedener Herkunft an und stellt laufende Projekte und Beispiele aus der Praxis vor. Die Module enthalten konkrete Handlungsanleitungen und Anregungen für eigene Aktivitäten.
Mehr...