European Medi@Culture-Online http://www.european-mediaculture.org

Auteurs: Belleil, Claude.

Titre: Introduction à Internet.

Source: http://www.sc-eco.univ-nantes.fr/publications/pub/Claude_Belleil/Toutes_Sections/Elements_de_Travaux_Diriges/internet.PDF [10.03.04]

La publication est faite avec l'aimable autorisation de l'auteur.



Claude Belleil

Introduction à Internet

1. Internet1

1.1. Introduction

Internet est un réseau de réseaux, ou méta-réseau. L'idée est en effet de relier tous les utilisateurs de matériels informatiques au niveau mondial. Comme il n'y a aucune standardisation des logiciel et des réseaux, il faut donner un moyen à cet ensemble hétérogène de communiquer de manière homogène. Il suffit que tout le monde se mette d'accord ...

Une des bases de la communication à l'échelle de la planète consiste à utiliser des protocoles standards pour toute une série d'opérations. C'est à partir de ces standards que les applications peuvent être mises à la disposition de l'ensemble des utilisateurs.

Une fois la technologie disponible, il y a un deuxième volet tout aussi important : l'infrastructure. Il faut qu'un nombre suffisant de personnes et d'organisations investissent dans la technologie. C'est l'engouement des utilisateurs qui fait que le nombre de machines connectées augmente de manière exponentielle. Et c'est logique ; plus il y a de monde, plus il y a de services et d'informations disponibles. Plus il y a de services, plus c'est intéressant pour les utilisateurs, qui à la fin ne peuvent pas se permettre d'être en dehors du mouvement. Aujourd'hui, aucun scientifique ne peut ignorer cet outil.

1.2. Historique

Voilà déjà plus de quarante ans que l'on connecte des ordinateurs et plus de trente ans que l'on parle de réseaux. Ils ont été créés, en général afin d'accéder à des ordinateurs à distance. Mais ces réseaux étaient limités à leurs propres clients, c'est-à-dire les utilisateurs d'un centre de calcul. On a l'habitude d'attribuer à arpeNet le droit d'être considéré comme l'ancêtre direct de l'Internet actuel. Cela remonte à plus de vingt ans.

ArpaNet était un réseau de connexion entre de nombreuses universités américaines, créé par des universitaires sur un budget de recherche du département de la défense. C'est donc un budget militaire qui est à l'origine de ce réseau. Après la fin de la période de soutien des militaires, les universités ont souhaité conserver en l'installant sur une autre base. Aujourd'hui l'infrastructure existe sur une base purement économique. Pourquoi a-t-il fallu si longtemps pour passer d'Arpanet, qui était déjà à l'échelle d'un continent, à l'engouement actuel pour l'Internet? La réponse tient dans le cycle classique d'installation d'une technologie. Au début, il y avait peu de services et un ensemble d'utilisateurs homogènes. Les universitaires voulaient un courrier électronique, s'envoyer des fichiers ou accéder à des ordinateurs à distance. Le parc des machines était homogène. Pour attirer le grand public, il faut des services variés, d'accès facile. Mais ces services, avec les interfaces, ne sont justifiés économiquement que si le marché existe.



2. Les principaux composants

L'Internet est un ensemble d'ordinateurs et de réseaux, reliés par des connections de toutes sortes, dans des architectures variées. L'essentiel est que n'importe quel ordinateur connecté puisse communiquer avec n'importe quel autre ordinateur connecté, quelles que soient les particularités des machines ou de leurs réseaux locaux spécifiques.

Une première nécessité est de disposer d'un système d'adressage qui identifie de manière non ambiguë l'ordinateur avec lequel on veut communiquer. Quand on met une lettre à la poste, l'information sur l'enveloppe, l'adresse, doit permettre un cheminement vers une cible unique, qui est la personne ou l'organisation à qui la lettre est destinée. Pour la communication sur Internet, le principe est le même. En ce qui concerne les utilisateurs, il y a en réalité deux adresses. La première est l'adresse IP (Internet Protocol). C'est un entier à quatre champs, représentés par quatre octets, qui identifie de façon unique chaque ordinateur connu du monde extérieur. Ces numéros sont donnés par une organisation spécialisée, l'IANA (Internet Assigned Number and naming Authority). Quand on parle du monde extérieur, ceci sous-entend qu'il y a des ordinateurs connectés qui n'ont pas de numéro IP. On peut identifier un ordinateur, par son numéro IP, qui est la tête d'un réseau interne. Ce sera le seul ordinateur connu de l'extérieur. Les ordinateurs non identifiés du réseau interne peuvent travailler à travers la tête de réseau identifié. Ainsi, tout message pour un ordinateur anonyme arrivera sur la tête de réseau. Au réseau interne de se débrouiller par la suite. Le deuxième type d'adresse est un peu plus lisible: belleil@sc-eco.univ-nantes.fr

C'est l'adresse qui figure sur l'enveloppe électronique quand une autre personne veut envoyer un message par courrier électronique. Cette forme a l'avantage d'indiquer un routage. La dernière partie, "fr", est le pays. Le message arrive donc dans l'ordinateur assurant le tri au niveau de la France. Celui-ci connaît l'endroit "univnantes". Quand le serveur de l'Université de Nantes reçoit le message, il le fait suivre vers le serveur de l'IRIN, qui connaît le nom de la personne. On verra le rapport entre ces deux systèmes d'adressage plus loin. Dans le paragraphe précédent, le choix du mot "serveur" ne relevait pas du hasard. Un serveur est un ordinateur qui offre un service. Dans le cadre de la transmission de messages à des adresses, les serveurs rendent les services d'un centre de tri. Celui qui envoie le message est un client par rapport à ce service de tri, comme celui qui envoie une lettre est un client de la Poste. L'INTERNET devient intéressant quand on dispose d'un ensemble conséquent de services. Plus il y a de services offerts, plus il y a de clients. On a déjà vu cela en France avec le minitel. On peut considérer la relation client/serveur comme la base du système. Pour le reste il ne s'agit que de mise en œuvre. On verra quelques exemples de services dans la suite de cette introduction. Notons qu'un même ordinateur peut fonctionner comme client ou comme serveur, suivant les commandes émises. Adopter le mode client/serveur et affecter des adresses IP à tout le monde ne suffit pas pour faire marcher un réseau mondial. Il faut que les différentes institutions concernées adoptent des protocoles communs en ce qui concerne le réseau de transmission. On peut adopter le protocole standard du réseau, ou utiliser une passerelle afin de communiquer avec lui. En fin de compte, les informations circulent sous l'égide du protocole TCP/IP. TCP (Transmission Control Protocol) est complémentaire à IP et assure un service de communication.

Le client ordinaire (particulier ou entreprise de taille limitée), s'abonne à un serveur de réseau qui s'occupe de tout le côté technique. Le client se connecte à son serveur, en général par ligne téléphonique à travers un modem. Il dispose de logiciels génériques qui permettent d'accéder aux différents services proposés dans le monde entier. Ces logiciels génériques font partie de l'ensemble des outils indispensables à la bonne marche du système. On en examinera quelques-uns par la suite.



2.1. Le réseau universitaire français

Pour le particulier, comme pour une entreprise classique, la communication vers le monde extérieur passe en général par un fournisseur de transport. Selon la réglementation en vigueur dans chaque pays, ce fournisseur peut être la compagnie nationale de télécommunications (Télécom) ou un transporteur indépendant. Que le support soit sous la forme d'une ligne téléphonique banalisée, de lignes dédiées, de communication par satellite, etc. Le service est payant!

Pour éviter que les notes de téléphone ne dépassent le montant du budget de fonctionnement des universités, et surtout pour leur permettre d'utiliser les outils les plus performants de recherche dans des conditions acceptables, un réseau universitaire spécifique a été créé en France. Pour les mêmes raisons, il existe des infrastructures analogues dans les autres pays comparables. Ce réseau comporte plusieurs niveaux différents.

Le GIP RENATER (REseau NAtional de la Technologie, de l'Enseignement et de la Recherche), financé par plusieurs ministères, avec celui de l'Education Nationale comme partenaire principale, gère ce que l'on pourrait appeler le système autoroutier. Un ensemble de lignes dédiées de grande capacité relient les principaux centres de l'enseignement supérieur et de la recherche sur le territoire. RENATER s'arrête à la porte des villes. Par exemple, Nantes est relié à Paris par un fil de 2 Mo./sec2.

Mais RENATER n'assure pas les liaisons entre le point d'arrivée de ce fil et les ordinateurs des utilisateurs. Son coût a néanmoins été de plusieurs centaines de millions de francs pour la première mise en œuvre. On peut trouver plus de détails concernant RENATER sur le serveur de l'UREC (http://web.urec.fr/Renater/). En fait, RENATER relie ce que l'on appelle les plaques régionales. Les plaques régionales sont des réseaux de deuxième niveaux servant, comme leur nom l'indique, l'intérieur d'une région. Le réseau OR (Ouest Recherche) dessert les régions Bretagne et Pays de la Loire. D'autres plaques régionales desservent, par exemple, l'Ile de France, la région Toulousaine ou la Lorraine. RENATER offre également des passerelles vers les autres pays de l'Europe et vers les Etats-Unis Le réseau OR commence où s'arrête RENATER. Il relie tous les campus dans les deux régions, ce qui en a fait, à ses origines, la plus grande plaque régionale, rattrapée depuis par la plaque de la région parisienne (on s'en douterait). OR a été financé par les collectivités locales, avec une mise en œuvre par France Télécom. La note est également élevée : plus d'un million de francs pour la première période de quatre ou cinq ans.

Le réseau OR amène les fils sur chaque campus. Pour être plus précis, il fournit une borne, à laquelle peuvent se relier les ordinateurs du campus. Mais la responsabilité d'OR s'arrête à la borne. C'est l'affaire de l'Université, de ses UFR et/ou de ses laboratoires de financer les liaisons avec la borne. Et l'architecture se poursuit de nouveau au niveau du campus. Sur la Faculté des Sciences et des Techniques, des fibres optiques, relient les différents bâtiments. Pour être plus exact, il relie la borne OR à un ordinateur spécialisé, appelé parfois un routeur, installé dans le bâtiment. Ce routeur sert de tête de réseau pour le réseau local (ou les réseaux locaux) du bâtiment. Le réseau local dépend d'un laboratoire, d'un département ou d'un groupement. Cette organisation de réseaux, avec des niveaux appartenant à différents intervenants, est typique d'une architecture dans n'importe quel pays ou organisation.



2.2. Les applications classiques

Pour les utilisateurs d'ARPANET, l'essentiel du travail s'organisait autour de trois types d'applications:

Ces applications ont rendu de bons services, elles ont en commun la nécessité de posséder des connaissances en informatique, au moins pour les deux dernières. Le courrier électronique est pratique à deux niveaux: sur un réseau local ou à l'intérieur d'une communauté bien définie. Dans les laboratoires d'informatique, son utilisation sur réseau local diminue la quantité de papier, les temps de réponse et permet d'éviter certaines réunions (on peut "voter" électroniquement). L'accès aux ordinateurs à distance se pratique depuis trente ans. Il s'agit, par exemple, pour les physiciens, de pouvoir faire du calcul sur un CRAY3 à Paris sans manipulation particulière. Il suffit de savoir utiliser l'ordinateur en question.



2.3. Les applications grande échelle



Pour que le réseau mondial décolle de sa situation d'outil professionnel, essentiellement universitaire, il a fallu élargir la gamme de services et de logiciels et mettre la technologie à la disposition de budgets moyens. Comme avec le minitel, l'offre doit s'élargir. Nous sommes actuellement en pleine explosion. Les services existent. Des nouveaux clients les découvrent tous les jours. Le nombre d'abonnés augmentent de façon exponentielle. On parle de dizaines de millions d'ordinateurs pouvant se connecter, mais les estimations sont très variables et les chiffres changent très vite.

L'apprentissage de ces techniques est essentielle pour les étudiants. Il s'agit d'abord de les aider dans leurs études ou leurs recherches, mais de façon indirecte, les compétences acquises dans ce domaine constitueront un atout vis à vis des entreprises. L'importance des applications récentes d'Internet réside dans ses capacités de recherche documentaire. C'est la plus grande bibliothèque du monde mise à la disposition des utilisateurs, avec des outils sophistiqués permettant de retrouver facilement les informations que l'on cherche. Parmi les opérations normales, se trouvent les suivantes:

Quelle que soit la profession envisagée, les moyens électroniques constituent l'outil dominant de la communication. Ces applications trouvent maintenant toute leur puissance parce que la masse critique est largement dépassée. Chacun devient client des autres et serveur pour eux. L'époque client/serveur est bien ouverte.



2.4. Les outils

Que faut-il maîtriser afin de profiter des possibilités offertes? Pour accéder à ce qu'offrent les autres sites, l'outil principal est un "browser"4. C'est une interface permettant de se déplacer (surfer) entre différentes sites.Pour passer d'un site à un autre, on suit des références, souvent en cliquant sur des pointeurs. C'est la même technique que celle des hypertextes, connu depuis longtemps et popularisé par Hypercard sur les Macintosh.







Pour préparer ses propres pages, on a besoin de savoir les mettre en forme. Il y a plusieurs niveaux. Pour des opérations simples de mise en page avec des liens, on utilise un logiciel permettant de créer du texte HTML (HyperText Markup Language). Pour des opérations plus complexes, le langage JAVA est actuellement dominant sur le marché. C'est un langage de programmation de type C++ qui comporte des outils de manipulation spécifiques pour ce travail.



3. Messagerie Electronique

3.1. Présentation du service de messagerie électronique

La messagerie électronique, aussi appelée "electronic-mail" ou "e-mail"5 est l'outil le plus répandu sur Internet, que ce soit pour les entreprises ou les particuliers. C'est un service gratuit qui constitue un moyen de communication privilégié entre des personnes distantes. Le principe est similaire à celui du courrier postal : il suffit de disposer d'une adresse électronique (ex : dupont@irin.univ-nantes.fr), ainsi que d'un programme de messagerie sur un ordinateur connecté à Internet, pour pouvoir diffuser rapidement des messages. Lorsque le courrier est arrivé à destination, le correspondant peut le lire via son propre programme de messagerie. Ainsi, il n'est pas nécessaire que celui-ci soit disponible au moment de la communication. Sauf cas exceptionnel, le message envoyé arrive à bon port. Toutefois, comme dans le service postal usuel, celui-ci peut être intercepté par une personne indiscrète.



3.1.1. Principe de fonctionnement de la messagerie

La messagerie électronique n'est pas un service "point à point", ce qui signifie que les machines émettrices et réceptrices des messages n'ont pas besoin d'être reliées ensemble directement pour pouvoir communiquer. Les messages sont transmis d'une machine à l'autre à travers le réseau Internet jusqu'à leur destination finale. On parle parfois de système "enregistre et fait suivre", analogue à celui de la Poste : une lettre à acheminer est placée dans une boite postale. Cette boite est relevée par un agent de la Poste, la lettre étant alors envoyée par camion à un centre de tri, où elle est ensuite redirigée vers un autre centre de tri. Cette étape est répétée jusqu'à ce que la lettre parvienne à sa destination finale, c'est à dire la boite aux lettres du correspondant. Le principe est le même pour la messagerie électronique : chacun des correspondants doit disposer d'une boite aux lettres située sur une machine, appelée agent de messagerie, connectée au réseau Internet et chargée de prendre en charge le courrier du correspondant. Prendre en charge le courrier signifie envoyer les courriers sur le réseau vers leurs destinataires, ou les réceptionner. La machine jouant le rôle d'agent de messagerie d'un correspondant peut être :



3.1.2. Le protocole SMTP

Le protocole SMTP (Simple Mail Transport Protocol) regroupe un ensemble de règles concernant le transport du courrier électronique sur le réseau Internet. Ce protocole met en communication deux serveurs de messagerie : celui de l'expéditeur et celui du récepteur. Il spécifie le format des adresses des utilisateurs, les champs des courriers, les possibilités d'envois groupés, la gestion des heures, etc.



3.1.3. Le protocole POP

Le protocole POP (Post Office Protocol) a été conçu pour permettre la récupération du courrier se trouvant sur une machine distante (serveur de messagerie), et la transmission du courrier au serveur de messagerie avant son acheminement dans le réseau.



3.1.4. Adresse électronique

Pour pouvoir émettre et recevoir des courriers électroniques, la première condition est de connaître l'adresse électronique du correspondant et de posséder sa propre adresse. Une adresse électronique, aussi appelée "e-mail address", se présente sous la forme suivante : nom@domaine

Elle est composée de deux parties distinctes séparées par le signe @. La partie nom précédant ce signe désigne le nom de la boite aux lettres, qui correspond en général au nom personnel de son possesseur. La partie domaine postérieure au signe correspond au nom de la machine jouant le rôle de serveur de messagerie.

Exemples d'adresses électroniques :

belleil@irin.univ-nantes.fr,

king@ntw.com,

president@whitehouse.gov

Il n'existe pas d'annuaire national d'adresses électroniques. Cependant il existe quelques serveurs spécialisés qui permettent de retrouver l'adresse d'une personne. On les appelle serveurs de pages blanches (http://www.french.whowhere.com) parce qu'ils fournissent l'équivalent électronique de l'annuaire téléphonique des Pages Blanches. Mais le moyen le plus facile d'acquérir des adresses est encore la voie directe : une carte de visite, un appel téléphonique, une lettre postale, un courrier électronique ou un article dans un groupe de News.



3.2. Le courrier électronique

3.2.1. Format général d'un message

Un message électronique se présente sous la forme suivante :

X-Sender: dupont@irin.univ-nantes.fr

Date: Thu, 30 Jan 1997 11:30:35 +0000

To: GillesM@world-net.sct.fr

From: Jacques.Dupont@irin.univ-nantes.fr (Jacques Dupont)

Subject: Invitation a diner

Jacques,

Marlene me pousse a t'inviter ce soir a la maison, tu dois lui avoir

tape dans l'oeil ;-).

Est-ce qu'on ajoute de l'eau dans la soupe ?

Salut

Yves.



La première ligne contient l'adresse électronique de l'émetteur du courrier, dans le champ X-Sender:.

La deuxième ligne donne la date de début de composition du courrier, dans le champ Date:. Il est parfois intéressant de connaître l'heure de début de composition, plutôt que la date d'expédition.

La troisième ligne indique l'adresse électronique du destinataire du courrier, dans le champ To:.

La quatrième ligne indique les coordonnées réelles de l'émetteur du message, dans le champ From:. Le contenu de ce dernier champ n'est pas forcément le même que celui du champ X-Sender:. En effet, les adresses électroniques réelles sont parfois légèrement différentes de celles qui sont utilisées. Par exemple, parce que l'adresse réelle ne comprend pas de majuscule, alors que l'adresse communiquée en comprend.

La cinquième ligne contient le sujet du message dans le champ Subject:. Celui-ci apparaît dans la liste des courriers, lors de leur rapatriement.

En fonction du logiciel de messagerie utilisé, il arrive qu'un message contienne également un champ Message-ID:, contenant un numéro garantissant une signature d'unicité du message. L'expéditeur trouve dans son logiciel de courrier un champ Cc: (copie carbone), utilisé pour spécifier une éventuelle liste d'utilisateurs auxquels une copie du message doit également être envoyée. Dans cette liste de destinataires, chaque adresse est séparée d'une autre par une virgule.

Dans le même ordre d'idée, un champ Bcc: (copie carbone aveugle) permet de donner une liste de destinataires, mais à l'inverse du champ Cc: chacun d'entre eux n'aura pas connaissance de la liste des autres destinataires du message. On trouve également un champ Attachment: dans lequel l'expéditeur peut donner un ou plusieurs noms de fichiers qui seront expédiés en même temps que le message. Ceci permet de transmettre, via la messagerie électronique, un programme, un message sonore, une séquence vidéo, des images, etc.

Il existe un champ Reply-to: permettant de donner l'adresse de la personne à laquelle une réponse au message sera envoyée. Si ce champ est vide (valeur par défaut), c'est l'expéditeur du message lui-même qui recevra la réponse. Le dernier champ s'étalant sur plusieurs lignes est en fait le corps du message. Il est obligatoire que ce champ soit en caractères ASCII, et il est recommandé qu'il ne comporte pas de caractères accentués. Pour utiliser ceux-ci, il est nécessaire de :



Certains des champs énumérés ci-dessus, tels que From:, X-Sender:, Message-ID: et Date:, sont remplis directement par le logiciel de messagerie. D'autres doivent l'être par l'expéditeur du message.

Il arrive parfois, lorsque l'expéditeur ne dispose pas d'un logiciel de messagerie avec l'option d'attachement (champ Attachment:), que le corps du message soit utilisé pour envoyer un fichier non codé en ASCII. Dans ce cas, il est nécessaire de :

Il arrive également que les serveurs de courrier électronique décomposent un gros message en plusieurs parties. Ainsi, le message reçu est sous la forme d'un fichier éclaté : doc1/1, doc1/2, doc1/3, et doit être préalablement recomposé en un fichier unique avant d'être lu.

Lorsqu'un message est envoyé à un destinataire dont l'adresse électronique est erronée (domaine non valide ou personne inconnue dans le domaine), le serveur de courrier renvoie le courrier, ainsi que la raison de l'impossibilité d'acheminement:

Return-Path: <maurel@balzac.univ-tours.fr>

Received: from ronsar.univ-tours.fr by narech (5.x/SMI-SVR4)

id AA07482; Tue, 21 Oct 1997 17:21:13 +0100

Received: from TC324.iut.univ-tours.fr (tc324.iut.univ-tours.fr [193.52.210.18]) by ronsar.univ-tours.fr

(8.6.9/8.6.9) with SMTP id SAA04586 for <belleil@irin.univ-nantes.fr>; Tue, 21 Oct 1997 18:21:36

+0100

Message-Id: <1.5.4.32.19971021162143.00676bb8@balzac.univ-tours.fr>

X-Sender: maurel@balzac.univ-tours.fr

X-Mailer: Windows Eudora Light Version 1.5.4 (32)

Mime-Version: 1.0

Date: Tue, 21 Oct 1997 17:21:43 +0100

To: belleil@irin.univ-nantes.fr

From: Mail Delivery Subsystem <MAILER-DAEMON@ronsar.univ-tours.fr> (by way of Denis MAUREL <maurel@balzac.univ-tours.fr>)





3.2.2. Conseils d'écriture des messages

Si votre correspondance est abondante, vous lirez de nombreux messages qui n'auraient jamais du être envoyés, et que l'expéditeur regrette sans doute. Pour éviter de faire de telles erreurs, il est nécessaire d'acquérir une certaine "étiquette" pour le courrier électronique. Se créer de bonnes habitudes dès le début peut vous éviter plus tard de gros ennuis. Voici quelques conseils :



:-) exprime la joie,

;-) permet d'adresser un clin d'oeil,

:-( exprime le mécontentement,

:-< peut être mis pour indiquer la tristesse,

:-o exprime la surprise, l'étonnement,

8-) signifie que le correspondant porte des lunettes,

etc



3.2.3. Logiciels de messagerie électronique (fonctionnalités de base).

Il existe différents logiciels de messagerie électronique, et le choix de l'un d'entre eux doit se faire en fonction des besoins, ainsi que des fonctionnalités qu'ils offrent et de leur ergonomie. Il est impossible de donner la liste de tous les logiciels existant pour l'ensemble des plateformes, mais nous pouvons en citer trois parmi les plus répandus : le Mailx d'Unix, Eudora (Macintosh et PC) et Pine (Unix). Les fonctionnalités offertes diffèrent d'un logiciel à l'autre, toutefois chacun d'entre eux permet les manipulations de base telles que :

Une brève présentation de chacune de ces notions est donnée ci-dessous.



3.2.3.1. La réponse directe

La fonction de réponse directe est un raccourci pour indiquer au logiciel que vous voulez envoyer une réponse à un message que vous avez reçu d'un correspondant. Typiquement, le logiciel copie le champ From: du message original dans le champ To: du message de réponse. Pour créer la nouvelle ligne Subject:, le logiciel recopie le sujet original précédé du mot Re:, indiquant qu'il s'agit d'une réponse au message précédent.



3.2.3.2. Les surnoms

La définition d'alias permet de donner des surnoms aux personnes avec lesquelles vous communiquez. L'alias d'une personne est alors utilisé en remplacement de son adresse électronique, vous évitant ainsi de taper l'adresse complète. Par exemple, jacquot peut être utilisé comme alias pour la personne dont l'adresse est : Jacques.Dupont@irin.univ-nantes.fr.

Le logiciel de messagerie gère ces alias, et doit être capable de retrouver une adresse à partir de son alias.



3.2.3.3. Les listes de diffusions

Avec le courrier électronique, envoyer un message à un groupe de personnes n'est pas plus difficile que d'envoyer un message à une seule personne. On appelle ceci une liste de diffusion, ou mailing list. Elle permet d'associer un alias, non plus à une seule personne mais à un groupe de personnes. Par exemple, l'alias staff peut être défini comme regroupant l'ensemble de tous les employés. Quand un courrier est envoyé à l'adresse staff, celui-ci est délivré à chacun des employés.



3.2.3.4. Les classeurs

Les classeurs, ou folders, permettent de sauvegarder des messages de façon organisée. Par exemple, vous pouvez avoir un classeur pour des messages liés à des projets vous concernant, et un autre pour conserver des messages plus personnels. Dès qu'un message vous parvient, vous pouvez le ranger dans le classeur approprié pour vous y référer plus tard.



3.2.3.5. Les copies carbones

Tous les logiciels de messagerie autorisent le remplissage du champ To: avec une liste d'adresses. Il est souvent utile de différencier les personnes à qui le message est primitivement destiné de celles qui le reçoivent pour information. Pour cela, le logiciel prévoit une ligne spéciale commençant par Cc: (Carbon Copy) pouvant contenir une liste d'adresses. Toute personne listée sur cette ligne recevra une copie du message, c'est à dire une copie carbone. Ce champ a donc la même signification que la ligne copie: des lettres d'affaires. Dans le même ordre d'idée, le champ Bcc: (Blind Carbon Copy) a la même fonction que Cc: à la seule différence qu'aucun destinataire du message n'a connaissance des autres personnes ayant reçu une copie du message. On parle alors de copie carbone aveugle.



3.2.3.6. Les fichiers signatures

Les fichiers de signature sont un moyen d'ajouter des informations supplémentaires dans les courriers. Ils sont souvent utilisés pour indiquer la fonction de l'expéditeur du message, ainsi que les différents moyens de le contacter (téléphone, fax, adresses électroniques et postales, etc). Voici un exemple de fichier signature :

***********************************************

Claude Belleil

Faculté de Sciences Economiques et de Gestion

110 Boulevard Michelet

44 071 Nantes Cedex 0

France

IRIN

Institut de Recherche en Informatique de Nantes

Université de Nantes

2, rue de la Houssiniere

44 072 Nantes cedex 02

France

E-Mail belleil@irin.univ-nantes.fr

belleil@sc-eco.univ-nantes.fr

************************************************

Le logiciel de messagerie inclut ce fichier à la fin de chaque message, sur demande de l'utilisateur.



3.2.3.7. Les attachement de documents

Il est possible d'envoyer un ou plusieurs fichiers à la suite d'un message, en précisant le nom de celui-ci dans le champ Attachment:. Lorsque le destinataire reçoit le message, le logiciel lui demande où doit être sauvegardé le fichier. Le format d'un fichier peut être ASCII ou binaire. Dans ce dernier cas, il est nécessaire d'effectuer un encodage préalable du fichier sous forme ASCII, la transmission d'un fichier ne pouvant s'effectuer que sous cette forme. Différents logiciels effectuent cet encodage, comme par exemple uuencode (Unix) ou encore Wincode (PC). Néanmoins, les logiciels de messagerie supportant la méthode MIME (Multi-purpose Internet Mail Extension) permettent d'éviter cet encodage préalable. En effet, MIME (http://wwwchimie.u-strasbg.fr/membres/GB/MIME.html) est une méthode d'envoi automatique d'objets autres que du texte dans les messages électroniques. Même si les deux correspondants utilisent des logiciels de messageries différents, il suffit qu'ils soient compatibles avec MIME pour échanger n'importe quel type d'objet. MIME autorise en général l'attachement de plusieurs types de fichiers : images, sons numérisés, films, etc.



3.3. Listes de distribution

3.3.1. Description

Une façon très naturelle de trouver de l'information est de s'adresser à des personnes qui partagent vos préoccupations. Vous pouvez alors leur poser une question ou prendre connaissance des renseignements qu'elles délivrent périodiquement. Les possibilités offertes par le mécanisme de distribution du courrier électronique ont donné naissance aux listes de distribution, parfois aussi appelées listes de discussions, ou tout simplement listes. Une liste est consacrée à un thème particulier (cuisine, cinéma, jazz, etc.) et remplit en fait la fonction d'un grand tableau noir, sur lequel chaque personne accédant à la liste écrit ses messages, pour poser une question ou diffuser des informations sur ce thème. Pour participer à une liste de discussion, il n'est pas nécessaire de connaître explicitement vos correspondants, il suffit de vous abonner à cette liste en envoyant un message spécial au serveur chargé de la gestion de la liste. Lorsque vous avez un problème, vous pouvez envoyer un message à la liste correspondante, pour solliciter l'aide des autres abonnés. Chacun d'entre eux reçoit alors, via le courrier électronique, une copie de ce message qu'ils peuvent lire et auquel ils peuvent éventuellement répondre. De la même façon, chaque fois qu'un abonné envoie un message à la liste, vous en recevez une copie dans votre boite aux lettres. Vous êtes alors libre d'y répondre ou pas. En pratique, un serveur gère la liste et assure la distribution des copies des messages à tous les abonnés, c'est à dire à ceux qui ont demandé à faire partie de la liste. Le principal inconvénient des listes de discussions est que vous risquez de recevoir constamment des messages qui ne vous intéressent pas réellement, et qui sont mélangés à votre courrier personnel. Outre le temps passé à faire le tri de ces messages, la place occupée par ce courrier pose vite un problème. Si vous souhaitez disposer des facilités de ces listes, nous vous conseillons plutôt d'avoir recours aux News (voir §IV).



3.3.2. Inscription et utilisation

Pour s'inscrire sur une liste de diffusion, il suffit d'envoyer un message à une adresse spéciale, correspondant au serveur s'occupant de la gestion de la liste de diffusion, par exemple : listserv@sciences.univ-nantes.fr. Le message, généralement sans titre, comporte une seule ligne ayant la forme suivante :

SUBSCRIBE nom_de_la_liste nom_et_prénom_abonné

SUBSCRIBE est un mot réservé, nom_de_la_liste est le nom de la liste laquelle vous désirer vous inscrire, et nom_et_prénom_abonné est le nom du nouvel abonné.

L'ordinateur chargé de gérer la liste récupère votre adresse électronique directement à partir de l'en-tete du message. Une fois votre souscription effectuée et confirmée par un message de la part de l'ordinateur gestionnaire, vous recevrez une copie de tous les messages (excepté les messages d'inscription et d'autres messages spéciaux énumérés ci-dessous) envoyés à la liste par ses abonnés. Vous pouvez obtenir des informations sur la ou les liste(s) gérées par l'ordinateur en envoyant les différents messages énumérés ci-dessous :

Pour poster un message à une liste de diffusion à laquelle vous êtes abonné, il suffit d'envoyer ce message à l'adresse suivante : nom_de_la_liste@sciences.univ-nantes.fr. Par exemple, si la liste gérée par l'ordinateur sciences.univ-nantes.fr est recettes_cuisine, alors votre message aura la forme suivante :

To: recettes_cuisine@sciences.univ-nantes.fr

Subject: Conseil culinaire

Quelqu'un connaitrait-il la recette du gloubiboulga ??

Merci de repondre rapidement.

M. Dupont

Ce message est alors distribué par le serveur à tous les adhérents de la liste, qui pourront vous répondre, soit personnellement, soit par l'intermédiaire de la liste. Un bouquet des listes de diffusion francophones est disponible sur le site suivant :

http://www.univ-rennes1.fr/LISTES/francophone.html.



4. World Wide Web



4.1. Historique

La définition officielle de W3 est : Wide-area hypermedia information retrivial initiative aiming to give universal acces to a large univers of documents (http://www.ensmp.fr/intro_www.html).

C'est un projet du CERN (http://www.cern.ch/) qui est à l'origine du World Wide Web.

L'objectif était de simplifier les accès à différents services d'Internet. Le principe de base retenu a été l'hypertexte. Permettant un accès facile à un grand nombre de ressources et de documents, le World Wide Web a connu un vif succès auprès de toute la communauté scientifique puis auprès des industriels et du grand public. Si les documents accessibles étaient initialement principalement textuels, depuis sa création, le WWW s'est enrichi et permet maintenant un accès à des documents hypermédia.



4.2. Principes de base



4.2.1. Hypertexte et Hypermédia

Un document hypertexte se différencie d'un simple document texte par le mode de navigation qu'il permet. Les moyens de navigation dans un document texte sont la lecture séquentielle, l'accès à une page donnée via une table des matières, un index ou une table des figures, etc.

L'outil informatique permet d'enrichir la navigation d'un mode plus dynamique impossible à mettre en oeuvre sur un support papier. Un mot, une image ou une partie d'image, peut cacher une ancre qui permet d'accéder directement à une partie précise du document et/ou à une partie d'un autre document. Le mot ainsi ancré est souvent repéré grâce à une présentation spéciale (souvent une couleur). Un simple "clic" de la souris sur ce mot permet alors de positionner le curseur de lecture directement à l'endroit voulu. C'est un peu comme si un livre s'ouvrait directement à la page concernée. Ce type d'ancrage peu s'utiliser dans une table des matières, un indexe, une table des figures mais également dans le corps du document (i.e. dans un paragraphe, une phrase, etc.). Qui plus est, comme l'ancre peut faire référenceà une partie du document lui même et/ou à un autre document du site ou d'un site distant, le résultat est une sorte de gigantesque bibliothèque regroupant des ouvrages fournis par différents services.

Un document hypermédia est un document hypertexte faisant aussi intervenir des images, éventuellement animées, du son et de la vidéo.



4.2.2. Principe du Client/Serveur (+ Proxi)

Le principe de communication retenu par le service W3 est celui du client-serveur. Un serveur est une entité distributrice d'informations ; un client une entité consommatrice d'informations.

Le rôle du serveur est de donner les informations demandées par le client. Le client formule ses requêtes via un logiciel client WWW aussi appelé "navigateur"1. Le résultat des ces requêtes peut être des fichiers écrits en dur et fournis tel quel par le serveur et/ou des informations interprétées (i.e. résultats de procédures de calcul comme par exemple, le résultat d'une requête via un moteur de recherche). Le réseau Internet supporte toutes les transactions réalisées entre ces deux entités. Pour alléger le flux d'informations sur le réseau, il a été créé un nouveau type de serveur : les proxis. Plutôt que d'effectuer directement les demandes à un serveur, les clients d'un même site effectuent leurs demandes via un serveur proxi. Si nécessaire, ce dernier effectue lui même la demande au serveur concerné et mémorise sur ses disques les documents ainsi rapatriés (sans l'identité des l'utilisateurs les ayant demandés). La mémorisation de cette copie a une durée de vie maximale prédéterminée par le gestionnaire du centre. Ainsi lors de la prochaine demande, le proxi sera à même fournir directement la copie sans aller rechercher l'original. Bien entendu, il est possible d'obliger le proxi à ne pas tenir compte de la version qu'il a en mémoire pour obtenir une version récente du document (option "reload" des navigateurs bien utile en cas de modifications fréquentes).

L'utilisation d'un serveur proxi a pour avantages :

Le coût est une machine suffisamment rapide et disposant d'un espace disque relativement important pour mémoriser un grand nombre de documents.



4.2.3. HTTP

HTTP (Hyper Text Transfert Protocol) est le protocole de transfert de fichiers de type hypertexte utilisé par W3.

Une présentation plus détaillée et plus technique de ce prototype n'est pas possible ici. De bonnes documentations peuvent se trouver facilement sur le Web.



4.2.4. HTML

HTML (Hyper Text Markup Language) est le langage de description des documents de type hypertexte.

Ce langage permet principalement de spécifier l'affichage des données, i.e. mettre en forme un document hypertexte via des commandes de formatage similaires à celles utilisées en Latex (tag en anglais). Ce langage permet également de décrire des liens vers d'autres documents.

Pour plus de renseignements sur ce langage, consulter un cours sur HTML, par exemple celui de l'université de Nice disponible à l'adresse :

http://www.nephi.unice.fr/html/French/CoursHTML/, ou http://www.cwru.edu/help/introHTML/toc.html.



4.2.5. Les URL

URL (Unified Ressource Locator) est un système unifié de localisation de ressources sur Internet.

Les URLs sont utilisées dans les ancres des documents hypertexte et spécifient aller rechercher une ressource et comment la traiter. La description d'une URL précise :



Exemples :



4.2.6. Les helpers

Les formats de fichier actuellement utilisés sont tellement divers et variés qu'il n'est pas possible à un navigateur de savoir tous les interpréter. Lorsque ses limites sont dépassées il peut faire appel à des applications externes pour visualiser des données (graphiques, images, films) ou pour décompacter des fichiers encodés. Ces applications sont connues sous le nom de helpers. De nombreux sites FTP proposent ce type d'applications.



4.2.7. Les logiciels Clients

Les logiciels clients les plus connus sont certainement NCSA Mosaic et NetScape. Une liste de logiciels clients peut être obtenue à l'adresse suivante : http://www.yahoo.fr/Informatique_et_multimedia/Logiciels/Internet/Navigateurs



4.3. Les Moteurs de Recherche

Un très grand nombre de documents sont publiés par l'ensemble des serveurs reliés à Internet. L'utilisateur peut les découvrir par navigation guidée ou intuitive en se "baladant de liens en liens". Cependant, ce type de navigation est souvent à l'origine du désintérêt que peuvent porter certaines personnes à Internet et ce pour la simple et bonne raison que l'information recherchée est bien souvent noyée dans la masse. Les propos tenus par ses personnes sont les suivants : "on nous affirme qu'Internet est actuellement l'encyclopédie universelle la plus complète mais les seules fois où j'y ai eu accès, j'ai trouvé tout et n'importe quoi mais surtout pas ce que je cherchais". Pour aider à la recherche d'informations pertinentes sur Internet, un certain nombre de services ont vu le jour : des volontaires, souvent bénévoles, gèrent des listes de services thématiques qui facilitent les consultations, des sociétés proposent des outils de recherches systématiques à l'aide de mots-clefs, etc.

Mais comment s'y retrouver parmi plusieurs dizaines de milliers de services différents?

Ce chapitre a pour objectif (1) de présenter par catégories les différents moteurs de recherche actuellement disponibles et (2) de présenter, sur un exemple (le moteur AltaVista de la société Digital), les différentes possibilités offertes par un tel outil.



4.3.1. Classification des Moteurs et Recherche

La classification proposée est basée sur le mode de fonctionnement des différents moteurs de recherche actuellement disponibles.



4.3.1.1. Moteurs Géographiques

Ils sont utiles si vous cherchez un serveur dans un pays qui n'a pas encore trop de serveurs Web (sinon cela devient vite lassant). L'interface présente une liste ou une carte sur laquelle il faut cliquer la zone géographique désirée. La recherche se fait alors de proche en proche, sur des cartes ou des listes de plus en plus fines, jusqu'à arriver à une liste de services présents dans une zone géographique.



Les sites les plus connus sont les suivants :

La plupart des listes permettent d'obtenir les services basés dans chacune des grandes ou moyennes villes françaises.



4.3.1.2. Moteurs par mots clés

Un autre type de recherche possible est la saisie de mots-clefs. Plusieurs services mettent à disposition ce type de possibilité et indexent un grand nombre de pages à travers le monde.

Les sites les plus connus sont les suivants :

La plupart de ces services utilisent des robots (également appelés wanderers, spiders, crawlers) qui sondent automatiquement un sous ensemble des serveurs et indexent systématiquement les informations rencontrées. Il est intéressant de noter que certaines institutions refusent l'accès de leur site aux robots et ce pour diverses raisons telles que éviter un encombrement "inutile" du serveur , site suffisamment connu ne nécessitant pas de publicité de ce type (Apple ou IBM), préserver une certaine confidentialité du site, etc.

Il est important de noter que si les documents sont modifiés après le passage du robot d'un moteur de recherche, l'index ne sera pas corrigé avant un nouveau passage de celui-ci sur ces pages (parfois plusieurs mois après la première indexation). En conséquence, les documents supprimés, protégés ou dont l'URL a changé après indexation peuvent être présentés comme résultats de recherche bien qu'ils soient devenus inaccessibles.



4.3.1.3. Moteurs par thèmes

Un grand nombre de sites se sont spécialisés dans la constitution de catalogues de services classés par thèmes.

Les sites les plus connus sont les suivants :

4.3.1.4. Moteurs de recherche dans les News, Serveurs de fichiers et FAQ

4.3.1.5. Moteurs de recherche sur les personnes et/ou organisations



4.3.1.6. Autres Moteurs



5. L'organisation des informations sur Internet

Dans le cadre de notre étude, il est important de considérer Internet comme un espace organisé d'informations et non seulement comme l'interconnexion de réseaux hétérogènes. L'accès à l'information se fait de manière transparente aux architectures matérielles et logicielles mises en œuvre. Nous nous plaçons donc à un niveau d'abstraction intermédiaire entre le monde des réseaux et le monde "économique". C'est à ce niveau que se situe un utilisateur lambda lorsqu'il accède aux nombreuses ressources disponibles sur Internet - le plus souvent à l'aide d'un browser Web. Il a alors affaire à un espace informationnel organisé de façon arborescente, mais que l'on peut parcourir de manière relativement "aléatoire" (bien que logique quelque part) en tapant des adresses, en remplissant et en envoyant des formulaires, et en cliquant sur des liens.



5.1. Un système arborescent

Internet peut être vu comme un ensemble de domaines (dits de premier niveau), divisés eux-mêmes en sous-domaines abritant des serveurs, serveurs qui correspondent au niveau le plus bas dans la hiérarchie du réseau.

Nous présentons ici l'organisation actuelle du système et les tenants et aboutissants de son évolution, nécessaire, mais cause de nombreux débats.



5.1.1. L'organisation actuelle

Dans le cadre du DNS (Domain Name System : système de noms de domaines), les noms des réseaux locaux qui forment Internet sont organisés de manière hiérarchique. Le document de référence dans ce domaine est la RFC 15916, de mars 1994, disponible dans son intégralité sur le site de l'InterNIC7 (<http://www.internic.net>) à l'adresse <http://rs.internic.net/rs-internic.html>.

La racine du système ne porte pas de nom mais est notée ".". Toutes les machines connectées à Internet appartiennent à ce domaine, maintenu à l'heure actuelle par l'IANA8 (<http://www.iana.org>). On peut lui faire correspondre la totalité des informations accessibles sur Internet.

Le niveau immédiatement inférieur est celui des TLD (Top Level Domain names : domaines de premier niveau). Ceux-ci peuvent se diviser en cinq catégories (voir <ftp://rtfm.mit.edu/pub/usenet/news.answers/internet/tcp-ip/domains-faq>; voir aussi <http://www.iana.org/iana/domain-names.html>) :



1 - Les domaines à vocation internationale :





2 - Les domaines à statut spécial :

Dans le cas des domaines EDU et INT, il est plus pertinent de conclure sur le type de l'entité propriétaire. En effet, l'obtention d'un nom de domaine dans un de ces TLD nécessite la fourniture par l'organisme demandeur de certains justificatifs.

Le domaine EDU est géré par l'InterNIC, le domaine INT par l'IANA.





3 - Les domaines réservés aux Etats-Unis :

Le Gouvernement américain et l'Armée américaine gèrent eux-mêmes leurs domaines. L'attribution de noms de domaines sous GOV ou sous MIL est fortement réglementée. De ce fait, on peut être sûr que les domaines Internet situés sous un de ces TLD sont bien la propriété d'une entité liée au Gouvernement américain ou à l'Armée américaine.

4 - Les domaines nationaux :

A chaque pays correspond un code à deux lettres (norme ISO-3166) désignant un domaine national (exemples : FR pour la France, DE pour l'Allemagne, BR pour le Brésil, etc.9). Chaque domaine national est géré par un organisme situé dans le pays considéré (exemple : l'AFNIC10 (<http://www.nic.fr>) pour la France). Celui-ci peut à son tour déléguer la gestion de certaines portions de l'arbre de nommage.

Le domaine FR est maintenant divisé en un certain nombre de sous-domaines destinés à être attribués à différents types d'organismes. En voici une liste - incomplète - (la liste complète peut être consultée à l'adresse <http://www.nic.fr/Procedures/nommage.html>) :

Cependant, de nombreux noms de domaines ont déjà été enregistrés directement sous FR, avant la mise en application de la nouvelle charte de nommage.



5 - Les domaines inverses, sous-domaines du domaine IN-ADDR.ARPA :

Ils sont utilisés par le DNS pour réaliser la mise en correspondance des adresses IP avec les noms de machines hôtes.

C'est l'IANA qui a en charge la gestion de cette classe de domaines.



5.1.2. La réorganisation annoncée

La gestion d'Internet et des noms de domaine fait l'objet de vives discussions au sein de la communauté Internet internationale.

En septembre 1995, le monopole de la société Network Solutions (<http://www.networksolutions.com>) pour la gestion des domaines COM, NET et ORG a commencé à être contesté par un certain nombre d'acteurs économiques et juridiques importants. La crise s'est amplifiée quand la question de la meilleure manière de réorganiser l'administration des TLD s'est posée. Au printemps 1997, la publication du document GenericTop Level Domains Memorandum of Understanding (appelé aussi gTLD-MoU; voir plus loin) a réellement fait apparaître des désaccords profonds sur le sujet.

Le Gouvernement américain a alors commencé à s'intéresser de près à ce problème.

Plusieurs séances du Congrès y ont été consacrées. Au début de l'été 1997, une étude a été lancée par la Maison Blanche, qui s'est soldée par la publication, en janvier 1998, d'une proposition (le Green Paper - le Livre vert) et le gel forcé des projets en cours. A la suite des nombreuses critiques émises à l'encontre du document original, un Livre blanc (White Paper) a été rédigé. Dans celui-ci, le Gouvernement américain souligne la nécessité de la création d'une nouvelle autorité indépendante, sur les bases de l'actuelle IANA. Cette entité à but non lucratif aurait pour rôle de superviser la délégation des noms, numéros et protocoles sur Internet. Aujourd'hui, la question est de savoir qui aura le contrôle de cet organisme qui, pour certains, ne doit surtout pas tomber sous la coupe du Gouvernement américain.

Pour des informations plus précises sur le sujet, on pourra consulter, par exemple, le document <http://www.flywheel.com/ircw/overview.html>.

Le gTLD-MoU (voir <http://www.gtld-mou.org/>)

Le gTLD-MoU appelle à la création de 7 nouveaux domaines qui viendraient s'ajouter aux trois domaines COM, NET et ORG déjà existants:

De plus le gTLD-MoU prévoit la création d'un ensemble initial de 28 nouveaux bureaux d'inscription répartis dans le monde entier (4 bureaux pour une grande région, sachant qu'il existerait 7 grandes régions). Des bureaux supplémentaires seraient créés par la suite. Ces bureaux se trouveraient dans une situation de compétition globale, ce qui laisserait la possibilité aux utilisateurs de s'adresser à celui offrant le meilleur service au meilleur prix. Les utilisateurs pourraient également changer de bureau à n'importe quel moment, tout en conservant le même nom de domaine, ce qui assurerait une portabilité globale.

Remarque : Dans la suite de notre exposé, nous utiliserons le sigle "TLD" pour désigner un domaine de premier niveau; le terme "domaine" sera réservé aux domaines situés à un niveau inférieur dans la hiérarchie.



5.2. Les documents sur Internet

Les documents présents sur Internet sont accessibles via des serveurs eux-mêmes situés dans des domaines particuliers. Cependant, ce mode de stockage est totalement transparent, la façon dont on "navigue" de document en document n'a rien à voir avec un parcours systématique d'arbre.



5.2.1. Stockage des documents



5.2.1.1. Domaines, sous-domaines, serveurs

De manière générale, un nom de domaine se compose d'un nom suivi d'un point et d'un nom de TLD (exemples : emn.fr, ireste.fr). Dans certains cas (notamment dans le TLD FR), une partie supplémentaire vient s'intercaler juste avant le point (exemples : finances.gouv.fr, lexpress.presse.fr).

Dans de nombreux cas, un nom de domaine désigne un réseau d'entreprise ou de campus (exemples : digital.com => Digital Equipment Corporation, ireste.fr => IRESTE). Dans tous les cas, il est possible de faire correspondre un nom de domaine à un organisme (propriétaire du nom).

On trouve ensuite un certain nombre de sous-domaines (différents niveaux) correspondant souvent à différents niveaux de divisions d'organisme. Par exemple, on peut associer sciences.univ-nantes.fr à la Faculté des Sciences (sciences), qui fait partie de l'Université de Nantes (univ-nantes.fr).

On peut considérer que le serveur se situe au niveau le plus bas dans la hiérarchie du réseau. Son rôle est de permettre l'accès à des ressources informatiques par le biais d'un port situé sur une machine connectée à un réseau. Une machine peut "héberger" un ou plusieurs serveurs de différents types, le plus connu étant le Web (exemples : www.ireste.fr, www.sciences.univ-nantes.fr).

Dans la plupart des cas, un nom de serveur est un nom classique de serveur Web, FTP, de courrier électronique, etc. (exemples : www, www2, ftp, mailhost, ...). Il correspond alors à un service particulier offert par un département d'organisme donné.



5.2.1.2. Répertoires, fichiers

Les ressources rendues disponibles sur un serveur se présentent sous la forme d'une arborescence de répertoires et fichiers, qui correspond à une partie d'un système de fichiers "classique". Dans tous les cas, le classement des fichiers est effectué selon une certaine logique.

Les répertoires et fichiers accessibles via un serveur possèdent des noms plus ou moins explicites. Ils correspondent cependant à une certaine organisation logique des informations proposées. Par exemple, le fichier http://www.ireste.fr/SILR/repartannee.html

donne des informations sur la répartition des enseignements par année (repartannee.html) pour la spécialité SILR (/SILR/) de la formation d'ingénieur proposée à l'IRESTE (www.ireste.fr).



5.2.1.3. Documents, ancres

Un fichier correspond à l'implantation d'un document possédant un contenu sémantique défini. Un document peut être décomposé en un certain nombre de sections marquées par des ancres et donc directement accessibles. Dans la grande majorité des cas, les documents et les ancres qu'ils contiennent possèdent une sémantique intrinsèque bien particulière. Il est alors relativement aisé d'obtenir le sens de tels objets.

Un document est identifié par une URL (Unique Resource Locator - localisateur unique de ressource) et correspond donc à un fichier. La description sémantique d'un fichier est donc identique à celle du document associé. Considérons le document identifié par l'URL http://www.ireste.fr/SILR/repartannee.html. Du point de vue des ancres, ce document possède la structure suivante :

Début de document

Ancre 1

...

Ancre 2

...

...

Fin de document



5.2.2. Parcours des documents

D'après ce qui a été dit dans le paragraphe 3.1.1, on peut considérer que l'espace informationnel qu'est Internet possède une structure d'arbre. Cependant, lors d'un parcours, un utilisateur accède toujours directement à des documents ou à des ancres, et jamais à des TLD, domaines ou serveurs. On peut alors considérer que le plus haut niveau correspond au niveau "page d'accueil" d'un serveur, qui est la page affichée par défaut lorsqu'on accède à la racine d'un serveur (exemple : www.ireste.fr/ pour le site Web de l'IRESTE). Il est difficilement imaginable et très peu pertinent de parcourir de manière systématique tous les fichiers de chaque serveur. L'utilisateur d'Internet s'intéresse au contenu sémantique des documents qu'il consulte. Le chemin qu'il choisit d'emprunter possède une logique particulière, qui n'a rien à voir avec un simple parcours d'arbre.

Un document peut contenir des références à d'autres documents, voire à des parties de documents. Un lien est représenté sous la forme d'une URL identifiant une ressource particulière située n'importe où sur le réseau. Dans le cas d'un lien vers une partie précise d'un document, l'URL contient un nom d'ancre. L'utilisateur a donc la possibilité d'accéder de manière directe à d'autres documents susceptibles de l'intéresser. Chaque document pouvant posséder de nombreux liens, les possibilités de parcours sont extrêmement nombreuses. Les liens entre documents sont implémentés de manière statique dans la code descriptif des documents. Dans le cas du Web, les logiciels de "navigation" les plus connus interprètent ce code de telle sorte qu'ils donnent la possibilité d'accéder directement à un document référencé en cliquant, à l'aide de la souris, sur un élément particulier (partie de texte, image) du document courant (principe de l'hypertexte11).

Un lien intra-document ou inter-documents correspond à un lien sémantique caractérisant une relation dont la nature est à définir. Le plus souvent, un lien permet d'obtenir des informations complémentaires sur le sujet ou le terme courant. Par exemple, le document http://www.ireste.fr/, qui présente le sommaire du site Web de l'IRESTE, contient des liens correspondant aux entrées du sommaire et amenant vers des documents développant différents points et qui peuvent contenir eux-mêmes des liens vers d'autres documents. On peut schématiser une partie de cet ensemble organisé de liens de la façon suivante (figure 2) :









L'ensemble des informations présentes sur Internet possède donc une certaine organisation d'une part du point de vue du stockage de documents, et d'autre part du point de vue des liens entre documents.



6. Méthodes et outils classiques de recherche d'informations

[Etz96] justifie l'intérêt de la recherche d'informations sur Internet, en prenant comme hypothèse que les informations présentes sur le Web sont suffisamment structurées pour pouvoir être exploitées efficacement.

La possibilité de trouver efficacement de l'information sur Internet est une condition essentielle pour pouvoir mesurer son réel potentiel. Le problème de l'efficacité de la recherche n'est pas lié à des questions matérielles. La puissance des machines est aujourd'hui grandement suffisante pour gérer plusieurs gigaoctets de données. Mais à l'heure actuelle, les outils de recherche renvoient trop de documents parmi lesquels seule une petite fraction est pertinente vis-à-vis de la requête de l'utilisateur. De plus, les documents les plus pertinents n'apparaissent pas nécessairement au début de la liste de résultats présentée. [GRG+97]

Nous nous basons ici en grande partie sur l'article [GRG+97]. Nous présenterons d'abord les principes généraux de la recherche d'informations sur Internet. Nous examinerons ensuite les différents outils et services de recherche accessibles sur Internet. Enfin, nous montrerons que l'efficacité "absolue" des méthodes de recherche est loin d'être avérée, même s'il est clair que certains outils offrent des possibilités dignes d'intérêt.



6.1. Principes fondamentaux de la recherche d'informations sur Internet

Le processus général de recherche d'informations sur Internet12 peut se résumer en trois étapes. Il faut découvrir de nouvelles ressources, les indexer, puis, en s'appuyant sur les informations ainsi recueillies, être capable de présenter des documents pertinents vis-à-vis d'une requête, lors d'une session de recherche.



6.1.1. Parcourir le réseau - Découverte de nouvelles ressources

Une première façon de trouver des documents pertinents est de lancer un robot qui reçoit la requête d'un utilisateur, puis explore systématiquement Internet pour localiser des documents et évaluer leur pertinence, et enfin retourne à l'utilisateur une liste de documents classés. La taille et l'augmentation de la taille d'Internet rendent cette approche tout à fait irréaliste.

Une autre possibilité est d'utiliser un index pré-compilé construit et mis à jour régulièrement par des robots. L'index est une archive dans laquelle on peut effectuer des recherches, et qui donne des pointeurs vers des documents. Cette méthode est évidemment beaucoup plus efficace, et la plupart des outils de recherche existants se basent sur cette approche.

La génération d'un index complet requiert un parcours systématique d'Internet pour localiser tous les documents. La structure d'Internet est similaire à celle d'un graphe orienté, il peut donc être parcouru en utilisant des algorithmes de parcours de graphes. Puisque les ordinateurs connectés au Réseau utilisent le paradigme client-serveur pour communiquer, il est possible pour un robot s'exécutant sur un simple ordinateur de parcourir Internet dans sa totalité.

On distingue trois méthodes de parcours :

  1. - Fournir au robot une "URL graine" pour initialiser l'exploration. Le robot indexe le document graine, extrait les URL pointant vers d'autres documents, puis examine chacune de celles-ci de façon récursive, en largeur ou en profondeur d'abord.

  2. - Commencer avec un ensemble d'URL choisies sur la base de la popularité d'un site Web, puis chercher de façon récursive. Intuitivement, on peut penser que la page d'accueil d'un site connu contiendra des URL pointant vers les informations les plus fréquemment recherchées aussi bien sur le serveur local que sur d'autres serveurs.

  3. - Partitionner l'espace Internet en se basant sur les noms Internet ou sur les codes de pays, et désigner un ou plusieurs robots pour parcourir l'espace de façon exhaustive. Cette méthode est beaucoup plus utilisée que les deux premières. La fréquence de parcours d'Internet est un paramètre qui déterminera de façon importante la qualité de l'index.



6.1.2. Méthodes et techniques d'indexation

On peut voir la recherche efficace sur Internet comme un problème classique de recherche d'informations, dans lequel un ensemble d'utilisateurs lance des requêtes sur une collection de documents afin de trouver un sous-ensemble particulier de celle-ci13. Dans le domaine de la recherche d'informations, l'indexation est le processus de détermination de la représentation d'un document, en attribuant des descripteurs de contenu ou des termes au document. Ces termes sont utilisés pour évaluer la pertinence d'un document vis-à-vis de la requête d'un utilisateur. Ils contribuent directement à l'efficacité de recherche d'un système d'IR (Information Retrieval - recherche d'informations).

L'indexation est concernée en général par l'attribution de termes non objectifs14 à des documents.

Deux paramètres fondamentaux sont utilisés dans les problèmes de recherche d'informations :

De manière idéale, on voudrait obtenir à la fois un fort taux de rappel et une grande précision. En réalité, il faut trouver un compromis. Les termes d'indexation qui sont spécifiques correspondent à une plus grande précision au détriment du taux de rappel. Les termes qui sont plus larges correspondent à un plus fort taux de rappel au détriment de la précision. Pour cette raison, l'efficacité d'un système de recherche d'informations se mesure en évaluant la précision en fonction de différents niveaux de rappel.

L'indexation peut être réalisée soit manuellement, soit automatiquement. La taille d'Internet, associée à la diversité des sujets traités, rend l'indexation manuelle irréaliste. L'indexation automatique ne demande pas les vocabulaires très contrôlés qu'utilisent les indexeurs manuels, et elle offre le potentiel nécessaire pour représenter beaucoup plus d'aspects d'un document que ne le peut l'indexation manuelle. Cependant, elle demeure à un niveau de développement relativement faible, en dépit des nombreuses années d'études qui lui ont été consacrées15.



6.1.3. Méthodes et techniques de traitement de requêtes

Un modèle de recherche d'informations est caractérisé par les quatre points suivants :

Les modèles d'IR peuvent être de quatre types principaux16 : ensembliste, algébrique, probabiliste ou hybride.



6.1.3.1. Les modèles ensemblistes

Dans le modèle booléen, un document est représenté par un ensemble de termes, chacun étant vu comme une variable booléenne valuée à "vrai" s'il est présent dans le document. Aucune pondération n'est possible. Les requêtes sont spécifiées sous la forme d'expressions booléennes construites en reliant des termes à l'aide d'opérateurs booléens. Tous les documents pour lesquels l'expression booléenne a pour valeur "vrai" sont considérés comme répondant positivement à la requête. Ce modèle est simple à implémenter mais peu efficace, notamment parce qu'il ne permet pas de classer les résultats, et parce qu'il ne permet pas de retrouver des documents répondant "presque" à une requête. Le modèle basé sur la théorie des ensembles flous permet d'éviter les problèmes dus à la bivalence du modèle précédent, mais ne permet pas non plus d'effectuer un tri des résultats.



6.1.3.2. Les modèles algébriques

Le modèle vectoriel est basé sur le principe que chaque document d'une collection peut être représenté par un vecteur dans un espace déterminé par un ensemble de vecteurs-termes normaux. La valeur de la i-ème composante du vecteur représentant un document reflète le poids, dans le document, du terme correspondant à la i-ème dimension de l'espace vectoriel. Une requête est également représentée par un vecteur. Le degré de similarité entre une requête et un document est mesurée par le produit scalaire des deux vecteurs associés. Le grand intérêt de ce modèle réside dans sa simplicité. Il permet d'appliquer facilement des techniques de feedback. Cependant, la richesse d'expression de requête rendue possible dans les modèles booléens est sacrifiée.



6.1.3.3. Les modèles probabilistes

Le modèle probabiliste s'appuie sur les probabilités de pertinence et de non-pertinence d'un document par rapport à la requête d'un utilisateur. Il utilise de plus deux paramètres de coût pour représenter la perte associée à la considération d'un document non pertinent et à l'omission d'un document pertinent.



6.1.3.4. Les modèles hybrides

Comme dans le cas du modèle vectoriel, le modèle booléen étendu (ou modèle de la pnorme) représente un document par un vecteur dans un espace déterminé par un ensemble de vecteurs-termes normaux. Cependant, il mesure le degré de similarité entre une requête et un document en utilisant un produit scalaire généralisé entre les vecteurs associés. Celui-ci s'appuie sur la norme Lp. Les opérateurs booléens généralisés sont définis pour le modèle de la p-norme. L'interprétation d'une requête peut être modifiée en utilisant différentes valeurs pour p dans le calcul de similarité. En faisant varier la valeur de p de 1 à l'infini, on obtient un modèle intermédiaire entre le modèle vectoriel et les modèles booléens strict et flou.



6.2. Outils et services de recherche sur Internet

Dans ce paragraphe, nous proposons une étude non exhaustive des différents outils de recherche existants sur Internet. Une grande partie des idées exposées ici proviennent de l'article [GRG+97] ou de sites référencés sur dans le document Best Search Engine Comparison Charts (<http://www.oulu.fi/pohti/searchcharts.html>). Les méthodes automatisées de recherche d'informations sur Internet peuvent être divisées en deux classes : outils de recherche et services de recherche.

Les outils de recherche utilisent des robots pour indexer des documents. Ils présentent une interface utilisateur pour la soumission des requêtes et le parcours des résultats. Au cœur d'un outil de recherche, on trouve le moteur de recherche, qui est chargé de parcourir l'index pour retrouver des documents correspondant à la requête de l'utilisateur. Parmi les outils de recherche, on distingue ceux de type 1 et ceux de type 2, selon que l'index est ou non visible. Les services de recherche fournissent aux utilisateurs une couche d'abstraction au- dessus de plusieurs outils de recherche et bases de données et ont pour but de simplifier la recherche.

Nous commençons par décrire les outils de recherche de types 1 et 2 en tenant compte des points suivants :

6.2.1. Les outils de recherche de type 1 - Moteurs de recherche

Ces outils cachent complètement l'organisation et le contenu de l'index à l'utilisateur. Nous présentons ici de façon informelle les moteurs de recherche les plus connus, qui sont les plus utilisés et parmi les plus efficaces.

AltaVist17a (<http://www.altavista.digital.com>) possède un spider (appelé Scooter) qui parcourt le Web et les archives Usenet. L'indexation est effectuée sur le texte intégral. Les premières lignes d'un document constituent son résumé. Les auteurs de documents HTML peuvent utiliser la balise META pour spécifier des termes d'indexation et une courte description de leurs documents. L'index d'AltaVista est mis à jour quotidiennement. Scooter visite les pages selon leur fréquence de mise à jour : une page qui reste inchangée pendant plusieurs mois sera visitée moins souvent qu'une page dont le contenu est différent à chaque fois que Scooter la visite. AltaVista permet de spécifier des requêtes sous la forme d'expressions booléennes ou de locutions, en forçant ou non la prise en compte de la casse. De nombreuses options de recherche avancée sont proposées (restriction à un domaine, découverte de documents contenant un lien vers un document donné, etc.). Les résultats sont ordonnés selon leur pertinence, le meilleur score étant obtenu par les documents qui contiennent les termes de la requête dans leurs premières phrases, ceux dans lesquels ces termes sont proches les uns des autres, et ceux qui contiennent plus d'une instance des termes.

Dans sa liste de résultats, AltaVista propose, pour chaque document retrouvé, un titre, un court résumé, la taille et la date de dernière modification.

Excite (<http://www.excite.com>) possède également un spider et un indexeur de documents en texte intégral. Le spider s'intéresse uniquement aux documents Web et Usenet.

Les utilisateurs peuvent soumettre des URL pour indexation. L'indexeur génère un ensemble de descripteurs et un court résumé pour chaque document. Sont supportées les recherches sur des noms propres, les opérateurs booléens AND, OR et NOT, et les expressions booléennes.

Les résultats de la recherche sont triés, et un résumé est fourni pour chaque document retrouvé. Excite permet de retrouver des documents "similaires" à un document donné. Il est aussi possible de trier les résultats par site, le premier site proposé étant celui où le nombre de documents trouvés est le plus important.

HotBot (<http://www.hotbot.com>) recherche et indexe des documents Web en utilisant un robot appelé Slurp. Le robot exploite les hyperliens contenus les documents pour parcourir le réseau. Les utilisateurs peuvent également soumettre leurs URL pour indexation. HotBot effectue une indexation en texte intégral de documents HTML ou uniquement textuels. Les termes sont pondérés et un court résumé est généré pour chaque document. Les utilisateurs peuvent effectuer des recherches sur un terme, une locution, un nom propre ou une URL. HotBot supporte aussi les recherches booléennes et est capable de tenir compte de la casse.

Les utilisateurs avancés ont à leur disposition un certain nombre d'options pour spécifier une requête sur un type de média ou sur un format particulier. Les recherches peuvent également être limitées à des domaines Internet spécifiques. Les résultats proposés sont ordonnés. HotBot attribue un degré de pertinence aux documents suivant des critères variés, tels que la fréquence de termes et la longueur des documents. Si des termes de la requête apparaissent dans le titre d'un document ou dans le champ META, un plus grand degré de pertinence est accordé à ce document. Pour les documents retrouvés, HotBot propose la date de dernière modification et un court résumé constitué des premières lignes du document.

InfoSeek Guide (<http://www.infoseek.com>) est un moteur de recherche utilisant un robot qui traite les documents HTML et PDF, indexe en texte intégral, et génère un court résumé pour chaque document. InfoSeek permet des recherches sur le Web, dans les groupes Usenet, et les FAQ. Il tient compte de la casse, peut effectuer des recherches sur des symboles, des locutions et des noms propres. Il permet également une recherche d'images se basant sur des légendes ou des termes qui peuvent être associés à des images. InfoSeek trie ses résultats en donnant plus de poids aux documents qui contiennent des termes de la requête dans leur début. Il fournit un court résumé, un pourcentage de pertinence et la taille des documents. InfoSeek permet également de retrouver les documents "similaires" à un document donné.

Lycos (<http://www.lycos.com>) possède un robot qui utilise des heuristiques pour naviguer sur le Web et construit un index. Pour chaque document indexé, le robot garde les liens vers d'autres ressources dans une liste et sélectionne dans celle-ci une URL. Une heuristique peut être de forcer le robot à choisir une URL qui pointe vers la page d'accueil d'un serveur Web. Les utilisateurs peuvent soumettre des URL pour indexation. Lycos indexe les titres et les sous-titres présents dans des documents HTML, FTP et Gopher. Quand le nombre de descripteurs dépasse 100, les 100 termes qui ont le poids le plus important sont retenus. L'indexeur garde aussi les 20 premières lignes d'un document, sa taille en octets, et le nombre de mots qu'il contient. Lycos propose des options pour rechercher sur un terme, tous les termes, ou sur un nombre donné de termes. Il permet d'effectuer des recherches sur des troncatures. L'utilisateur a la possibilité de spécifier un degré de correspondance entre sa requête et des documents candidats (correspondance parfaite ou approximative). Lycos supporte l'opérateur booléen NOT. Le degré de pertinence est égal à la somme des poids des termes de la requête dans le document. Les termes qui apparaissent dans le titre et au début d'un document ont un poids plus important. Les résultats sont ordonnés et proposent, pour chaque document, sa taille et son degré de pertinence.

DejaNews (<http://www.dejanews.com>) permet d'effectuer des recherches dans des newsgroups Usenet. Un certain nombre d'options sont proposées à l'utilisateur qui rendent possible l'expression de requêtes plus ou moins sophistiquées, construites à l'aide de termes ou fonctions reliées par des opérateurs booléens. Il est possible de retrouver des articles par date, par auteur, par sujet et par groupe de discussion. Les résultats sont triés par degré de pertinence et peuvent être présentés sous différentes formes (tableau, liste, ...).

Parmi les autres outils de cette catégorie, on peut citer le service Voilà (<http://www.voila.fr>) de France Télécom et le système Google (<http://google.stanford.edu>), issu de travaux de recherche dans le domaine de l'IR sur Internet à l'Université de Stanford aux Etats-Unis.



6.2.2. Les outils de recherche de type 2 - Catalogues de recherche

Les outils de recherche de type 2 présentent un catalogue ou un répertoire de sujets organisés hiérarchiquement, qui est visible par les utilisateurs. Yahoo! (<http://www.yahoo.com>) est un catalogue de sujets Web, construit de façon semi-automatique et organisé hiérarchiquement. Il est possible de naviguer parmi les différentes catégories ou d'atteindre directement des catégories en soumettant une requête par mots-clés. Les liens vers les différentes ressources sont collectés de deux manières différentes : sur demande expresse de la part des utilisateurs ou par l'intermédiaire de robots qui trouvent de nouveaux liens sur des pages du type de la page What's New de Netscape (<http://www.netscape.com/netcenter/new.html?cp=hom09snew>). Yahoo! indexe des documents Web, des news Usenet et des adresses e-mail. Il supporte les opérateurs booléens AND et OR et les recherches sur des locutions. Les résultats d'une requête se présentent sous la forme d'une liste de catégories Yahoo! et de sites Web (avec une courte présentation pour chacun d'eux).

Magellan (<http://www.mckinley.com>) est un catalogue qui indexe des sites Web, des serveurs FTP et Gopher, des news Usenet et des sessions Telnet. Une équipe d'éditeurs évalue la qualité des sites Web selon des critères tels que l'exhaustivité et la facilité de navigation. Il est possible de soumettre des URL pour évaluation. Le catalogue Magellan propose un contenu éditorial original, un répertoire de sites évalués, une base de sites à évaluer et un moteur de recherche. Magellan supporte des options +/- similaires aux opérateurs booléens AND et OR. Le degré de pertinence est attribué selon la fréquence d'apparition des termes de la requête dans le document. Une pertinence plus importante est attribuée aux documents qui contiennent des termes de la requête dans leur titre, dans leur champ META ou dans leur URL. Les résultats sont triés.

Parmi les autres outils dans cette catégorie, on peut citer WWW Virtual Library (<http://vlib.stanford.edu>) et Galaxy (<http://galaxy.einet.net>).



6.2.3. Les services de recherche

Les services de recherche redirigent les requêtes utilisateur vers plusieurs moteurs de recherche et différentes sources d'informations simultanément. Ils fusionnent ensuite les résultats présentés par ces sources, tiennent compte des doublons, et présentent les résultats finals à l'utilisateur sous la forme d'une page HTML avec des liens vers les URL des documents présumés pertinents.

Le service de recherche le plus connu est MetaCrawler (<http://www.metacrawler.com>). Cet outil lance des requêtes sur huit moteurs ou catalogues de recherche différents : OpenText, Lycos, WebCrawler, InfoSeek, Excite, AltaVista, Yahoo! et Galaxy. Il supporte à la fois les recherches booléennes et les recherches sur locution.

Remarque : Nous avons ici laissé de côté les outils plus spécifiques de recherche dans les archives FTP, d'adresses e-mail, de logiciels ou d'articles de magazines on-line.



6.3. Efficacité comparée et limites des outils de recherche actuels

A partir d'une étude des fonctionnalités et des résultats fournis par les outils de recherche sur Internet, il est possible de dégager certains éléments de comparaison qui peuvent faire apparaître de grandes différences dans le niveau de qualité. Cependant, même le meilleur des systèmes est encore très loin d'être parfait; tous les outils actuels ont d'ores et déjà atteint leurs limites.



6.3.1. Comparaison des systèmes actuels

Le meilleur outil de recherche doit être le plus complet, le plus rapide et le plus facile à utiliser. A l'heure actuelle, il n'existe pas un outil qui réponde à ces trois exigences à la fois. En fait, c'est selon ses besoins qu'un utilisateur doit choisir un outil de recherche. Il s'agit ensuite d'exploiter au mieux les fonctionnalités de l'outil, afin d'obtenir les résultats escomptés. Suivant qu'il souhaite trouver des sites "de référence" (institutionnels) ou obtenir une liste exhaustive de documents, l'utilisateur choisira d'utiliser un catalogue ou un (méta-)moteur.

Les sites référencés dans un catalogue sont examinés par des indexeurs humains, ce qui permet de construire une classification pertinente, et donc de garantir un fort taux de précision. Cependant, le nombre de sites indexés est forcément limité (faible taux de rappel).

A l'inverse les moteurs, qui sont automatisés, sont capables de traiter de nombreux documents (fort taux de rappel), mais ne peuvent pas du tout tenir compte d'aspects sémantiques (faible taux de précision).

On peut penser qu'en utilisant de façon optimale les fonctionnalités d'un moteur, il est possible d'obtenir des résultats très satisfaisants, tant en termes de rappel qu'en termes de précision. De plus, les moteurs de recherche semblent plus nombreux et plus variés dans leurs fonctionnalités. A partir de maintenant, nous nous intéresserons donc uniquement aux moteurs que nous avons présentés17.

Le taux de rappel est d'abord lié au nombre de documents indexés. HotBot et AltaVista sont les outils qui indexent le plus grand nombre de pages (environ 100 millions de documents), devant Excite (50 millions), InfoSeek (30 millions) et Lycos (30 millions). Il est ensuite nécessaire que les documents récemment mis en ligne soient également retrouvés. Pour cela, il faut que le nombre de documents indexés chaque jour soit le plus grand possible, et que la fréquence de traitement de documents soit importante. HotBot et AltaVista présentent à nouveau les meilleurs résultats, devant Lycos, Excite et InfoSeek. Une indexation en texte intégral permet de ne pas omettre des documents qui le sont lorsque des termes de la requête ne se trouvent pas dans l'ensemble de descripteurs choisi - alors qu'ils sont présents quelque part dans le document. Seul Lycos n'indexe pas en texte intégral. Enfin, il peut être intéressant de pouvoir chercher des documents pertinents dans d'autres types de ressources, comme les articles postés dans les forums de discussion. Seuls AltaVista, Excite et InfoSeek offrent cette possibilité. AltaVista semble, quant à lui, couvrir le plus grand nombre de groupes.

Il faut considérer le taux de précision offert par un moteur comme le taux obtenu en utilisant de façon optimale les fonctionnalités de celui-ci. La richesse du langage d'interrogation est donc primordiale. De ce point de vue, AltaVista semble être l'outil le plus intéressant, puisqu'il propose la quasi-totalité des fonctionnalités possibles : requêtes booléennes, recherche sur locution, prise en compte de la casse, des troncatures, opérateur d'adjacence, recherche dans des champs particuliers de documents HTML, recherche sur des méta-informations (auteur(s), date, ...), etc. HotBot est relativement moins performant.

Chacun des autres moteurs n'offre qu'une partie de ces fonctionnalités. La possibilité d'affiner une requête est particulièrement intéressante, car elle permet de diminuer ou d'agrandir la taille de l'ensemble des documents retrouvés, sans avoir à spécifier de nouveau la requête initiale. AltaVista, Excite et InfoSeek offrent des fonctionnalités de ce type. En ce qui concerne les résultats proposés, il est difficile de comparer les différents moteurs. Dans tous les cas, les résultats sont triés par degré de pertinence décroissant, et pour chaque document trouvé, un résumé (plus ou moins important) est proposé. Il semble qu'aucun des outils proposés n'offre un taux de précision véritablement supérieur pour une même requête. L'utilisation adéquate d'un moteur offrant de nombreuses fonctionnalités doit donc donner de meilleurs résultats.

Le temps de réponse à une requête peut également être un critère déterminant dans le choix d'un outil. Mesurer celui-ci dépend de nombreux facteurs difficilement évaluables. Il semble cependant qu'à nouveau, AltaVista présente les meilleures performances. Nous n'avons traité ici que les points qui nous ont semblé les plus importants, et ce de façon non systématique. Des tendances générales apparaissent cependant clairement. De nombreux autres facteurs sont susceptibles d'influer sur l'efficacité relative des moteurs. Une présentation plus complète des différents moteurs de recherche pourra être trouvée sur les sites des outils eux-mêmes (pour la description des fonctionnalités offertes) et sur de nombreux sites proposant une comparaison (plus ou moins pertinente) des différents moteurs.



6.3.2. Les limites

Les mesures formelles de précision et taux de rappel utilisées pour quantifier l'efficacité des systèmes d'IR sont basées sur des expériences d'évaluation conduites dans des conditions particulières. Il est nécessaire de disposer d'un jeu d'essai comprenant un nombre fixé de documents, un ensemble standard de requêtes, et des documents pertinents et non pertinents dans le jeu d'essai pour chaque requête. Recréer de telles conditions dans le contexte d'Internet est extrêmement difficile. En effet, chaque moteur de recherche travaille sur un index particulier qui, le plus souvent, ne couvre pas le même ensemble de documents que l'index utilisé par un autre moteur. [GRG+97]

On trouve dans [GRG+97] les résultats d'expériences menées sur différents outils, avec deux requêtes différentes (exprimées sous une forme disjonctive ou conjonctive, ou sous la forme d'une locution). On y apprend notamment que l'utilisateur ne peut jamais se permettre de n'examiner que les quelques documents placés au sommet du classement en omettant le reste. Il est en effet possible que les documents les plus pertinents soient classés après des documents non pertinents. Malheureusement, puisque le nombre de documents dans les résultats est de l'ordre de plusieurs milliers, l'examen manuel exhaustif de ces résultats pour retrouver des documents pertinents est impossible.

Pour pallier l'inefficacité des systèmes actuels, les équipes de recherche en IR s'intéressent notamment à la représentation du contenu des documents et aux méthodes de feedback.

Dans le premier cas, l'idée est de fournir aux auteurs de documents des moyens de représenter leur contenu de façon efficace. Pour cela, il est proposé de s'appuyer sur des ensembles restreints mais complets d'attributs ou d'utiliser des langages de description de documents permettant l'expression de caractéristiques sémantiques. Il faut noter que de tels langages existent bel et bien (HTML, par exemple, permet la création de méta-informations), mais de telles fonctionnalités, si riches soient-elles, ne peuvent être utiles que si elles sont effectivement employées systématiquement et à bon escient par les auteurs de documents. [MuP97]

Le recours à des méthodes de feedback sophistiquées semble être un bon moyen d'obtenir des résultats satisfaisants. Cependant, dans le contexte d'Internet, elles ne semblent pas avoir prouvé leur réelle efficacité jusqu'ici. Par exemple, les réseaux sémantiques proposés par AltaVista, et qui doivent permettre d'affiner une requête, sont très difficilement exploitables.



7. News



7.1. De quoi s'agit-il?

Les News (aussi appelées forums de discussion) fonctionnent comme de gigantesques tableaux d'affichage publiques ou chacun peut lire les messages, répondre (directement à l'auteur par courrier électronique ou par la même voie en affichant un nouveau message) ou en afficher de nouveaux. Ce mode de fonctionnement présente un grand nombre d'avantages :

Certains de ces groupes de discussions sont planétaires, d'autres sont nationaux, d'autres régionaux et d'autres enfin sont simplement locaux à un site particulier (par exemple une école, une université ou une entreprise), mais tous sont regroupés par thèmes.



7.2. Quel est le fonctionnement ?

D'un point de vue technique, le principe utilisé est toujours celui du client/serveur. Les serveurs échangent entre eux les messages de sorte qu'ils disposent tous des mêmes informations. Qu'un utilisateur consulte un groupe de discussion sur un serveur ou un autre n'a peu d'importance : il obtiendra toujours les mêmes messages.



7.3. Notion d'abonnement pour un utilisateur.

Il est impossible qu'un utilisateur puisse lire tous les groupes. En général, un utilisateur donné s'intéresse à certains groupes en se désintéressant des autres. Cet intérêt se traduit par un abonnement aux groupes les plus fréquemment consultés. La notion d'abonnement permet seulement un accès plus rapide aux groupes auxquels on est abonné mais n'interdit en rien d'accéder aux autres. Une seule condition pour consulter les news : le serveur news auquel on est connecté doit être abonné à ce groupe.

Une deuxième condition pour poster dans les news : le serveur auquel on est connecté doit autoriser l'utilisateur à poster. En effet, certains serveurs autorisent certains utilisateurs (souvent des invités) à lire les news, mais pas à poster.



7.4. Notion d'abonnement pour un site.

Le contenu des News auquel un serveur est abonné est intégralement stocké sur ses disques. Un tel volume d'informations peut représenter dizaines de Giga octets. Aussi, un site doit souvent effectuer des choix concernant les groupes auxquels il doit s'abonner (i.e. dont il fournira l'accès à ses utilisateurs) et ce pour des raisons de coût (il faut acheter plus ou moins de disques) et/ou de déontologie.



7.5. Consulter les News.

Les news sont plus ou moins regroupées par thèmes via des groupes de discussion. Le nom d'un groupe de news (il en existe plus de 8000) est composé de plusieurs mots séparés par des points. Le mot le plus à gauche donne le thème le plus général. Il est suivi par un mot précisant un peu plus le sujet et ce ainsi de suite jusqu'au dernier mot.

Les thèmes généraux les plus présents (mainstream) sont les suivants :



Exemples de noms de groupes de news :

Les utilitaires de lecture de News proposent en général différents modes de consultation des messages tels que par sujets, par auteurs, par dates de postage, etc.

Quelques facilités supplémentaires sont souvent proposées :



7.6. Quelques grands principes

Une version plus complète de ces conseils se trouve dans le groupe de News :

news:fr.announce.newusers



7.6.1. Comment rédiger



7.6.2. Comment réagir à un message



7.7. Les FAQ

Les mêmes questions reviennent régulièrement dans un groupe. Face à la lassitude des personnes à toujours donner les mêmes réponses, nombreux sont les groupes de discussion à avoir mis en place des fichiers nommés "Frequently Asked Questions". Ces fichiers regroupent les questions les plus fréquemment posées accompagnées des réponses. Ces fichiers sont régulièrement mis à jour et régulièrement postés dans les groupes concernés. Les différents moyens d'accès à ses fichiers sont

Exemples de FAQ :

WWW : http://www.info.ox.ac.uk/help/wwwfaq/index.html ou http://www.io.org/faq/www/



7.8. Comment poster son courrier dans les news et obtenir une réponse

Simplement comme un courrier électronique à ceci près que le destinataire n'est pas une personne, mais un ou plusieurs groupe(s) de news.

Certains utilitaires de News propose une option qui peut être intéressante : retirer un message que l'on a envoyé dans les News. Attention cette opération est coûteuse pour les machines et ne garantit en rien que votre message ne sera pas lu entre le moment où il est expédié et celui où il est retiré. Les utilitaires de ce type demandent en général de saisir un mot de passe lors du postage pour éviter que n'importe quelle personne ne retire votre message.



IMPORTANT : pour effectuer des tests utilisez des groupes prévus à cet effet :

news:fr.test



7.9. Les news via un navigateur WEB

La plupart des navigateurs web fournissent aussi un lecteur de courrier électronique et un lecteur de news, ce qui est symptomatique de l'imbrication étroite qui existe entre ces différents moyens de communication.



7.10. Le site ne dispose pas de serveur News



8. FTP

8.1. Principes généraux

FTP signifie File Transfert Protocol. FTP est un protocole de communication permettant le transfert de fichiers entre deux machines hétérogènes. Il offre la possibilité de se connecter à des serveurs FTP (la plupart sont des machines UNIX mais il existe des serveurs pour Macintosh et PC) et de transférer des fichiers ou des programmes à travers le réseau Internet sur votre ordinateur. Ce service fonctionne là encore sur le principe du client/serveur. Les principes essentiels d'utilisation du service FTP sont les suivants :



Un serveur FTP anonyme est une machine sur laquelle sont stockés des fichiers mis gratuitement à la disposition de tout utilisateur de l'Internet. Ces fichiers sont le support de tout type d'information qui peut être stockée sur un ordinateur : logiciels publics, documentation, articles, images, sons, informations diverses, etc. L'intérêt d'un serveur anonyme est qu'il offre la possibilité à un utilisateur lambda de se connecter à une machine sans disposer d'un compte personnel. L'usage impose seulement que l'utilisateur précise anonymous comme nom d'usager et donne son adresse électronique en guise de mot de passe et ceci pour plusieurs raisons :



Un très grand nombre de services de diffusions de programmes sont construits de cette manière. Les outils du domaine public utilisent FTP anonyme pour se répandre dans le monde entier et mettre à la disposition du grand public un ensemble de fichiers organisés au sein de répertoires (c'est ainsi que les différentes versions de XWindow System, LaTeX, etc. sont accessibles à tous). Ces fichiers, parfois volumineux, sont généralement stockés sous forme compressée et selon différents formats. Les outils de décompression figurent en général dans des répertoires voisins de ceux contenant les fichiers transférables.



8.2. Comment interroger un serveur FTP ?

Depuis une session Unix

Pour établir une connexion sous FTP depuis l'interpréteur de commande d'un système UNIX, utilisez la commande ftp.

Exemple :

$ ftp ftp.inria.fr

Connected to hostname

220 hostname FTP server (SunOS 4.1) ready.

Name : anonymous

331 Password required for userid

Password:trichet@irin.univ-nantes.fr

230 User compte logged in.

ftp >

Une fois la connexion établie, vous êtes placé dans un répertoire particulier qui contient, en général et au minimum, les répertoires suivants :

ftp> dir

200 PORT command successful.

150 Opening ASCII mode data connection for /bin/ls.

total 144

dr-xr-xr-x 2 0 3 1024 Apr 26 10:46 bin

d--x--x--x 2 0 3 1024 Feb 18 1993 etc

drwxrwxr-x 19 0 3 1024 Sep 17 16:04 pub

226 Transfer complete.

505 bytes received in 0.11 seconds (4.6 Kbytes/s)

ftp>

Les répertoires bin et etc sont des répertoires de travail pour l'application FTP. Dans l'exemple ci-dessus, c'est sous le répertoire pub que sont stockées les fichiers qui peuvent être récupérés. Il peut évidemment y avoir des variantes qui dépendent de l'organisation choisie par l'administrateur du serveur pour le stockage des fichiers.

Il est important de noter que même s'il vous est physiquement possible de visiter l'arborescence complète, vous n'êtes autorisé qu'à "manipuler" le contenu du répertoire pub. L'accès aux services Internet est un privilège et en aucun cas un droit. Tout ce qui n'est pas explicitement autorisé est interdit. Lorsque vous vous connectez à un site fournissant des services, lisez les bandeaux d'accueil et respectez les demandes. Si ces demandes ne vous satisfont pas, déconnectez vous. Une infraction à cette règle peut avoir des conséquences fâcheuses pour vous et votre site.

A partir de là, les commandes suivantes sont à votre disposition: ascii : Spécifie que le transfert s'effectue en mode caractère. binary : Spécifie que le transfert s'effectue en mode binaire.

cd : Changement de répertoire.

dir,ls : Visualisation du contenu d'un répertoire.

get : Acquisition d'un fichier depuis la machine distante.

mget : Acquisition d'une liste de fichiers.

put : Envoi d'un fichier vers la machine distante.

pwd : Retourne le nom du répertoire courant.

mput : Envoi d'une liste de fichiers.

quit : Quitter ftp

Afin de diminuer les temps de transfert, les fichiers sur un serveur FTP anonyme sont le plus souvent mis sous une forme "transportable par le réseau". Par exemple, un ensemble de fichiers contenant les sources d'un logiciel seront le plus souvent rassemblés (pour réaliser un seul transfert) dans un fichier unique puis compressés (diminution de la taille du fichier). On peut reconnaître le type d'archivage par le suffixe du nom du fichier :

.hqx ou .sit pour les fichiers Mac (Binhex, Stuffit).

.ZIP pour les fichiers PC.

.tar ou .Z ou .tar.Z pour les fichiers Unix (tar pour regrouper plusieurs fichiers sous un seul et compress pour compresser un fichier).



Depuis un browser WWW

Il est possible d'utiliser votre browser WWW pour ouvrir une session FTP. Le principe est le même que celui pour une connexion à un serveur web ; seul le format de l'adresse change (ftp://ftp.pratique.fr). Le programme réalise lui même la demande de connexion et l'identification anonyme nécessaire. La présentation des répertoires est alors semi-graphique, et permet de sélectionner le document que l'on désire télécharger directement avec la souris.



Depuis une application dédiée

Il existe une grande variété de programmes sur les différents types de machines (PC, Macintosh, etc.) spécialement dédiés à la gestion de session FTP.

Les plus connus sont :

pour Macintosh : Fetch

pour Windows : WS_FTP, Cute FTP et FTP Icon Connection

Fetch et WS-FTP sont disponibles gratuitement à l'adresse :

http://www.ibpc.fr:8080/formation/ftp/ftp.html



9. Quelques adresses utiles



10. Quelques principes minimaux de sécurité

Nous avons listé pour vous une suite de différents points de sécurité auxquels il est nécessaire d'apporter la plus grande attention dès lors où vous utilisez Internet. Cette liste est bien évidemment pas exhaustive mais apporte une vision intuitive des différents problèmes auxquels vous allez devoir faire face.

11. Internet en France

Cette partie se veut une conclusion synthétique sur Internet en général. Elle reprend les différents points mis en évidence lors d'une étude réalisée par la société Médiangles en Juin 1996 (société d'études françaises spécialisées dans les médias et les médias d'entreprise) sur "les Français et Internet".

http://207.158.230.203/enbref.htm



11.1. Qui sont les internautes ?

L'enquête téléphonique auprès d'un échantillon représentatif de 10.000 personnes a permis d'estimer le nombre de Français disposant d'un accès à Internet actif à 480 000 personnes, soit environ 1% de la population des 15 ans et plus. Le lieu d'appel principalement utilisé est le lieu de travail (180.000), le domicile (150.000 utilisateurs), l'école (90.000) ou les cybercafés (40.000).

Ces chiffres ne correspondent évidemment pas au nombre d'abonnements. A domicile par exemple, le même abonnement est utilisé par 1,6 personnes en moyenne. On peut donc chiffrer le nombre de foyers équipés à 95.000, soit 0,4% des foyers français.

Globalement, ce sont plutôt des hommes, largement sur-représentés en région Ile de France.



11.2. Internet est-il (seulement) un effet de mode ?

Passée la phase de fascination, les utilisateurs d'Internet ne remettent-ils pas leur matériel dans le placard ?

Les études actuelles montrent que Internet n'est pas un phénomène de mode et que bien au contraire, on assiste à un développement des usages. Petit à petit, Internet conquiert son territoire dans le paysage médiatique. Même si les fonctions de chaque média restent évidemment complémentaires, une concurrence inévitable apparaît au niveau du budget-temps des utilisateurs. A ce niveau, contrairement à ce qu'on a pu croire au moment de l'émergence du multimédia, l'écrit est moins touché que la télévision.



11.3. Qu'est-ce qui les fait cliquer ?

Les utilisateurs d'Internet et des services en ligne partagent leur temps de connexion entre le Web (pour à peu près la moitié du temps de connexion), le courrier électronique, les transferts de fichiers, les forums ou discussions en direct. Pour le futur, on note une grande ouverture à la dimension transactionnelle : la majorité des utilisateurs seraient prêts à effectuer sur Internet des réservations de billets de trains, avions ou hôtels, se former, effectuer des opérations bancaires, commander des produits, télécharger des jeux. De son coté, la presse devra s'adapter aux nouvelles demandes d'information personnalisée : les utilisateurs sont plus attirés par la constitution de revues de presse spécialisées que par la consultation de journaux en ligne.



11.4. Un enjeu commercial

L'importance de l'information commerciale sur Internet est manifeste : les sites d'information sur les produits, les services et les marques viennent en quatrième position des catégories de sites visités, juste après les moteurs de recherche de coordonnées de sites, les sites d'actualité et la culture.

Finalement, au cours des 6 derniers mois, près d'un utilisateur sur cinq a réalisé un achat ou effectué une réservation à partir d'informations recueillies sur Internet.

Le concept de portefeuille électronique a un bel avenir. Pour un achat de moins de 50F, la majorité des utilisateurs préféreraient cette solution à l'envoi d'un chèque ou la mention de leur numéro de carte bancaire. Reste à savoir qui emportera ce marché : la banque habituelle de l'utilisateur ? les organismes de cartes de crédit ? les fournisseurs d'accès à Internet ? des organismes spécialisés ? Tous sont envisagés par les utilisateurs, mais pas avec le même niveau de crédibilité.



11.5. Vers une nouvelle forme de communication interactive

Les raisons de visite des sites commerciaux sont multiples. La fonction publicitaire (connaître les produits ou les tarifs proposés par l'entreprise) croise la communication institutionnelle (présentation générale de l'entreprise), le service après-vente (mieux utiliser un produit déjà acheté) et le contact direct (laisser un message). Notons que la stratégie des sites commerciaux qui consiste à attirer les utilisateurs par des informations non commerciales fonctionne bien auprès des visiteurs qui apprécient cette source d'information. On est en fait plus proche de la logique éditoriale des journaux d'entreprise que d'une logique strictement publicitaire.

Mais il ne suffit pas d'avoir un beau site sur Internet. Encore faut-il le faire connaître. Les sites de recherche de sites et la navigation de site en site constituent les deux premières sources de connaissance des adresses des sites, avant les magazines, le bouche à oreille et les forums. La présence de bandeaux publicitaires va donc constituer un effet de levier fantastique pour drainer le public des utilisateurs. Les utilisateurs Français prouvent un degré de maturité étonnant devant l'enjeu commercial d'Internet : 4 utilisateurs sur 5 pensent qu'il serait utile, dans le futur, que la plupart des marques de produits ou services aient un site d'information commerciale sur le World Wide Web ou sur un service en ligne. Parions qu'ils n'auront pas à attendre.



11.6. Quel avenir proche?

Quelle que soit la force future des différents opérateurs (Microsoft, Netscape, IBM ou les autres...), nous nous souviendrons que, dans le domaine télévisuel, la technologie du téléviseur n'a guère influencé la qualité des programmes. La qualité du papier ne modifie pas le verbe du philosophe.

Parallèlement, la force des réseaux on line de demain dépendra principalement de lapertinence des informations véhiculées. Quoi qu'il en soit, nous assistons à un événement exceptionnel.

Le développement d'Internet, encore embryonnaire, est cependant la croissance la plus rapide qu'aucune industrie n'ait jamais vécue. Dans le temps, par l'échelle, par les volumes financiers en jeu et par les transformations sociales et culturelles qu'il génère.

Les mutations induites changent et changeront le rapport au savoir, au réel, au voyage. Elles poussent plus loin notre rapport à l'expérience vécue, à l'onirique et au fantasme.

L'enjeu des prochaines décennies est que la mise en réseau du savoir devienne, soit la chasse gardée du business international, soit le plus formidable tremplin des libertés démocratiques.

L'utilisation pédagogique est évidente; la création d'outils simples pour la gestion quotidienne de nos systèmes sociaux est souhaitable, mais, au final, qui va utiliser tout cela ? La vieille question demeure : quel message ? pour qui ? avec quelles intentions et quelles conséquences ?



12. Fonctionnalités détaillées du moteur de recherche Altavista



12.1. Présentation









Délai de rafraîchissement de l'index : délai moyen entre deux renouvellements complets de l'index du moteur.

Nom du spider : nom du robot utilisé pour "aspirer" les pages Web.



12.2. Historique

AltaVista est le résultat d'un projet de recherche amorcé durant l'été 1995 au sein des laboratoires de Digital à Palo Alto (Californie). L'idée de ce service est née au printemps de l'année 1995, lors d'une simple conversation entre Louis Monier, du Western Research Lab de Digital et Joella Paquette, expert marketing du groupe Internet Business, au cours d'un déjeuner. Par la suite, Paul Flaherty, du laboratoire des systèmes réseau de Digital, se joignit à l'équipe qui mit en place en quelques mois le service AltaVista.

Le projet, qui n'était au départ qu'un outil destiné à tester les nouvelles machines de Digital (les Alpha 8 400, autrement appelées TurboLaser) dans le cadre d'un index d'archivage de messages électroniques, allait devenir l'un des meilleurs outils de recherche en texte intégral sur le Web.

Il fallut, dans un court laps de temps (moins de six mois), concevoir non seulement un robot - nommé Scooter - capable de parcourir le Web le plus rapidement possible pour collecter plusieurs dizaines de millions de pages, mais également le serveur d'index (crée par Mike Burrows), le serveur Web et l'interface client. Enfin, il fallut tester le service en grandeur réelle et une partie du personnel de Digital fut mise à contribution sur un projet pilote. 10 000 employés l'utilisèrent pendant près de deux mois avant que le feu vert définitif ne fût donné.

La première mise en service du projet eut lieu le 15 décembre 1995, un peu dans l'affolement général, car deux jours avant son inauguration, le service changea de nom et de charte graphique avant qu'on ne revienne aux décisions initiales en quelques heures.

Le nom d'AltaVista vient d'ailleurs d'une coïncidence. L'équipe génitrice du moteur est géographiquement située à Palo Alto, en Californie. Un jour, le mot Palo Alto se trouva mal effacé sur un tableau blanc, laissant vaguement apparaître le deuxième terme (Alto). Le mot Vista se retrouva presque par hasard à côté de ce dernier, formant ainsi le mot "Alto Vista". Quelqu'un de l'équipe, voyant cela, s'écria : "eh, pourquoi pas Alto Vista !". Au prix d'une légère mutation de Alto en Alta, le nom du moteur était né. Il pourrait se traduire par : "vu d'en haut"... (c'est d'ailleurs de là que vient le logo représentant une montagne). Pour Digital, c'était une occasion rêvée d'effectuer une entrée médiatique en force sur l'Internet, qui comptait depuis quelque temps parmi ses priorités marketing et stratégiques. C'est, en tout cas, une illustration parfaite du fait qu'on peut rattraper un retard important sur l'Internet - AltaVista est loin d'avoir été le premier moteur de recherche par mots clés à apparaître sur le Web - si le produit est bon, et si l'équipe est réactive et sait prendre les bonnes décisions au bon moment.

Le premier jour de lancement, 300 000 utilisateurs étaient déjà au rendez-vous. Après trois semaines de fonctionnement, le site enregistrait déjà deux millions de requêtes par jour. En mai 1996, le service AltaVista indexait 30 millions de pages Web à travers le monde et recevait 12 millions de requêtes quotidiennes. En août 1997, il en était à 31 millions de requêtes par jour, en semaine. Le 14 octobre 1997, AltaVista annonçait un index de 100 millions de pages Web et la gestion de 20 millions de requêtes chaque jour avant de faire passer son index à 140 millions de pages en 1998.

L'interface utilisateur du service a été entièrement " relookée" fin juillet 1997, date à laquelle des systèmes d'aide comme la fonction Refine (anciennement appelée LiveTopics) et la possibilité de configurer ses préférences d'interface ont été rajoutés. Au début de l'été 1997, d'autres fonctionnalités comme la reconnaissance de requêtes écrites dans 25 langues différentes ont été intégrées.

A l'automne 1998, de nouvelles fonctionnalités ont été ajoutées, comme l'accord avec AskJeeves pour affiner les requêtes en posant de nouvelles questions, la possibilité de rechercher des images (AV Photo Finder) ou le filtre familial, en plus d'un nouveau lifting du look général.

Le service AltaVista est installé sur différentes machines travaillant sous Unix. Le serveur Web affichant l'interface utilisateur est hébergé sur trois stations Digital alpha 500/333s. Chaque station est dotée de 256 Mo de Ram et d'un disque dur de 6 Go. Les systèmes de recherche de l'information dans les pages Web mis en place fonctionnent sur sept serveurs Alpha 8400 5/300 munis de dix processeurs, 6 Go de Ram et d'un disque dur de 210 Go. Chaque serveur contient une copie complète de l'index du Web, d'une taille de 60 Go. Le temps de réponse sur une requête est d'environ une demi-seconde. Le robot Scooter s'exécute sur une machine AlphaServer 4100 5/300 disposant d'1,5 Go de Ram et d'un disque dur de 30 Go. Le système chargé d'indexer les pages Web "récupérées" par Scooter s'appelle Vista et fonctionne sur un serveur Alpha 4100 5/300 avec 2 processeurs, 2 Go de Ram et un disque de 180 Go. Le dispositif technique du système AltaVista Search représente, d'après Digital, une puissance équivalente à 375 PC haut de gamme mis en réseau. La connexion à l'Internet s'établit à l'aide d'une ligne à 100 Mbps. Le robot Scooter indexait 10 millions de pages par jour en 1998. Il scrute également de façon continue 2 000 sites majeurs (parmi les plus populaires) afin de fournir un contenu remis à jour le plus souvent possible.

Aujourd'hui la technologie AltaVista se décline en une multitude de produits, permettant de rechercher de l'information sur un intranet ou sur le disque dur d'une machine isolée. D'autres produits (notamment dans le domaine de la sécurité) ont également vu le jour. L'activité AltaVista est maintenant filialisée par Digital. Le service de recherche par mots clés a également été disséminé sur plusieurs serveurs miroirs en Asie, Australie, Amérique Latine, Europe du Nord (actuellement arrêtée) et Europe du Sud, sans oublier le site originel situé à Palo Alto, en Californie. Tous fournissent le même service, seule l'interface, et notamment la langue utilisée, change.



12.3. Syntaxe de Saisie



12.3.1.1. Recherche simple

AltaVista permet deux types de recherche, selon deux formulaires différents : une recherche simple (Simple Search), offerte par défaut sur la page d'accueil, et une recherche avancée (Advanced Search), pour les utilisateurs confirmés du service.





Minuscules/majuscules.


Requête saisie en minuscules : toutes les occurrences sont recherchées.

Exemple : ibm trouve ibm, IBM ou Ibm.

Requête saisie en majuscules : l'occurrence exacte est recherchée.

Exemple : Ibm trouve Ibm mais pas ibm ou IBM

Lettres accentuées


Requête saisie sans lettres accentuées : toutes les occurrences sont recherchées.

Exemple : electricite trouve electricite, électricité ou electricité.

Requête saisie avec des lettres accentuées : l'occurrence exacte est recherchée.

Exemple : électricité trouve électricité mais pas electricite ou electricité.

Ordre des mots


Important: paris dakar donne un résultat différent de dakar paris

OU


Opérateur par défaut.

Exemple : moteur recherche trouve les pages qui contiennent soit moteur, soit

recherche, soit les deux.

SAUF


-

Exemple : moteur -automobile recherche les pages qui contiennent moteur mais

qui ne contiennent pas automobile

Expressions


Guillemets.

Exemple : "moteur de recherche" recherche cette expression, les trois mots les uns à côté des autres et dans cet ordre.

Troncature


*

Exemple : mot* recherchera moteur, moteurs, motard, motards, etc.

Par défaut, mot ne trouve pas mots, moteur, motard, etc.

Recherche linguistique


Choix dans le menu déroulant.

25 langues sont disponibles, depuis le chinois jusqu'au suédois.

Recherche sur le titre des documents


title :

Exemple : title:copernic recherchera les documents qui contiennent le mot copernic dans leur titre.

Recherche sur le domaine


domain: Exemple : +moteur +domain:edu recherchera les documents qui contiennent le mot moteur et qui sont disponibles sur une machine dont le nom se termine en .edu (www.umich.edu...).

Recherche sur le nom du serveur


host:

Exemple : +moteur +host:honda recherchera les documents qui contiennent le mot moteur et qui sont disponibles sur une machine dont le nom contient le mot honda (www.honda.com, www.honda.jp...).

Recherche sur l'intitulé d'une URL


url:

Exemple : +moteur +url:honda recherchera les documents qui contiennent le mot moteur et dont l'adresse contient le mot honda (www.geocities.com/perso/honda.html, www.honda.jp...).

Recherche sur le nom d'une applet Java


applet:

Exemple : applet:javaclass10 recherchera les documents qui contiennent le nom de la classe javaclass10 dans les liens lançant une applet Java.

Recherche sur le nom des image


image:

Exemple : image:clinton recherchera les documents qui contiennent une image dont le nom contient le mot clinton (clinton.gif, clinton.jpg).

Recherche sur les adresses des liens


link:

Exemple : link:abondance.com trouvera les documents qui contiennent un lien vers une page du site dont l'adresse contient l'expression abondance.com (dans ce cas www.abondance.com).

Recherche sur les intitulés des liens hypertexte


anchor:

Exemple : anchor:abondance trouvera les documents qui contiennent un lien dont l'intitulé (donc le texte en couleur et souligné) contient le mot abondance.

Recherche sur le texte visible de la page


text:

Exemple : text:moteur trouvera les documents qui contiennent le mot moteur dans le texte visible de la page (et plus dans les adresses, les noms d'image, etc.).





12.3.1.2. Exemples de recherches simples

Commentaires : Les correspondances peuvent être obligatoires ou interdites. Faites précéder un mot ou une phrase obligatoire d'un signe plus (+) et un mot ou une phrase interdite d'un signe moins (-).



12.3.1.3. Un exemple de stratégie de requête

Supposons que vous recherchiez des informations sur les différentes langues parlées par les indiens d'Amérique mais que vous ne sachiez pas quelles langues spécifiques rechercher. Vous pouvez commencer par la requête suivante : american indian language.

Cette recherche est beaucoup trop vaste. Sur les dix premiers documents trouvés, quelques uns semblent pertinents mais les autres concernent des langues parlées sur le continent asiatique.

Stratégie

Déterminez exactement ce que doit analyser la requête. En d'autres mots, liez american et indian pour constituer une phrase. Incluez le pluriel de langage dans la recherche à l'aide de la troncature *.

Les documents trouvés comprennent des informations pertinentes sur les différentes langues des indiens d'Amérique, ce qui vous permet désormais d'affiner la recherche. Par exemple, supposons que vous vouliez en savoir plus sur la langue ojibwe mentionnée dans un des documents trouvés par cette requête.

Stratégie :

Incluez le mot ojibwe et ses variantes ojibway et ojibwa dans votre prochaine recherche. Comme il s'agit d'un mot indien, il est inutile de préciser indien d'Amérique dans la recherche.



12.3.1.4. Recherche avancée

Toutes les possibilités de la recherche simple ci-dessus restent valables sauf le ET, le OU et le SAUF qui sont proposés d'une manière différente. Vous trouverez plus d'informations dans l'aide officielle.



ET


AND (ou &)

Exemple : moteur AND recherche recherche les pages qui contiennent à la fois moteur ET recherche.

OU


OR (ou |)

Exemple : moteur OR recherche trouve les pages qui contiennent soit moteur, soit recherche, soit les deux.

SAUF


AND NOT, OR NOT

Exemple : moteur AND NOT automobile recherche les pages qui contiennent moteur mais qui ne contiennent pas automobile.

PROCHE DE


NEAR (ou ~)

Exemple : moteur NEAR automobile recherche les pages qui contiennent moteur et automobile proches l'un de l'autre (contenus dans une "fenêtre" de 10 mots au maximum).

Parenthèses

Permettent de coupler des requêtes. Exemple : (moteur AND automobile) AND NOT (moteur AND recherche).

Recherche sur la date des documents

Les champs From: et To: permettent d'indiquer une fourchette de dates pour la recherche. Celle-ci s'effectue sur la date de dernière modification des documents.





12.3.1.5. Exemples de recherches plus complexes

Il est possible de limiter les recherches à certaines parties de documents à l'aide d'un ensemble de mots clés. Le mot clé utilisé (link, title, image, etc.) doit figurer en minuscules et être immédiatement suivi de deux points.



12.3.1.6. Exemples de recherches dans les articles Usenet



12.3.1.7. Champs affichés dans la page résultats



Titre

Contenu de la balise TITLE (environ 80 caractères maximum). Si la page n' a pas de titre, l'information No Title est affichée

Résumé


Contenu de la balise META description (environ 150 caractères au maximum) si la page en contient une. Sinon, les premières lignes du document, légèrement relookées si nécessaire.

Taille du document

Oui (taille en Ko du fichier texte HTML)


Date


Oui (date de dernière modification si le document est indexé par Scooter lors d'une visite "classique" depuis un lien externe, date de la rentrée dans l'index si la page a ét é proposée par l'intermédiaire de la fonction Add URL)

URL

Oui

Autres


AltaVista indique également la langue dans laquelle est écrite la page (s'il a réussi à la reconnaitre) et propose une possibilité de traduction automatique du document (choix Translate)



12.4. Fonctions connexes

12.4.1. Fonctionnalités de recherche



Fonction Refine

permet d'affiner une recherche. Plus d'infos par l'auteur de la fonction.

Annuaire

LookSmart

Recherche en Chinois, Japonais, Coréen

OneWeb


Recherche d'images

AV Photo Finder

Recherche d'emplois

AltaVista Carrers

Loisirs

GetWild

Santé

Intelihealth

Cartes géographiques

AltaVista Maps

Pages blanches

Switchboard

Recherche d'e-mail

Switchboard

Finance

AltaVista Finance

Voyages

TheTrip.com

Forums de discussion (Usenet)

Usenet Search


Entreprises

Business Search





12.4.2. Autres fonctionnalités

Configuration d'interface

Set your Preferences (permet notamment d'effectuer des recherches sur plusieurs langues simultanément)

E-mail gratuit

Iname

Traductions

Systran

Envoi de cartes postales

Corbis

Logiciel Discovery

Logiciel de recherche d'information

Filtre familial

Permet d'enlever toute page relevant de pornographie, violence, etc. : AV Family Filter

Outils et gadgets

Calculatrices, dictionnaires, actualité, programmes télé: une liste de services intéressants : Tools





12.5. Référencement

1.1.1. Modalités du référencement



Vérification de la présence de vos pages dans l'index

Saisissez la requête : host:monsite.com qui vous indiquera la liste des pages de votre site présentes dans l'index d'AltaVista.

Nom et adresse de la fonction de soumission volontaire de pages

Add a site

http://www.altavista.com/av/content/addurl.htm


Informations demandées

URL uniquement

Vérification du moteur en temps réel

Oui

Délai de prise en compte de la page lors d'une soumission manuelle

1 ou 2 jours

Nombre maximal de pages soumises dans une journée

Pas plus de 1 ou 2, 5 au maximum

Délai avant indexation "naturelle" des autres pages par le spider

1 jour à 1 mois

Délai de rafraîchissement de l'index

6 semaines

Limites sur le nombre de pages indexées pour un même site

400 pages environ. AltaVista indique qu'il a mis en place des "limites de taille" sans préciser lesquelles.

Miroirs régionaux


6 miroirs sont disponibles : Canada, Europe du Sud, Allemagne, Asie, Australie et Amérique latine. Chaque index étant une recopie du site Californien, il n'est pas nécessaire d'effectuer un référencement spécifique sur les sites miroirs.





12.5.1. Modalités d’exclusion des pages

Fichier robots.txt

Oui : pris en compte

Balise META robots

Oui : prise en compte



12.5.2. Prise en compte lors de l’indexation des pages

Titre

Oui (environ 100 caractères maximum)

Balise META description

Oui (1 024 caractères maximum)

Balise META keywords

Oui (1 024 caractères maximum)

Commentaires <!-- -->

Non

Attributs ALT des balises IMG

Oui

Intitulé de l'URL

Oui

Frames

Le fichier principal est indexé, et parfois le contenu de chaque cadre.

Imagemaps

Oui

Corps du texte


Oui (tout le texte de la page est indexé jusqu'à 100 Ko. Au-delà, seuls les liens sont indexés. Au-delà de 4 Mo, plus rien n'est indexé).



12.5.3. Importance relative des différents critères



Titre

***

Balise META keywords

*

Indice de popularité de la page

Pas pris en compte

Corps du texte

**



Ce tableau décrit les champs pris en compte par le spider lors de l'"aspiration" des pages

HTML. Quelques explications complémentaires :

Intitulé de l'URL : chaque terme de l'URL peut servir de mot clé. Exemple :

http://www.abondance.com/produits/epicerie/stylos.html peut fournir les mots clés

abondance, produits, epicerie et stylos.

Frames : Le fichier principal est celui qui contient la balise <FRAMESET>.

Imagemaps : Il s'agit des Imagemaps contenant la description des zones dans la balise HTML

(fonction USEMAP).



12.6. LiveTopics : recherche visuelle d'information sur l'Internet

(François Bourdoncle, Ingénieur en Chef des Mines)



12.6.1. Présentation

Le formidable succès de l'Internet ces dernières années a conduit à une croissance exponentielle du nombre d'utilisateurs mais aussi du nombre de documents accessibles sur le réseau. Il est donc devenu de plus en plus difficile de naviguer sur Internet et de trouver ce que l'on cherche. C'est dans ce contexte que se sont développés deux types de services permettant de localiser rapidement l'information et les services sur le réseau.

Les services de type "annuaire" ou "pages jaunes", répertorient de manière non exhaustive les serveurs World-Wide Web et associent à chaque serveur une catégorie préétablie. La classification des serveurs est manuelle, et les catégories sont en nombre très limité. Ces services sont donc adaptés à la recherche d'informations très "génériques". Le plus connu des annuaires de l'Internet est Yahoo (http://www.yahoo.com).

Les "moteurs de recherche", en revanche, récupèrent à l'aide de robots logiciels tous les documents accessibles sur les serveurs du réseaux, et indexent ces documents de façon entièrement automatique. On interroge les moteurs de recherche en formulant des requêtes dans des langages spécialisés, dont certains sont assez proches de la langue naturelle. Le grand avantage des moteurs de recherche est qu'ils donnent accès à toutes les informations disponibles sur le réseau (ou presque). Les moteurs de recherche sont donc tout à fait adaptés à la recherche d'informations spécialisées ou de personnes. Le plus connu et le plus puissant des moteurs de recherche est AltaVista, developpé par la société Digital Equipment Corporation, qui est consulté plus de 30 millions de fois par jour (http://www.altavista.digital.com).

Malgrès un engouement croissant du public pour les moteurs de recherche, il a vite fallu se rendre à l'évidence que plus le nombre de documents répertoriés dans la base de données d'un moteur de recherche était élevé, plus il devenait difficile de localiser la "bonne" information : la moindre des requêtes sur AltaVista retourne en effet fréquemment plus de quelques milliers voire dizaines de milliers de réponses, et il est très difficile de localiser l'information pertinente dans cette masse énorme de documents sans utiliser des requêtes booléennes sophistiquées contenant les bons mots-clefs, ce qui n'est pas à la portée de l'utilisateur moyen du World-Wide Web.

C'est en faisant ce constat que j'ai eu l'idée de développer une nouvelle technologie permettant à des non spécialistes d'utiliser une interface visuelle très simple pour retrouver des informations pertinentes dans de très grandes bases de données en texte intégral, que celles-ci soient le World-Wide Web lui-même ou des bases de données en Intranet. Une license d'utilisation de cette technologie a été acquise l'année dernière par la société Digital Equipment Corporation afin d'êre intégrée sous le nom de LiveTopics dans son moteur de recherche AltaVista.



12.6.2. Carte thématique proposée en réponse à la requête "greenhouse effect" (effet de serre).

La technologie LiveTopics a été développée en essayant de fusionner et de dépasser plusieurs techniques classiques de recherche documentaire, chacune avec ses avantages propres. L'une des plus anciennes techniques de recherche documentaire est l'utilisation d'un algorithme d'estimation automatique de pertinence pour présenter à l'utilisateur quelques dizaines de documents jugés les plus pertinents parmi tous ceux correspondant à sa requête. Les meilleurs moteurs de recherche sur l'Internet, dont AltaVista, utilisent ces techniques pour essayer de limiter l'impact de la taille de leur base de données. Malheureusement, les techniques d'estimation automatique de pertinence, pour importantes qu'elles soient, sont intrinsèquement limitées pour deux raisons principales. Tout d'abord, les algorithmes utilisés n'étant en général pas connus des utilisateurs, ces techniques ont un côté "magique" qui, aussi séduisant soit-il, rend leur utilisation assez délicate dès que la taille de la base de donnée augmente et que le nombre de termes utilisés dans la requête est faible. En effet, il est assez peu probable qu'un mécanisme quel qu'il soit permette de choisir la "bonne" dizaine de documents parmi les quelques 60000 parlant "d'effet de serre" sur le World-Wide Web, car cette thématique est beaucoup trop vaste pour être réduite à un nombre si faible de documents. Sans indication supplémentaire fournie explicitement par l'utilisateur, il est donc impossible de savoir si celuici s'intéresse plutôt à la partie scientifique (absorption des rayonnements infrarouges par les gaz à effet de serre, modèles de circulation océanique, etc.), aux impacts socio-économiques (politique énergétique, carburants de substitution, nucléaire, etc.), aux impacts sur les écosystèmes (fonte des glaces polaires, montée du niveau des océans, etc.), etc. Une deuxième technique, connue pour fournir de bons résultats, est la technique de contrôle de pertinence, qui permet à l'utilisateur d'émettre un jugement sur la pertinence des documents proposés en réponse à ses requêtes. Ce jugement est alors automatiquement pris en compte par le moteur de recherche qui reformule la requête de manière plus précise et permet ainsi d'affiner la recherche. Le grand avantage de cette technique est que le caractère "magique" de l'estimation automatique de pertinence est en grande partie gommé, et que l'utilisateur reste seul juge de la pertinence des résultats de ses requêtes. En revanche, cette technique est assez laborieuse, car elle impose à l'utilisateur la lecture de nombreux articles (et, sur Internet, le télé-chargement des articles en question via le réseau, ce qui peut prendre beaucoup de temps) et, surtout, il n'est pas certain que les articles sur lequel l'utilisateur est amené à se prononcer soient statistiquement représentatifs de l'ensemble des thèmes ou sous-thèmes de la requête, ce qui fait qu'il est tout à fait possible qu'un thème majeur soit ignoré.

Lorsque le domaine de la base de données est très étroit, il est possible de proposer à l'utilisateur une recherche thématique faisant appel à une taxinomie pertinente du domaine. Cette taxinomie est en général figée et compilée de manière manuelle ou semi-manuelle par des experts du domaine, ce qui est, en général, un gage de pertinence. L'utilisation de telles taxinomies est évidemment très intéressante car elle permet une navigation très rapide et augmente singulièrement la qualité des recherches. En revanche, une telle approche est peu ou pas adaptée à des bases de données à spectre large, comme le World-Wide Web, pour lesquels l'idée même de taxinomie statique n'a pas grand sens, mais également aux domaines qui évoluent rapidement, rendant la taxinomie obsolète avant même qu'elle ne soit achevée.

La technologie LiveTopics est une synthèse originale des trois techniques précédentes permettant à l'utilisateur de formuler aisément des requêtes ciblées grâce à un contrôle de pertinence thématique et visuel. Plus précisément, le principe de fonctionnement de LiveTopics consiste à fournir à l'utilisateur, après chacune des ses requêtes, une cartographie thématique, obtenue de manière entièrement automatique, des documents correspondant à sa requête, en garantissant la représentativité statistique de la carte. Cette carte représente l'ensemble des thèmes identifiés par le logiciel pour la requête, ainsi que des liens entre thèmes représentant une certaine forme de proximité (ou d'opposition) sémantique. Par exemple, le thème "écologie" pourra se retrouver proche du thème "nucléaire" dans une analyse de la requête "effet de serre" non pas parce que le nucléaire est une source d'énergie écologique en général, mais plutôt parce que, dans le contexte des controverses en cours sur l'effet de serre, les partisans de l'énergie nucléaire ont argué du fait que les centrales nucléaires ne rejetaient pas de gaz carbonique et étaient donc plus écologiques que les hydrocarbures fossiles.

Les thèmes eux-mêmes consistent en un ensemble de mots qui, collectivement, définissent généralement un thème ou un discours. Par exemple, le thème "nucléaire", dans le contexte de l'effet de serre, pourra contenir des mots comme "réacteur", mais aussi des mots comme "Tchernobyl" ou encore "radioactif", indiquant par là même que les écologistes répondent preuves à l'appui au discours du lobby nucléaire sur le sujet! On voit donc que l'aspect dynamique de l'analyse thématique est essentiel pour fournir à l'utilisateur une information pertinente et ciblée, car le thème "nucléaire" serait très différent dans le contexte de la mécanique quantique par exemple.

Du point du vue interface utilisateur, une appelette Java, télé-chargée dynamiquement par le navigateur, permet une représentation graphique de la carte à deux niveaux : initialement, seules les têtes de chapitre des divers thèmes sont présentés, ainsi que leurs relations, et le contenu de chacun des thèmes peut être découvert dans un second temps. Cette présentation en deux étapes de l'information permet une première méta-analyse de la carte, de ses grandes régions, tendances, et méta-concepts, suivie d'une analyse plus fine de chacun des thèmes. De plus, l'expérience tend à monter que la visualisation des relations entre têtes de chapitre est une représentation du savoir aisément assimilable par l'esprit humain, associatif par essence, ce qui facilite grandement l'appropriation de l'outil.

Une fois la carte analysée, l'utilisateur peut, d'un simple clic de la souris, indiquer sa préférence pour tel ou tel thème ou, au contraire, filtrer le bruit en excluant certains termes de sa requête et, enfin, soumettre une requête affinée au moteur de recherche. Dans le cas d'AltaVista, le mécanisme d'analyse automatique de pertinence utilisé pour les requêtes simples fait alors usage des mots additionnels spécifiés par l'utilisateur pour améliorer la pertinence des documents présentés à ce dernier. Une utilisation particulièrement intéressante de LiveTopics est le filtrage du bruit. Par exemple, une requête comme "cryptographie" correspond aussi bien à des documents mathématiques sur les diverses techniques de cryptographie et de factorisation des grands nombres en nombres premiers qu'à des documents sur l'utilisation de la cryptographie, par exemple pour le paiement sécurisé sur l'Internet. Il est donc important de pouvoir immédiatement exclure la thématique qui n'est pas l'objet de la recherche. De même, LiveTopics peut être utilisé pour trouver le sens d'un acronyme comme "BSE", qui signifie, entre autres, Bovine Spongiform Encephalopathy, Breast Self Examination, Bombay Stock Exchange, ou encore Bachelor of Science in Engineering. En combinaison avec le mécanisme d'exclusion, il est ainsi possible, en excluant les différentes significations d'un acronyme et en itérant le processus de cartographie thématique, de faire progressivement émerge.

Tous les droits, en particulier le droit à la reproduction et à la diffusion de même qu?à la traduction, sont réservés. Aucune partie de l?ouvrage ne doit être ni reproduite et sous aucune forme (photocopie, microfilm ou autres procédés) ni modifiée, diffusée ou propagée par l?emploi d?un système électronique, sans l?autorisation écrite du détenteur des droits.

1 « Initiation aux outils d’internet » (Lamarre, Cazalens, Griffiths, Instenes, Martienne, Trichet) Copyright ©1997, Philippe Lamarre - IRIN - Nantes

2 Environ 2 millions de caractères par seconde

3 Ordinateur le plus puissant existant à l'heure actuelle

4 fouineur, bouquineur…



5 en français on rencontre parfois le néologisme: courriel

6 Domain Name System Structure and Delegation

7 NIC : Network Information Center – centre d'information sur le réseau

8 Internet Assigned Number Authority

9 Pour une liste complète, voir le document <http://www.iana.org/innotes/ iana/assignments/country-codes>.

10 Association Française pour le Nommage Internet en Coopération

11 La théorie de l'hypertexte a fait l'objet de nombreux travaux. On peut trouver des références

sur ce sujet sur le site de la société Eastgate (<http://www.eastgate.com/Hypertext.html>).

12 Le site <http://www.cs.jhu.edu/~weiss/ir.html> (par Scott Weiss, John Hopkins University)

propose également une vue d'ensemble intéressante sur la recherche d'informations sur

Internet, avec des références de ressources et de travaux.

13 Il convient de distinguer cette classe de problèmes de celle des problèmes de bases de données, dans lesquels les langages de manipulation de données et de requêtes sont structurés de façon précise et ne permettent aucune ambiguïté.

14 Un terme objectif est extrinsèque au contenu sémantique d'un document, et il n'y a généralement pas de désaccord sur la façon de les attribuer. On peut donner comme exemples le nom de l'auteur, l'URL du document ou sa date de publication.

15 Pour des informations plus détaillées sur les méthodes d'indexation automatique, on pourra consulter [GRG+97] ou [Mar97].

16 Dans [Mar97], on trouve une classification différente, faisant apparaître d'autres types de modèles, et également certaines contradictions avec la présentation de [GRG+97], que l'on utilise ici.

17 Parmi les catalogues, Yahoo! semble être, et de loin, le plus efficace et le plus complet. Le moteur proposé par le site DejaNews apparaît comme le meilleur outil spécialisé dans la recherche dans les news.

1