Transcript
du chat avec François Bourdoncle, Exalead
François
Bourdoncle, Exalead
François Bourdoncle est le PDG de la société
Exalead,
qui fournit la technologie de recherche d'information
au nouveau
moteur d'AOL.FR. Il est également Professeur
associé à l'Ecole Polytechnique. Il a
travaillé en 1993 et 1994 sur le moteur de recherche
Altavista
pour lequel il a créé la fonction "Refine"
(noms de code "Cow9" ou "Live Topics") qui permettait
d'affiner une recherche en proposant plusieurs mots
clés connexes par analyse statistique des pages
proposées pour la requête.
Le Chat avec François Bourdoncle s'est
déroulé le mardi 21 mai 2002, à
18h00, en partenariat avec Canalchat.
Voici le résumé de la conversation en
ligne :
Bonjour à toutes
et à tous, nous avons le plaisir d'accueillir
François Bourdoncle, PDG de Exalead !
Bonjour, je suis très content d'être là.
XXX : A quelle fréquence
le moteur de recherche va-t-il réactualiser son
index ?
Une fois par semaine dans les premiers temps, de manière
plus intelligente par la suite.
Bob : Pouvez-vous nous présenter
Exalead ?
Exalead est née en septembre 2000, pour commercialiser
une technologie de recherche développée
à l'Ecole des Mines de Paris.
Steph : Monsieur, aujourd'hui,
combien de personnes travaillent dans votre entreprise
?
C'est la première fois que je chatte (hé
oui!) donc je vais essayer de répondre dans l'ordre!
Aujourd'hui 18 personnes travaillent chez Exalead.
Gat : Sur un marché
très anglo-saxon, comment les frenchies parviennent-ils
à se faire une place au soleil ? Est-ce difficile
?
Oui, évidemment, ce n'est pas facile, surtout
dans le contexte économique actuel. Ceci étant,
la France est reconnue pour sa créativité
en matière de technologie. Il s'agit donc de
savoir vendre cette technologie.
arnaudf1 : M. Bourdoncle,
envisagez-vous d'approcher le marche américain,
et si oui, quelle approche envisagez-vous ?
Olivier_Andrieu :Visez-vous le marché mondial,
européen ou "simplement" national ?
Nous visons bien entendu le marche mondial (cela n'a
aucun sens pour une entreprise de soft de ne viser que
le marche national ni même européen). Mais
il s'agit pour nous d'y aller "pas à pas" dans
un contexte économique qui impose de financer
le développement par la vente.
Luc : Quelles sont précisément
les activités d'Exalead ? Merci.
Exalead commercialise une "plateforme" de "recherche
et de navigation". Cela signifie que nous commercialisons
non seulement un moteur de recherche (au sens traditionnel)
mais aussi tout un environnement de gestion documentaire
permettant de faire du "sur mesure". Cette plateforme
repose sur un langage de gestion documentaire (ExaScript)
qui fédère Java, XML et PHP, pour faire
court.
arnaudf1 : Qui considérez-vous
être votre principal concurrent ? Altavista multimedia
search ? Ditto.com ? LookThatUp ?
Notre compétition est très large : Google/Inktomi/Fast
pour le Web, Verity/Autonomy/etc. pour l'Intranet, et
même des solutions de commerce électronique
pour notre offre "market". Mais ce qui nous distingue
de la compétition est l'aspect "plateforme".
T_Bertrand : Faites-vous
des démarches auprès de certains portails
pour fournir votre technologie ? Si oui, lesquels ?
MinasuTsunami : Votre moteur de recherche, il sera disponible
seulement pour AOL où est-ce qu'il pourra être
incorporé sur un site d'un utilisateur ?
Notre technologie a vocation à être intégrée
à de nombreux types de portails, des portails
généralistes comme AOL aux plus petits.
Nous sommes en train de packager notre offre pour "descendre
en gamme", et ExaScript sera une clef dans ce processus.
Lionel1 : Parlons technique
: La technologie de votre moteur permet-elle l'indexation
des sites dynamiques ?
Notre crawleur peut passer partout, et comprend aussi
bien les formats Web (HTML, XML) que les formats Microsoft
Office ou PDF, même si notre site Web et celui
d'AOL n'indexent que les HTML. Pour les sites dynamiques,
ExaScript peut là-aussi être utilisé
pour paramétrer l'accès aux formulaires,
qui rend la tâche des crawleurs normaux difficile.
Olivier_andrieu : Comment
jugez-vous le marché du "search" au niveau mondial
: Altavista, Inktomi, Google, Fast et... Exalead. D'autres
prétendants ?
C'est un marché... difficile! Très peu
de clients (très exigeants ;-) et quelques gros
acteurs. Notre positionnement est celui d'un éditeur
logiciel. Ceci est très différent de Google
qui est uniquement fournisseur de résultats de
recherche (même si la Google box tend à
se rapprocher du métier d'éditeur). Nous
comptons donc bien rester éditeurs.
galadrielle44 : Pourriez-vous
nous dire pourquoi, souvent le moteur de recherche d'AOL
redirectionne ? C'est franchement fréquent comparativement
aux autres.
"Redirectionne" vers quoi ?
rua : Merci pour votre invitation
j'ai essayé votre moteur de recherche sur AOL
avec comme critère de recherche le mot "prise
de son" le résultat est curieux, faut-il utiliser
une méthode particulière pour un bon résultat
?
Il faudrait mieux que non... pourquoi le résultat
est-il curieux ?
rua : les mots sortent décomposés
prise de et parfois son. Les mots sont en " ."
Effectivement sur cette requête c'est pas génial...
mais "prise" et "son" sont des mots très polysémiques.
Nous avons identifié ce genre de pathologies
et le fix est déjà prêt.
T_Bertrand : Que pensez-vous
des liens payants du type E-Spotting et allez-vous en
placer dans vos pages de réponses ?
Nous fournissons juste la technologie a AOL qui est
maître du portail.
Arpanet : Consacrez-vous
encore beaucoup de ressources à la recherche
pure ou vous préférez attribuer toutes
vos ressources à la commercialisation ?
Nous consacrons encore beaucoup d'effort a la R&D (2/3
des effectifs) mais cela va changer très vite
quand nous allons passer a la vitesse supérieure.
maxime :Une adresse URL
non exotique a-t-elle plus de chance de se faire référencer
qu'une adresse exotique (avec des ?, &) ?
Non, nous utilisons des algorithmes statistiques plus
"robustes" pour détecter le spam ;-)
Olivier_Andrieu : Que pensez-vous
des technologies Wisenut et Teoma ?
Ces technologies (ainsi que celle de FAST Topics) affichent
des mots-clefs pour affiner les requêtes, mais
la qualité de ces derniers est loin de la nôtre
(je pense...). Essayez par exemple "effet de serre"
sur ces trois moteurs... Nous essayons d'aller plus
loin que l'affinage, et "d'expliquer" les requêtes
vagues.
miara : Comptez-vous mettre
une page de soumission ?
Cela n'est pas prévu pour l'instant, notre crawleur
se débrouille tout seul. Mais AOL a annoncé
qu'ils en mettraient une sur leur annuaire je crois.
clicdecouvre : Les mots
clefs sont-ils plus importants que le titre de la page,
pour le référencement ?
De quels mots-clefs parlez-vous ? (meta-tags?) Si c'est
de meta-tags, la réponse est non, ils sont ignorés.
aba : Quels sont les critères
les + pertinents pour un bon référencement
: URL, titre, corps du texte, métas, indice de
pop, commentaires... ?
Le titre compte un peu. Sinon, pour le reste, c'est
une question de statistiques une fois de plus. Le mieux
est encore d'écrire des documents "normaux" !
bic : Quels sont les moyens
pour un annonceur d'augmenter son trafic avec Exalead
?
Aucun pour le moment.
elji : Même les metatags
"description" sont ignorés ? Quelle est la valeur
des balises alt des images ?
Nous ignorons essentiellement tout ce qui n'est pas
visible, pour des raisons bien connues maintenant.
arnaudf1 : Poursuivant la
question de Lionel, envisagez vous de développer
des "trusted feeds" avec les producteurs de contenu,
ou bien comptez-vous sur le crawl pour construire votre
index ?
Nous sommes ouverts à toutes les bonnes idées
!
maxime : Y-a-t-il une limite
d'indexation de pages pour un site ?
Pas de limite fixe, mais une limite "adaptative" en
fonction de "l'importance" du site.
arnaudf1 : Envisagez-vous
un "Cost Per Click" modèle pour les portail,
ou bien comptez-vous « focuser » sur le
Licensing de votre "plateforme" en termes de revenus.
Là aussi, nous sommes ouverts. Nous commercialisons
déjà en CPC pour Bouygues Telecom par
exemple (6e sens).
clicdecouvre : Faut-il référencer
son site tous les 3 ou 4 mois pour figurer en bonne
position (dans les 3 ères pages) dans les moteurs
?
A priori, je ne vois pas pourquoi, c'est notre crawler
et la popularité de votre site qui décideront
de son sort !
fabrice : Est-ce que vous
recrutez des gens en ce moment ? Si oui, de quel profil
?
L'équipe technique est aujourd'hui bien remplie,
mais nous sommes preneurs de gens bons et motivés.
Sinon, nous allons développer l'aspect commercial.
elji : L'importance du site
? C'est défini comment ?
Par analyse des liens.
bic : Avez-vous envisagé
des solutions pour les annonceurs alors ?
Non, pas encore.
arnaudf1 : Avez-vous envisagé
d'approcher Verity, Documentum, Autonomy, ... dans le
cadre d'une alliance pour compléter leurs services,
en ajoutant Multimédia à leur technologie
de recherche de contenu texte ?
Nous ne traitons que le texte, pas le multimédia
(nous ne sommes donc pas concurrent de LookThatUp, mais
partenaires ; en revanche, nous sommes concurrents de
Verity!).
bonnetoile : Pourquoi, d'après
vous, Google est-il en tête de classement des
outils de recherche aujourd'hui ? Et en faisant un tableau
+/- entre votre produit et Google, quels seraient les
2 têtes de ponts de chaque colonnes ?
Google a innové en son temps et fait très
bien ce qu'il fait. Leur succès est dû,
entre autre, à l'absence de pub et à la
pertinence du moteur. Leur gros plus par rapport à
nous est la taille de l'index et sa fraîcheur.
Notre gros plus est la "navigation" unifiée "annuaire/moteur"
et les mots-clefs.
PABPierre : Comment se fait
le référencement d'un site "dynamique",
en PHP par exemple ?
Nous suivons les liens.
elji : Quelles sont les
limites du moteur pour l'indexation de pages dynamiques
?
Le concept de page dynamique n'est pas vraiment défini.
Le moteur ne fait en fait pas la différence.
Arpanet : Est-ce que la
technologie d'Exalead prend en charge dans son index
toutes sortes de documents (pdf,excel, etc) ?
Oui : Bases de données SQL, Lotus Notes, Microsoft
Office et PDF, HTML, XML.
espotting : Pourquoi votre
technologie est si peu gourmande en ressource machine
?
Une combinaison d'innovations (architecturale, algorithmique)
et une techno 64 bits "from the ground up", comme on
dit.
Simon : Bonjour, je voudrais
savoir quelle est votre formation initiale ?
Polytechnique + Doctorat en informatique.
Olivier_Andrieu : Comptez-vous
mettre en place une fonction "Add URL" ?
Pas directement, mais AOL devrait le faire pour son
annuaire.
maxime : Si je tape "achat
dvd" il n'y a aucune grosse entreprise de e-commerce
proposant ce service (fnac,amazon,cinestore,cdiscount)
qui apparaît en première page !!! Comment
cela se fait-il ?
Faites ça sur Google, ça donne la même
chose.
elji : En quel langage le
moteur a-t-il été développé
? C ?
400.000 lignes de C (le moteur, le crawleur, la plateforme
ExaScript).
Hélène : Quelle
est la différence entre moteur de recherche et
moteur de navigation ? Vous semblez insister sur le
fait qu'Exalead est d'avantage un moteur de navigation.
Pourquoi ?
"La navigation commence là où la recherche
s'arrête" : c'est notre slogan ;-) La navigation
est la capacité pour le moteur à proposer
des stratégies de recherche à l'internaute.
Nous faisons cela par le biais des mots-clefs et des
catégories les plus pertinentes. Cela permet
de ne jamais laisser l'utilisateur face à une
voie sans issue et de le prendre par la main, de la
"guider", de l'aider à naviguer.
arnaudf1 : Envisagez-vous
d'ouvrir un bureau aux US, pour commercialiser la technologie
aux US ?
Oui.
Olivier_Andrieu :Vous avez
travaillé chez Altavista il y a quelques années.
Qu'y avez-vous fait ? Quelle est votre vision sur Altavista
aujourd'hui ?
Je travaillais en fait pour l'Ecole des Mines de Paris,
et j'ai développé (et vendu) la technologie
"Refine" (LiveTopics/Cow9) à AltaVista. Cette
techno permettait d'affiner les requêtes en présentant
une carte conceptuelle des résultats de la recherche.
arno : Pensez-vous que le
passage du référencement gratuit au modèle
payant pour la plupart des moteurs et annuaires va influencer
la qualité des résultats obtenus lors
de la recherche des internautes ?
C'est très possible, malheureusement.
elji : Quelle est la fréquence
de rafraîchissement de la base ?
Une semaine.
Arpanet : Vous disiez tout
à l'heure que le nombre de liens était
important pour Exalead. Utilisez-vous les mêmes
formules mathématiques de PageRank que Google
?
Non, nous avons notre propre approche.
Olivier_andrieu : Quels
sont vos projets de développement ?
L'offre Intranet est notre prochain axe majeur de développement.
La plateforme peut avoir de nombreuses applications
"industrielles" au delà de celle des portails.
elji : De mes 4 sites, vous
n'en référencez qu'un seul !
Désolé ;-)
movie2 : Portabilité
de la plateforme Exalead : Les solutions Exalead fonctionnent-elles
également sous mac OS et plus particulièrement
sous MacOS X ?
Nous fonctionnons sur tout Unix "classique" 32 bits
ou 64 bits et sur Windows 2000. Nous n'avons pas encore
porte la plateforme sous MacOs X mais nous y songeons
!
Olivier_Andrieu : La technologie
Exalead peut-elle s'appliquer sur toute forme d'annuaires
(Yahoo!, Nomade, Looksmart, etc.) ?
Oui.
elji : Que puis-je faire
?
Prenons ça offline si vous voulez bien !
n de sainte agathe du CHU
de besancon : Altavista a essayé live topics
et ne l'utilise plus. Pourquoi ? Quelles conclusions
?
AltaVista a "débranché" LiveTopics après
le départ de Louis Monier et de l'équipe
qui savait s'en servir... Ils devaient le rebrancher
mais cela n'a jamais été fait ;-( Ceci
étant, "Refine" était l'une des plus importantes
features optionnelles d'AV à la grande époque
;-)
Kaz : Afin de mieux vous
connaître pourriez-vous nous dire qui sont les
clients de votre technologie ?
Aujourd'hui nos principaux clients sont Bouygues Telecom,
Scoot France et AOL, sur des applications très
différentes de notre techno. Par exemple Scoot
utilise un très gros applicatif ExaScript pour
son service de pages jaunes.
fred : Avec Google, Inktomi,
fast, etc., le marché des moteurs semble déjà
bien occupé... Sitôt arrivés, vous
semblez déjà vous tourner vers les solutions
d'entreprise. Aveu d'échec ?
Non, stratégie initiale ;o) Le Web n'est pour
nous que le haut de gamme de notre plateforme.
aba : Je vous trouve très
discret concernant le référencement…
Quand vous parlez de stats et de liens, pouvez-vous
préciser ?
Non désolé, c'est un peu trop technique
et surtout un peu confidentiel ;-)))
Olivier_Andrieu : La solution
pour un moteur de recherche est-elle de s'attacher au
côté "quantitatif" du web plutôt
qu'au côté "qualitatif" ? En d'autres termes,
Google avec son index de 2 millliards de pages, est-il
dans la bonne direction à votre avis ?
Abondance (;-) de bien ne nuit pas... Mais à
quoi servent 2 milliards de pages si on voit toujours
les mêmes en tête des résultats ???
Notre approche permet d'aller chercher "en profondeur"
dans le web, en plus de classer par popularité.
Elle est donc plus "démocratique" (enfin, façon
de parler!).
bonnetoile : Pourquoi AOL
? J'accepte toutes les réponses sauf "Et pourquoi
pas".
Et pourquoi pas? ;-) Plus sérieusement, nous
voyons et avons vu beaucoup de monde, mais rares sont
les sociétés aujourd'hui qui ont les moyens
et surtout l'envie d'innover. Nous sommes ravis de notre
partenariat avec AOL, car nous sommes en phase sur ce
plan.
elji : Envisageriez-vous
le développement vers le bas, ex : moteur de
recherche interne à un site.
Oui, ça viendra en son temps. Nous "descendons
en gamme" actuellement.
Suisstech : Vous pensez
qu'un jour au l'autre un seul moteur de recherche sera
présent ? Et fini ces multiples moteurs ?
Non, je ne le pense pas.
hobs : Beaucoup d'internautes
sont habitués aux opérateurs (même
si peu les utilisent réellement selon les stats),
n'y a t-il pas un "risque" dans le fait de ne pas proposer
de tels outils sur Exalead (problème de repères
et d'habitudes, sentiment de "frustration" parfois dans
la recherche ...) ?
Ils existent (sur notre site et certains sur AOL) :
le "+" le "-" le "/" (disjonction de mots) les guillemets
et d'autres encore uniquement disponibles sur la plateforme
(pas sur le site).
Arpanet : Avez-vous envisagé
une variante de votre moteur de navigation en langage
naturel ?
Non, notre approche est plutôt de faire des partenariats
sur ce qui n'est pas notre "core business".
Olivier_Andrieu : Question
bête : Je veux mettre une solution Exalead sur
mon portail demain sur la base d'une solution technique
"classique". Ca me coûte combien ? Une fourchette
de prix ?
En gros le prix du marché ;-))
elji : Ne craignez-vous
pas que le classement par popularité projette
en haut des sites pornos ?
Nous faisons en sorte que cela n'arrive pas, mais je
ne peux pas vous en dire beaucoup plus...
aba : Si AOL met en place
un "add url" cela veut-il dire que si on est indexé
sur AOL on le sera sur Exalead ?
Cela reste a définir.
Suisstech : Je trouve que
le web devient une fourmilière de sites pas forcément
utiles et de contenu bizarre. Qu'en est-il ? Une acceptation
dans les moteurs se fera à la longue, plus pointue
en terme de qualité ?
Le critère de popularité de Google est
un premier critère de tri en la matière.
Le futur se devra d'être plus malin, en effet.
Nous y travaillons bien sur mais la tâche est
vraiment difficile.
Louloutte : Pouvez-vous
m'expliquer ce que signifie et en quoi consiste le passage
à l'échelle et le text mining ? Comment
Exalead utilise-t-il ces notions ?
Le "passage a l'échelle est la capacité
d'une technologie de recherche à indexer 10millions,
puis 100 millions, puis 1 milliard, puis 10 milliards
de documents sans broncher. Le text mining est la capacité
d'une technologie à "comprendre statistiquement"
les textes.
bonnetoile : On parle beaucoup
de votre façon de présenter les résultats
mais en coulisse. Comment se passe l'indexation : Comment
faites vous pour thématiser une URL robotiquemement
? (Comment faites vous la différence entre le
corps du texte, et les menus autours);(Certains mots
d'un texte peuvent être hors-contexte : comment
faites-vous pour les écarter ?)... ?
Là aussi, c'est une affaire de statistiques (élimination
des parties redondantes par exemple). Le principal problème
étant... le passage a l'échelle !
bsile : Est-ce que Exalead
est une entreprise rentable ?
Nous espérons atteindre l'équilibre opérationnel
fin 2002. Mais les temps sont durs ;-).
Arpanet : Peut-on consulter
une étude expliquant votre façon de calculer
la popularité des sites Web, ou est-ce "Top Secret"
?
D'après vous ? ;-)
Louloutte : Quelle est la
taille de votre index pour le web français et
mondial ?
50 millions de pages francophones et 100 millions d'anglophones
(mais c'est une vielle démo non maintenue a jour!).
Merci beaucoup François
Bourdoncle, le mot de la fin ?
Je ne pensais pas que c'était si fatiguant de
répondre a toutes ces questions ! Merci à
tous pour votre intérêt !
Et mille mercis à François Bourdoncle
pour avoir répondu en direct aux questions des
"chatteurs" !