Skip to main content

Avez-vous déjà eu l’impression de passer à côté d’informations importantes pendant la recherche ? Avez-vous déjà douté que les données recherchées pourraient se trouver dans un coin caché du Web ? Pourtant inaccessible pour vous ? Vous souhaitez vous assurer d’avoir accès aux résultats de recherche les plus fiables et les plus précis ? Les outils d’exploration de Data Web Mining sont une solution efficace. Ils vous permettront d’optimiser votre temps, de vous rapprocher de l’exhaustivité et de confirmer de l’abondance ou de l’absence d’informations sur vos sujets. 

Depuis plus de 20 ans, IXXO optimise la recherche d’informations et le cycle de l’information stratégique au sein des entreprises qu’elle équipe et conseille. Pour toutes démarches de veille, IXXO Beyond Data automatise l’exploration et la recherche d’informations, sur le web de surface et Deep Web, en plus de 25 langues. Mais qu’est-ce que le Data Web Mining et pourquoi devez-vous investir dans ces technologies ?  

Tout d’abord le Web Mining consiste à utiliser des techniques et algorithmes d’exploration de contenus provenant directement du Web de surface et Web profond pour en extraire des données lesquelles peuvent être complétées par des informations attendues par les équipes métiers (innovation, marketing, recherche, direction, etc …). 

Qu’est-ce que le Web Visible ?  

Page Web

Le web visible désigne l’ensemble des pages et des sites accessibles par les moteurs de recherche et indexés dans leurs résultats. Il constitue la partie du web qui peut être facilement trouvée et consultée par les utilisateurs via des moteurs de recherche connus comme Google, Bing, Yahoo, Ecosia, Qwant, etc 

Web Invisible, la partie cachée de l’iceberg

Si le web visible est constitué de l’ensemble des pages du Web, indexées par des moteurs de recherches publiques, ce dernier ne représente qu’une infime partie des données du Web (page, documents, vidéo, images, …). Les experts estiment ainsi que la partie accessible du Web par ces moteurs est de l’ordre de 4 à 6 % de l’ensemble des données disponibles. 

Le Web Invisible est constitué des documents web mal ou non indexés par les moteurs de recherche généralistes. En effet, le fonctionnement des moteurs pour crawler le web implique que, d’une part, que les pages soient correctement liées entre elles et que, d’autre part, elles soient identifiables par les robots du moteur. Or dans certains cas, le parcours et l’identification de pages est difficile, voire impossible.  

Raisons pour lesquelles une partie du web n’est pas accessible aux moteurs de recherche classiques : 

  • Les pages ou sites sont protégés par des balises méta qui peuvent stopper les robots, ou bien avec un fichier robot.txt.  
  • Les documents ou bases de données sont trop volumineux pour être entièrement indexés. Les moteurs conventionnels n’indexent donc pas la totalité des contenus de plusieurs milliers de bases de données.
  • Les sites internet générant des pages dynamiques (par le biais de requêtes par exemple). Souvent ces sites ne possèdent pas d’URL statique différenciant un contenu d’un autre.   
  • Les pages sont mal liées entre elles ou sont orphelines. C’est à dire qu’aucun lien présent sur d’autres pages ne pointe vers elles.  
  • Les pages sont protégées avec une authentification par identifiant et mot de passe. Ce qui est le cas pour des contenus payants 
Deep Web

Cette partie du Web, pourtant la plus vaste, est peu exploitée pour la recherche d’informations. Du simple fait qu’elle requiert des outils d’extraction tel que le Web Mining mais aussi d’analyse adaptés. 

Le Web Mining

Ixxo a mis au point une technologie de fouille d’informations pilotée par des robots web intelligents (ou smart web bots). Nos ingénieurs ont reproduit le comportement d’une personne qui recherche sur le web. Ainsi le parcours des robots sur la page et sur le web est autonome et pilotable selon différentes stratégies de recherche d’informations. Le robot effectue également une préanalyse de l’information. Cette préanalyse a pour effet d’améliorer la pertinence de vos résultats et de minimiser le bruit. En tant qu’analyste, en combinant cette approche avec des bouquets de sources déjà connus (approche plus déterministe), vous êtes beaucoup plus sûr de vos résultats. 

La possibilité d’explorer le web profond assure aux veilleurs de ne plus passer à côté d’une information clé qui n’aurait pas été indexée par un moteur classique.

Une exploration en profondeur est possible grâce à des plateformes tel qu’IXXO et vous donne plusieurs avantages :  

Automatisation

Automatiser vos recherches d’informations pour la prospective par l’exploration Web Mining

Vous pourrez ainsi récolter l’ensemble des informations dont vous avez besoin dans le cadre de recherches d’informations prospectives. Les smarts web bots IXXO sont rapides et autonomes. Vous pouvez donc traiter des demandes d’informations de dernières minutes! Aussi bien sur des sujets que vous connaissez peu, voire pour lesquels vous n’avez pas encore les bonnes sources d’informations ! 

fiabilité de l'information

Avoir confiance en ses données

L’absence de résultats avec les logiciels IXXO est bel et bien un résultat. C’est un point que nos clients plébiscitent! Nos robots fouillent en continu, ce qui permet d’être alerté si de nouvelles informations paraissent sur des sources non surveillées. L’absence de résultats confirmée par le logiciel est très utile pour des questions de propriété intellectuelle, de rumeurs, de désinformations et donc de stratégies vis-à-vis de vos concurrents.  

Capter de l'information rare

Capter des informations rares, c’est-à-dire non disponibles sur le web visible

Nos clients ont pu ainsi : décrypter la roadmap de leurs concurrents et de leurs fournisseurs à l’aide d’informations sur le web profond, trouver des documents permettant d’attaquer l’antériorité d’un brevet, identifier des photographies très haute définition de produits, des listes d’acteurs, des plans, des cas de fraudes produits, … qu’ils n’auraient pas pu avoir en passant par une simple recherche Google. 

Sources

Elargir sa vision et son sourcing avec le Web Mining

IXXO Beyond Data alimente vos sujets de veille en indexant des documents aussi issus de sources méconnues. Vous pourrez alors élargir votre sourcing et identifier de nouvelles sources pour vos bouquets de sources thématiques et internationaux.

L’outil de Web Mining IXXO permet donc de collecter plus d’information mais aussi de préanalyser cette vaste quantité de contenus. Pour comprendre pleinement les tendances, nouveaux entrants et signaux faibles qui émergent de cette veille, IXXO a développé ses propres outils d’analyse et de datavisualisation. L’analyse automatique des données vous donne aussi accès à des livrables dynamiques : tel que la cartographie relationnelle ou les tableaux de bord interactifs.  

Autant d’outils qui aideront vos projets de veille prospective depuis l’identification de sources, en passant par la collecte jusqu’ au partage d’une information structurée et analysée. Et n’oubliez pas que pour être sûr qu’un manque d’information soit bien un résultat tangible, vous avez besoin d’IXXO Beyond Data.    

gestionnaire de l'information explore le web