La tendance intelligence Artificielle ne faiblit pas sur 2018. Les levées de fonds s’enchainent, la startup canadienne element.AI et sa levée de 93 millions d’euros au premier tour n’est pas passée inaperçue (2017); sa venue en Europe, pardon à Londres, en 2018 non plus.

Le gouvernement actuel aurait sans doute aimé pouvoir l’attirer en France, mais voilà c’est Londres. D’une simple news, un expert du domaine aurait lu entre les lignes ; un système de veille dopé à l’Intelligence Artificielle aussi.

Dans le post précédent (lien vers le post), nous avons identifié les bénéfices potentiels que les logiciels et outils de la veille et de l’intelligence économique pourront tirer des nouvelles technologies de l’Intelligence Artificielle, notamment autour de la qualité et fiabilité des données et la détection de concepts. Notons une particularité de notre domaine, un des matériaux de base des analystes est l’information dite non-structurée, du texte non encore transformé en donnée.

Un problème relationnel

Modern technology background of connecting lines and dotsLes métiers de la veille au sens large (chargé de veille, analyste, expert…) pourraient tirer beaucoup de valeur de la capacité de l’Intelligence Artificielle à les aider à identifier des relations au sein d’un corpus documentaire important. Il est possible pour un expert d’ingérer un flux d’information quotidien sur un sujet maîtrisé pour en tirer la connaissance nécessaire. Cela suppose bien sûr que le flux soit suffisamment structuré pour qu’il soit exploitable par quelqu’un dont la mission principale n’est pas la lecture mais plutôt l’analyse, la synthèse et au-delà l’action.

Prenons le domaine de l’innovation, par exemple. De nouveaux sujets se présentent régulièrement, à un rythme plus ou moins élevé. La réalisation d’un état de l’art va demander l’analyse d’un corpus documentaire potentiellement conséquent, trop conséquent pour un traitement rapide.

Une fois la détection des concepts effectuée avec l’aide de l’intelligence artificielle comme précédemment évoquée, une valeur ajoutée conséquente est de pouvoir détecter les relations entre ces différents concepts. « La société A rachète la société B », « la société C recrute Monsieur X », « le procédé alpha permet de produire le produit beta », etc… L’ensemble de ce corpus documentaire devient alors navigable et actionnable directement. C’est comme si l’on passait de la 2D à la 3D.

Au-delà de la problématique fondamentale de la datation de la relation, l’identification et la qualification de la relation est le point crucial.

Une première réponse « basique » est la relation de co-occurrence. Société A et Société B sont citées dans le même élément informationnel, il y a donc une relation entre les deux. Le principal enjeu est alors la granularité de l’élément informationnel : le document, la page, le paragraphe, la phrase, … ?

Si nous ne nous situons pas ici dans le domaine de l’Intelligence Artificielle, celle-ci réapparait lorsque l’approche employée est celle précédemment évoquée pour la détection des concepts. Les technologies traditionnellement employées sont proches, et en général s’appuient sur des « cartouches » spécialisées et spécifiquement entrainées. La détection des concepts est d’ailleurs un prérequis à la détection des relations entre concepts.

De nombreux progrès sont à faire pour une approche en mode page blanche, sans connaissance préalable permettant au système, sur n’importe quel sujet, de nous révéler que la société A expérimente la technologie X dans ses laboratoires.

Le non-dit

???????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????Mais cette détection à partir de la page blanche, même si elle était possible, nécessiterait que cette relation soit explicitement exprimée dans un élément informationnel. Actuellement, la technologie permet de détecter des relations indirectes explicitées.  C’est-à-dire qu’une relation « Société A emploie Monsieur B » peut être détectée, ainsi qu’une relation « Monsieur B est spécialiste de la technologie X ». Les systèmes actuels, entrainés grâce à des modèles d’apprentissage verticalisés seront capables de mettre en évidence cette relation déduite par transitivité « Société A travaille sur la technologie X ».

Mais imaginons un autre cas plus complexe. La société A construit une nouvelle unité de production, information diffusée, captée, et détectée par le système. La question que se posera l’analyste est bien évidemment : Qu’est-ce qui sera expérimenté ou fabriqué dans cette unité ? Est-elle destinée à de la production « standard » ou à expérimenter et mettre au point une innovation ou une nouvelle ligne de produit ? L’analyste, en professionnel aguerri et tenace, aura peut-être l’intuition de collecter les données correspondant aux matières premières achetées par la société (plaçons-nous dans l’hypothèse où il a accès à ces données), puis à les représenter dans le temps. Cela peut mettre en évidence l’apparition ou l’augmentation des approvisionnements d’un composant à une date coïncidant avec la création de la nouvelle unité. L’analyste examinera ensuite son système de connaissance interne (plaçons-nous encore une fois dans l’hypothèse où il en existe un), et identifiera les procédés mettant en œuvre ce matériau, pour arriver à une « short-list » des procédés mis en œuvre dans la nouvelle ligne de production.

Hormis le fait qu’aucun système d’Intelligence Artificielle n’a pour l’instant la capacité à effectuer cette investigation de manière autonome, car elle comporte une bonne part d’intuition, d’expérience et de savoir-faire, nous avons dû poser un certain nombre d’hypothèses pour arriver au résultat.

Tout d’abord les chiffres des achats. Il parait difficile de systématiser cette démarche, car les données seront parfois disponibles, parfois non. Les données disponibles seront parfois les données d’import issues d’autorités portuaires ou douanières, d’autres fois les données issues de demandes de permis d’évacuation de déchets émises par le concurrent. C’est ici que la notion de big data revient sur le devant de la scène, en cela qu’un système automatisé devra avoir accès à des données représentatives de l’approvisionnement d’une société, quelle que soit leur origine. Le système, aussi sophistiqué soit-il ne pourra décider d’utiliser une source ou une autre, il doit disposer d’un « data lake » dans lequel l’information est déjà disponible, car elle a été collectée en amont et en masse auprès de sources multiples.

Autre hypothèse réalisée, l’analyste (ou un système d’Intelligence Artificielle) doit disposer de la description structurée des procédés de son secteur, y compris les procédés expérimentaux, pour identifier la technologie mise en œuvre à partir d’un ou plusieurs matériaux. Cette description structurée peut provenir du système interne de l’entreprise, ou de l’analyse de corpus documentaires scientifiques au sein desquels la relation « procédé X utilise matériau Y » aura été détectée, puis capitalisée comme « connaissance » validée.

Qu’il soit basé sur les technologies déjà maîtrisées (modèle d’apprentissage, cartouches sémantiques, analyse statistique, etc…) ou sur les technologies disruptives comme celles démontrées par AlphaGo Zero, la valeur ajoutée apportée par un système d’Intelligence Artificielle prendra une toute autre dimension s’il a à sa disposition :

  • Un data lake structurant des données hétérogènes, auxquelles un minimum de structure (datation, concepts détectés, relations détectées, …) aura été apportée (ie les données d’achat/import de matériaux des acteurs du secteur)
  • Un référentiel de la connaissance validée de l’entreprise (ie la caractérisation des procédés du secteur), qu’elle soit issue de son système d’information interne ou acquise au fil du temps par le biais d’informations extérieures.

Il devient évident que dans notre domaine d’activité qui consiste à anticiper sur ce qui va se passer, à partir de ce qui se passe maintenant, la méthode de la page blanche (auto apprentissage des règles du jeu) ne suffit pas. Cette anticipation s’appuie forcément sur un référentiel de ce qui est connu (la connaissance), ainsi que sur une masse de données qui représente ce qui se passe ou ce qui s’est passé (l’information, la data, potentiellement « big »).

Si une société ou toute autre entité parvient à formaliser toute sa connaissance, et à collecter toute l’information disponible provenant de sources multiples en la rendant exploitable grâce aux technologies « classiques » existantes, de nouveaux systèmes aux capacités de raisonnement ou de déduction proches des compétences d’un professionnel compétent pourront apparaitre.

Dans le domaine économique ou stratégique, nous parlerons d’avantage compétitif, mais dans le domaine de la sphère privée, cela met en évidence les enjeux des lois informatique et liberté. Les entreprises pourront peut-être prochainement faire un remake de Minority Report et anticiper la stratégie de leur concurrent avant même que celui-ci ne l’ait établie, mais est-ce souhaitable à l’échelle individuelle ?

L’avenir proche nous le dira probablement.