Construire des espaces productifs avec Word2Vec et Gephi
Dans une précédente étude nous avons montré comment générer une correspondance sémantique entre deux nomenclatures en s’appuyant sur le deep Learning avec le plongement lexical Word2Vec (word embedding).
Nous allons appliquer le même principe mais sur une seule nomenclature, dans le but de mettre en avant les proximités qui existent entre chaque classe. Nous choisissons de réaliser une analyse de proximité sur les nomenclatures NACE Rev. 2 (activités d’entreprises) et sur la nomenclature HS 2017 (produits). Pour en savoir plus sur les nomenclatures vous pouvez vous référer à cet article.
Calcul des proximités sémantiques
Conformément aux premiers essais que nous avions réalisés :
- nous privilégions l’utilisation d’un corpus construit par nos soins à partir de 7 nomenclatures,
- nous utiliserons une moyenne pondérée pour déterminer le vecteur associé à chaque description,
- nous fixons à 77% le seuil de proximité minimal entre deux descriptions de classes.
Proximités entre activités d’entreprises
Nous lançons donc notre script sur la table NACE Rev. 2 et produisons une table des proximités pondérées.
Nous pouvons maintenant importer dans Gephi cette table et grâce à une projection de type « Force Atlas 2 », nous obtenons une représentation visuelle de l’espace des activités.
Nous pouvons isoler dans Gephi un nœud du graphe et voir les liens qu’il a avec les autres classes.
Vous pouvez accéder au graphe interactif des proximités NACE depuis les site polinode : https://app.polinode.com/networks/explore/604e33825a21350011b50937/604e390a5a21350011b50939
Proximités entre produits
Nous réalisons le même traitement sur la nomenclature HS 2017 constituée de 5387 classes. Nous retenons les proximités sémantiques entre deux classes qui sont supérieures à 75%. Nous importons dans Gephi les données de proximités et réalisons une projection de type « Yifan Hu ».
Vous pouvez accéder au graphe interactif des proximités HS depuis les site polinode : https://app.polinode.com/networks/explore/604f4ec15a21350011b86edf
Enrichissement des modèles
La méthode sémantique présente un intérêt majeur dans l’analyse des proximités au sein d’une même nomenclature car le traitement est réalisé en mode non supervisé, entièrement automatisé quelque soit la volumétrie à traiter.
Nous pouvons combiner ces données nouvelles avec les données issues de travaux de Harvard sur les proximités productives et améliorer la robustesse des modèles que nous avons construits pour l’Atlas des Synergies Productives.
Découvrez nos travaux autour de l’Atlas des Synergies Productives dans notre livre « Intelligence Artificielle : La Révolution de l’Industrie 4.0 » disponible en version numérique et papier.