Construire des espaces productifs avec Word2Vec et Gephi

Publié le dimanche 14 mars 2021 à 18:08 , mis à jour le vendredi 26 mars 2021
3 mins

Dans une précédente étude nous avons montré comment générer une correspondance sémantique entre deux nomenclatures en s’appuyant sur le deep Learning avec le plongement lexical Word2Vec (word embedding).

Nous allons appliquer le même principe mais sur une seule nomenclature, dans le but de mettre en avant les proximités qui existent entre chaque classe. Nous choisissons de réaliser une analyse de proximité sur les nomenclatures NACE Rev. 2 (activités d’entreprises) et sur la nomenclature HS 2017 (produits). Pour en savoir plus sur les nomenclatures vous pouvez vous référer à cet article.

Calcul des proximités sémantiques

Conformément aux premiers essais que nous avions réalisés :

  • nous privilégions l’utilisation d’un corpus construit par nos soins à partir de 7 nomenclatures,
  • nous utiliserons une moyenne pondérée pour déterminer le vecteur associé à chaque description,
  • nous fixons à 77% le seuil de proximité minimal entre deux descriptions de classes.

Proximités entre activités d’entreprises

Nous lançons donc notre script sur la table NACE Rev. 2 et produisons une table des proximités pondérées.

Nous pouvons maintenant importer dans Gephi cette table et grâce à une projection de type « Force Atlas 2 », nous obtenons une représentation visuelle de l’espace des activités.

Visualisation des proximités sémantiques entre classes de la NACE Rev.2 avec Gephi

Nous pouvons isoler dans Gephi un nœud du graphe et voir les liens qu’il a avec les autres classes.

Liens sémantiques entre une classe et ses plus proches voisins

Vous pouvez accéder au graphe interactif des proximités NACE depuis les site polinode : https://app.polinode.com/networks/explore/604e33825a21350011b50937/604e390a5a21350011b50939

Proximités entre produits

Nous réalisons le même traitement sur la nomenclature HS 2017 constituée de 5387 classes. Nous retenons les proximités sémantiques entre deux classes qui sont supérieures à 75%. Nous importons dans Gephi les données de proximités et réalisons une projection de type « Yifan Hu ».

Visualisation d’un espace productif construit à partir de la nomenclature HS 2017

Vous pouvez accéder au graphe interactif des proximités HS depuis les site polinode : https://app.polinode.com/networks/explore/604f4ec15a21350011b86edf

Enrichissement des modèles

La méthode sémantique présente un intérêt majeur dans l’analyse des proximités au sein d’une même nomenclature car le traitement est réalisé en mode non supervisé, entièrement automatisé quelque soit la volumétrie à traiter.

Nous pouvons combiner ces données nouvelles avec les données issues de travaux de Harvard sur les proximités productives et améliorer la robustesse des modèles que nous avons construits pour l’Atlas des Synergies Productives.