Analyse sémantique des nomenclatures de produits et d'activités

Publié le 13 mars 2021

5 minutes de lecture

Comme nous l’évoquions il y a quelques mois, nous explorons le domaine de la sémantique appliquée aux nomenclatures pour calculer des proximités entre les différentes classes. Il existe de nombreuses nomenclatures de produits et d’activités que nous avons détaillées dans un article précédemment, et il nous plait d’imaginer que les descriptions de chaque classe puissent nous guider à calculer des distances entre elles. Nous pourrions ainsi représenter sous la forme d’un graphe les différents produits ou activités et concevoir une table de correspondances universelle.

Choix des nomenclatures

Nous sélectionnons les dernières versions des nomenclatures pour lesquelles nous disposons d’une description de chaque classe en langue anglaise.

Nom	Type	Nb de classes	Lien
HS 2017	Produit	5387	CSV
PRODCOM 2019	Produit	3919	CSV
CPC Rev. 2.1	Produit	2887	CSV
CPA Rev. 2.1	Produit	3218	CSV
NC 2020	Produit	9484	CSV
NACE Rev. 2	Activité	615	CSV
ISIC Rev. 4	Activité	419	CSV

Nomenclatures utilisées

A partir de ces nomenclatures nous allons construire une table unique dans laquelle chaque ligne correspond à une classe d’une nomenclature.

On génère un fichier contenant l’ensemble des descriptifs (CSV)Télécharger

Plongement lexical (word embedding)

Une première approche consiste à réaliser un plongement des mots présents dans chaque description dans un espace vectoriel de manière à calculer ensuite des distance entre les mots, puis entre les descriptions (pouvant être considérées comme des phrases).

Nous allons utiliser la librairie Word2Vec pour générer un modèle à partir de nos données d’entrée. Le code suivant est dérivé du projet Sentence2Vec.

Visualisation de l’espace des mots

Nous allons utiliser le logiciel Projector pour visualiser l’espace vectoriel que nous venons de construire. Préalablement nous devons convertir le modèle dans le format TSV grâce au script word2vec2tensor.

Plusieurs modes de visualisation sont possibles, nous choisissons une classique analyse en composante principale (ACP) pour un rendu 2D.

Visualisation en 2D du modèle avec Projector. On a sélectionné une partie du modèle au hasard et on voit que les mots sont proches sémantiquement

Variante avec l’utilisation d’un corpus pré-entraîné

L’utilisation d’un corpus représente une approche complémentaire. Au lieu d’apprendre notre modèle à partir de nos désignations comme nous l’avons fait précédemment, nous chargeons directement un modèle déjà entraîné. Nous trouvons plusieurs modèles en open source construits à partir de corpus conséquents tels que wikipedia. L’intérêt semble être que nous pourrons nous appuyer sur des liens sémantiques plus robustes entre les mots, car ceux-ci auront été appris à partir d’une plus large plage d’utilisation.

Le site NLPL propose un large choix de modèles pré-entraînés. Nous sélectionnons le corpus English CoNLL17.

Calcul des distances entre les descriptions par une approche simple

Maintenant que nos mots sont plongés dans un espace vectoriel nous pouvons calculer des distances. Pour notre étude nous souhaitons mesurer des proximités entre les descriptions (chaînes de caractères formées de plusieurs mots).

Nous obtenons un vecteur pour chaque description formé en calculant la moyenne des vecteurs de chaque mot qui le composent.

Principe de calcul du vecteur moyen de deux phrases à partir des vecteurs de chaque mot (source)

Nous réalisons ensuite un calcul de similarité cosinus entre les deux vecteurs moyens et nous retenons les similarités supérieures à 90%.

Pondérer les mots pour chaque désignation

Nous essayons d’améliorer le calcul de similarité en implémentant une méthode différente pour déterminer le vecteur associé à une description. Au lieu de prendre simplement le vecteur moyen comme nous l’avons fait précédemment, nous cherchons à calculer une moyenne pondérée des vecteurs de chaque mot.

L’idée c’est que dans une description, certains mots ont plus de « poids » que d’autres. Nous allons donner plus d’importance aux mots qui sont le moins utilisés dans les nomenclatures.

Nous devons commencer par réaliser une analyse de fréquence des mots utilisés (6187 au total) dans les désignations.

nomenclature_word_frequency.txt Télécharger

Nous modifions la fonction de calcul du vecteur associé à une désignation pour tenir compte de la pondération (que nous définissons comme l’inverse du log de la fréquence).

Premiers résultats

Nous avons généré en guise de test, plusieurs versions d’une première table de correspondance entre la nomenclature NACE Rev.2 (615 classes) et la nomenclature ISIC Rev. 4 (419 classes).

Il se trouve qu’une table de correspondance équivalente de 615 enregistrements est proposée sur les site des Nations Unies, c’est donc l’occasion pour nous de comparer les résultats que nous avons obtenus avec la correspondance « officielle ».

NACE_2_ISIC_4_predictions Télécharger

Modèle	Type de mesure	Réglage du seuil de distance cosinus pour obtenir 615 résultats	Réussite	Échec	Taux de prédiction
Appris à partir des nomenclatures	Moyenne simple	84 %	290	325	47 %
Appris à partir des nomenclatures	Moyenne pondérée	82 %	290	325	47 %
Corpus pré-entraîné CoNLL17	Moyenne simple	92 %	240	375	39 %
Corpus pré-entraîné CoNLL17	Moyenne pondérée	89 %	226	389	37 %

Résultat des 4 méthodes sur la construction d’une table de correspondance NACE/ISIC

Nous avons également réalisé le même travail sur une conversion difficile entre la nomenclature d’activités (ISIC Rev. 4 contenant 419 classes) et une nomenclature de produits (CPC Rev. 2.1. contenant 2886 classes) que nous avons comparée avec la table de conversion officielle contenant 2663 enregistrements.

ISIC_4_CPC_2_1_predictions Télécharger

Modèle	Type de mesure	Réglage du seuil de distance cosinus pour obtenir 2663 résultats	Réussite	Echec	Taux de prédiction
Appris à partir des nomenclatures	Moyenne simple	79 %	589	2074	22 %
Appris à partir des nomenclatures	Moyenne pondérée	78 %	630	2033	24 %
Corpus pré-entraîné CoNLL17	Moyenne simple	89 %	449	2214	17 %
Corpus pré-entraîné CoNLL17	Moyenne pondérée	86 %	530	2133	20 %

Résultat des 4 méthodes sur la construction d’une table de correspondance ISIC/CPC

Tenir compte de la relation entre les nomenclatures

Les résultats précédents peuvent être améliorés en prenant en compte le type de relation entre les deux nomenclatures, qui peut être une surjection, une injection ou une bijection.

Surjection Injection Bijection. f,g,h applications, X leur Domaine de définition, Y l’ensemble d’arrivée. Source

Dans le cas de la conversion entre la NACE Rev.2 et ISIC Rev. 4 on passe de 615 à 419 classes, il s’agit d’une surjection. Nous pouvons donc adapter notre code pour tirer profit de cette information.

En revanche pour passer de la nomenclature ISIC Rev.4 à la nomenclature CPC Rev. 2.1 on passe de 419 à 2886 classes. Il suffit alors de considérer le problème à l’envers pour se trouver dans le cas d’une surjection comme précédemment.

Nous allons modifier notre algorithme pour qu’une seule correspondance soit retenue (celle dont la proximité sémantique est la plus haute) pour chaque classe de la nomenclature dont la cardinalité est la plus importante. Il n’est plus nécessaire de fixer un seuil de proximité car nos obtenons directement une table du bon nombre d’enregistrements.

Nous obtenons deux nouvelles tables de correspondances dont nous allons analyser les résultats.

Voici les résultats obtenus pour une prédiction de correspondance entre NACE Rev. 2 et ISIC Rev. 4 :

Modèle	Type de mesure	Réussite	Échec	Taux de prédiction
Appris à partir des nomenclatures	Moyenne simple	418	197	68 %
Appris à partir des nomenclatures	Moyenne pondérée	393	222	64 %
Corpus pré-entraîné CoNLL17	Moyenne simple	289	326	47 %
Corpus pré-entraîné CoNLL17	Moyenne pondérée	265	350	43 %

Résultat des 4 méthodes sur la construction d’une table de correspondance NACE/ISIC (méthode avec prise en compte des cardinalités)

Voici les résultats obtenus pour une prédiction de correspondance entre ISIC Rev. 4 et CPC Rev. 2.1 :

Modèle	Type de mesure	Réussite	Échec	Taux de prédiction
Appris à partir des nomenclatures	Moyenne simple	1002	1662	38 %
Appris à partir des nomenclatures	Moyenne pondérée	1009	1655	38%
Corpus pré-entraîné CoNLL17	Moyenne simple	721	1943	27 %
Corpus pré-entraîné CoNLL17	Moyenne pondérée	828	1836	31 %

Résultat des 4 méthodes sur la construction d’une table de correspondance ISIC/CPC (méthode avec prise en compte des cardinalités)

Conclusion

Ces résultats sont prometteurs et doivent être prolongés par une mise en œuvre sur d’autres tables de passage. Ils nous serviront de « baseline » pour nos prochaines améliorations.

L’apprentissage d’un modèle a donné de meilleurs résultats que l’utilisation d’un corpus pré-entrainé. Il y a donc semble-t-il un intérêt à réaliser un apprentissage spécifique sur des dictionnaires spécialisés. Nous pourrons creuser ce sujet et rechercher des données métiers à intégrer.

Une solution d’apprentissage supervisé est également envisageable, puisque plusieurs tables de correspondances construites manuellement par des experts sont disponibles pour réaliser les apprentissages.

Au delà du projet de construire de passer automatiquement d’une nomenclature à une autre, nous souhaitons développer sur le même principe des graphes de proximités entre produits, produits et activités et entre activités. Dans cette tâche, les analyses sémantiques nous semblent très intéressantes, en utilisation conjointe avec d’autres méthodes. Les résultats obtenus dans cette étude sont de ces fait, particulièrement encourageants.

Retrouvez nos travaux sur l’Atlas des Synergies Productives dans notre article IA : La Révolution de l’Industrie 4.0.

Auteur

Céline PATISSIER

Liste de lecture

Innovations

Catégorie

Intelligence Artificielle

Tag

atlas des synergies productives

données

nomenclature