Traitement automatique des documents (IDP) : quand l’IA révolutionne la gestion administrative

Publié le 02 septembre 2024
8 minutes de lecture
Documents

Dans de très nombreux secteurs d’activité, le traitement des documents est une tâche extrêmement chronophage et souvent source d’erreurs. Pour pallier toutes ces difficultés et accélérer les processus de traitement de liasses documentaires, des solutions technologiques utilisent diverses méthodes d’intelligence artificielle comme l’OCR ou encore le traitement du langage naturel (NLP) pour gérer de façon automatique des données issues de multiples sources et réduire ainsi la charge de travail manuelle. Comment fonctionne le traitement automatique de documents  Intelligent document processing  (IDP) ? Pourquoi l’automatisation de la gestion administrative est-elle devenue un enjeu stratégique pour certaines entreprises ? Pour tout comprendre, explorons en détails avec Claire Verdier, data scientist chez OpenStudio, les avantages et les défis du traitement automatique des dossiers.

Savez-vous définir le traitement automatique des documents ?

Si la réponse est non, pas de panique, mais avant de lire la suite, il est important que vous sachiez de quoi nous allons parler exactement. Le traitement automatique des documents, ou en anglais Intelligent Document processing (IDP) se définit comme une solution basée sur des technologies d’intelligence artificielle qui sert à capturer, extraire et traiter automatiquement les données issues de multiples sources documentaires. Ces données sont non-structurées (elles n’ont pas de format prédéfini ou de structure organisée, comme du texte libre, des images, des vidéos, des fichiers audio, etc) ou semi-structurées (elles ne suivent pas un modèle de données rigide, mais contiennent des marqueurs ou des métadonnées qui simplifient leur traitement).

Des méthodes d’IA associées au traitement automatique de documents

Pour effectuer les actions précédemment citées, le traitement automatique de documents (IDP) s’appuie sur plusieurs méthodes d’intelligence artificielle :

  • La reconnaissance optique de caractères (OCR) convertit des images contenant du texte imprimé, dactylographié ou manuscrit en données textuelles exploitables par ordinateur. Plus spécifiquement, lOCR zonale cible des zones dans les documents pour en extraire les informations les plus pertinentes. Cette approche ciblée améliore considérablement l’efficacité du traitement.
À partir de fichers de tout type (pdf, doc, etc), il est possible d'extraire des informations, et de les mettre en base de données.

À partir de fichers de tout type (pdf, doc, etc), il est possible d’extraire des informations, et de les mettre en base de données.

  • Le traitement du langage naturel (NLP) est une autre méthode d’IA pour faciliter les interactions entre machines et humains. Elle se décompose en deux types de technologies, le NLU (Natural Language Understanding) qui comprend et interprète le langage humain (texte ou oral), et le NLG (Natural Language Generation) qui saura générer du contenu écrit ou parlé à la manière d’un humain. Dans le cadre de l’IDP, on se sert donc du NLU pour traiter les données issues des documents.

La qualité des modèles de NLP dépendent fortement de la qualité de l’OCR. Dans le cadre d’une classification, la véracité du texte océrisé aura un impact mineur sur les résultats car le modèle de Bert (NLP) est peu sensible aux changements ou oublis de lettres sur certains mots, étant donné qu’il se base sur l’intégralité du texte.

— Claire Verdier, Datascientist OpenStudio
  • Troisième technologie qui sous-tend le traitement automatique de document, la vision par ordinateur (ou computer vision) analyse la structure et la mise en page des documents. Elle identifie rapidement les éléments importants comme les tableaux ou les signatures.

L’IDP, la solution pour résoudre les nombreux défis de la gestion documentaire ?

La gestion documentaire concerne pratiquement toutes les entreprises, mais dans des secteurs comme les banques, les assurances ou tout autre organisme récoltant des dossiers, il s’agit d’une activité à part entière extrêmement chronophage et mobilisant de nombreuses ressources humaines. Les difficultés à résoudre sont pléthoriques afin d’optimiser les processus des opérateurs qui gèrent le traitement de ces liasses documentaires.

Le premier gros défi réside dans l’organisation du système de classement des dossiers qui inclut souvent une multitude de micro-tâches de vérification et de saisie des informations. Avec la numérisation des documents, il est indispensable de trouver un système de classement efficace pour trouver facilement n’importe quel dossier même archivé depuis plusieurs années. D’autre part la classification manuel de ces documents est source d’erreurs humaines, ce qui aura pour conséquences des pertes de documents ou des dossiers mal classés.

Autre problématique provoquant des pertes de temps et d’efficacité : le suivi des modifications apportées aux documents, et la gestion des différentes versions qu’il faut aussi classifier correctement. En parallèle, la gestion documentaire représente également un défi du côté du respect de la conformité aux réglementations sur la protection des données (comme le RGPD) qui complique la collecte, le traitement et le stockage des informations personnelles.

Comment l’IDP optimise la classification des documents ?

Globalement le traitement automatique de documents a pour énorme avantage de réaliser une importante réduction de la charge de travail des collaborateurs. En automatisant de nombreuses tâches dans leurs flux de travail documentaires, le gain de temps est colossal et les collaborateurs ont l’occasion de se consacrer à des tâches à plus forte valeur ajoutée. D’après une étude réalisée par Mackinsey et relayée par Smartsheet, environ 60% des travailleurs interrogés déclarent que l’automatisation des tâches répétitives leur ferait gagner six heures ou pluspar semaine, ce qui revient à une journée entière de travail. 

Le traitement automatique des documents est par extension un moyen de réduire le turn over (les collaborateurs sont soulagés des tâches rébarbatives), et de faire face à des piques d’activité sans avoir besoin d’embaucher de nouveaux collaborateurs. Investir dans une solution d’IDP est donc une excellente solution pour réduire le coût de production de la gestion documentaire.

L’IDP plus précise que l’humain ? 

Dans la même optique du gain, de temps, l’IDP traite beaucoup plus vite que l’œil humain les différentes données d’un document. Cela fait clairement parti des grands avantages des technologies d’IA qui dépassent les facultés humaines lorsqu’il s’agit de traiter un grand volume de données, rapidement mais surtout avec une grande précision.

« Pour l’un de nos clients nous avons expérimenté une solution de classification de documents. Notre expérimentation, qui a duré environ un mois, se divise en deux phases dont la première consistait a testé la méthode de NLP (Bert). Lors de cette première phrase, nous avons obtenu des résultats rapidement qui étaient surprenants et extrêmement précis. Le système d’IA a en effet classifié les documents avec une précision de 96% (les 4% restants de documents signifiant que le système d’IA se trompait). »

Claire Verdier, data scientist chez OpenStudio

Grâce à l’IDP, des tâches particulières sources d’erreur sont automatisées comme par exemple la saisie manuelle des données, et la vérification des éléments inscrits sur les documents. Une solution de traitement automatique des documents enchaîne des tâches très rapidement :

  1. Capturer le document
  2. Convertir les données du document en code
  3. Catégoriser le document
  4. Vérifier les données
  5. Transmettre les données au bon endroit pour un accès facilité.

L’IDP est aussi capable de détecter les fraudes (un faux numéro de Siret, une pièce d’identité falsifiée, etc), et de donner l’alerte aux opérateurs humains qui pourront ensuite déterminer si le dossier est bien frauduleux ou non.1

L’IDP facilite le respect de la protection des données personnelles et leur sécurité

Nous évoquions la précision exceptionnelle de l’IDP dans l’extraction des données qui réduit les erreurs humaines. Du point de vue de la protection des données, cette précision plus fine apportée par la technologie minimise également les risques de non-conformité en garantissant le traitement correct des données personnelles. Sur la conformité, l’IDP, avec ses processus automatisés excluant l’intervention manuelle, assure que les données seront effectivement traitées en suivant les exigences du RGPD. Par exemple, l’IDP accélère la gestion des consentements des utilisateurs et des demandes d’accès, de rectification ou de suppression de leurs données, les demandes des utilisateurs sont donc traitées plus rapidement et efficacement, comme le demande le RGPD.

Couplé à de solides mesures de sécurités, l’IDP est aussi un bon moyen de réduire les risques de fuites de données. En assurant une sécurité optimale des données traitées dont elle a la responsabilité, l’entreprise ou l’organisation s’évite de sévères sanctions ordonnées par des autorités de protection des données comme la CNIL.

Autre avantage des solutions automatiques pour le traitement des documents : la possibilité de tracer toutes les opérations effectuées sur les données. Il est donc plus simple d’effectuer des audits internes ou externes grâce à cette traçabilité apportée par l’IDP, et de démontrer la conformité de ces opérations auprès de la CNIL.2

L’humain toujours indispensable même avec le traitement automatique des documents  ?

L’IDP s’impose comme un maillon essentiel de l’automatisation robotique des processus (RPA), en facilitant et en réduisant la charge de travail des humains, mais attention l’IDP n’élimine pas complètement l’intervention humaine.

Entraînement et mises à jour du système IDP lui-même

Il est évident que l’entraînement des algorithmes d’apprentissage automatique ne se fait pas tout seul, surtout qu’il est très souvent nécessaire d’avoir recours à une solution sur-mesure. La conception d’un outil IDP demandera forcément l’expertise de professionnels de l’IA et du traitement des données.

« La seconde phase d’expérimentation sur le projet de nos clients reposait sur l’extraction de données. Cette méthode nécessitant une intervention manuelle pour une meilleure précision,elle nous a imposé de prendre davantage de temps. Elle ne peut être réalisée que de deux manières possibles grâce à des règles de REGEX (comme lorsqu’il faut détecter les siret/siren qui ont toujours le même format) ou grâce à des modèles de NER (Named Entity Recognition). Les modèles de NER pré-entraînés sont capables d’extraire les dates, les lieux, les organisations ou encore les personnes. Cela requiert un fort post-traitement des résultats afin de sélectionner uniquement les données qui nous intéressent. Par exemple, les lieux sont attribués soit à des pays, des villes ou des adresses complètes, en fonction de ce que l’on désire recueillir. Un filtrage des données est possible, ainsi qu’une vérification des adresses avec l’aide d’API publiques fournies par le gouvernement.D’autres données ont la possibilité d’être détectées avec les méthodes de NER, mais leur annotation demande beaucoup de temps.

Dans le cas de l’extraction de données, la véracité du texte océrisé aura un impact important, car au delà de la capacité du modèle à repérer une entité qui sera amoindrie, une données extraite présentant une faute est par la suite inexploitable ou pourrait même entraîner des erreurs de vérification automatisées. Par exemple, lorsqu’on désire extraire les numéros de siret et que le zéro devient avec l’océrisation un « O », on ne pourra pas extraire l’information. »
 
 —
Claire Verdier, Data Scientist chez OpenStudio.

Les systèmes de traitement automatique des documents nécessitent aussi une formation et des ajustements continus pour s’adapter aux nouvelles structures de documents et aux variations dans la mise en page. Il faut donc des interventions humaines pour la mise à jour des systèmes afin qu’ils restent efficaces et précis.3

Gérer les exceptions

Pour rappel, les systèmes IDP sont conçus pour traiter des documents structurés et semi-structurés, par conséquent les choses se compliquent pour la machine lorsqu’elle est confrontée à des documents non structurés ou des cas exceptionnels. Une intervention humaine sera nécessaire pour gérer ces exceptions et pour s’assurer que les données sont correctement traitées même dans des situations en dehors des standards sur lesquels le modèle a été entraîné.4

C’est le cas par exemple pour classifier des documents : lorsque la méthode de classification donne un score bas de précision (inférieure à 0.6/0.75% par exemple) pour un document, celui-ci sera alors classifié par un opérateur humain.

La relation et la satisfaction client

En éliminant les tâches sans valeur ajoutée, les opérateurs humains peuvent se consacrer à l’amélioration des relations avec les clients. Le regard d’un collaborateur sera beaucoup plus stratégique pour garantir la qualité des processus automatisés et pour optimiser les flux de travail en fonction des retours et des interactions avec les clients. Les machines seront également incapables de comprendre de manière autonome les nuances des relations clients et d’ajuster les processus pour les satisfaire au mieux.

La sécurité et la conformité du système de traitement automatique des documents

Comme nous l’avons évoqué dans cet article, les systèmes IDP sont capables d’automatiser de nombreux aspects relatifs à la sécurité et la conformité du traitement des données sur les documents. Néanmoins,  l’expertise humaine est toujours nécessaire pour interpréter les nouvelles réglementations et pour mettre en place des mesures appropriées.6

Automatiser la gestion documentaire pour éviter la submersion des données

Face à l’explosion des données mondiales, qui atteindront 175 zettaoctets d’ici 2025 selon la société IDC7, les entreprises n’auront d’autre choix que d’automatiser certains de leurs processus pour exploiter efficacement cette masse d’informations dispersées dans divers formats (e-mails, PDF, documents numérisés…) ou des corpus de textes. L’IDP est donc en train de s’imposer rapidement comme la solution pour éviter aux organisations d’être submergées par les vagues de données provenant de cette multitude de sources et fluidifier leurs workflows dans la gestion de leurs documents.

Vous souhaitez en savoir plus sur le développement d’une solution IDP sur-mesure ? L’équipe d’OpenStudio sera heureuse de répondre à vos questions et de discuter de votre projet.