Intelligence artificielle : Grâce aux LLM, l’OCR explose ses performances
L’OCR, “Optical Character Recognition” ou “Reconnaissance optique de caractères” en français a énormément évolué depuis l’avènement des LLM. Théo Paput, data engineer chez OpenStudio a mené plusieurs projets avec les nouvelles technologies de l’OCR. Dans cet article, il nous éclaire sur le point de bascule technologique qui a mis un coup de boost impressionnant aux performances de l’OCR.
Pendant des décennies, tous les moteurs OCR excellaient sur des textes imprimés propres, mais butaient systématiquement sur l’écriture manuscrite. Les solutions open source comme Tesseract, EasyOCR ou trOCR affichaient des résultats inutilisables dès qu’on sortait du texte tapé en police standard. Et les géants du cloud ne faisaient guère mieux : AWS Textract, Google Document AI ou Azure AI Vision produisaient des résultats approximatifs sur les formulaires manuscrits, avec des taux d’erreur incompatibles avec une industrialisation de cette automatisation.
La raison de ces performances plutôt médiocres était structurelle : les anciens OCR fonctionnaient par comparaison de formes (pattern matching).Ils cherchaient à faire correspondre des clusters de pixels à des patterns connus suivant des méthode de « classification » assez traditionnelle. L’écriture manuscrite, par nature variable et imprévisible, brisait cette logique.
Théo Paput, data engineer chez OpenStudio
Le tournant décisif qui marque une vraie rupture arrive avec l’émergence des modèles de vision multimodaux (des LLM capables de traiter texte ET image). Contrairement aux précédents, ces nouveaux modèles ne cherchent plus à « reconnaître » un caractère : ils comprennent le contexte, la structure et le sens du texte. Ce changement de paradigme change absolument tout du point du vue des résultats. Ce qui jusqu’alors était inaccessible, c’est-à-dire, déchiffrer une écriture cursive difficile, lire un formulaire rempli à la main sur fond, imprimé, devient soudainement possible avec un niveau de fiabilité industriel.
Les chiffres illustrent bien cette rupture. Sur l’écriture manuscrite, les systèmes IA nouvelle génération atteignent désormais entre 85 % et 95 % de précision, contre 50 à 70 % pour les OCR traditionnels. Avant, sur des écritures manuscrites déjà difficilement lisibles pour l’œil humain les résultats des OCR traditionnels étaient même quasi nul. Aujourd’hui l’OCR arrive parfois aussi bien que l’œil humain (voir même mieux dans certains cas) à lire du texte manuscrit très complexe à décrypter. Ce n’est pas une amélioration marginale : c’est un bond qualitatif qui change fondamentalement ce qu’on peut automatiser.
Théo Paput, data engineer chez OpenStudio
Deux exemples concrets de projets OCR
Au sein d’OpenStudio, nous avons mené deux projets dernièrement pour des clients, qui illustrent parfaitement les deux grandes familles de cas d’usage de l’OCR nouvelle génération en entreprise.
- Transcription de formulaires administratifs manuscrits (type dossiers MDPH):
Le vrai challenge n’est pas d’extraire le texte imprimé, mais de lire et structurer ce que les usagers ont écrit à la main dans les cases. C’est ici que la rupture IA est la plus spectaculaire : des blocs manuscrits bien lisibles sont désormais transcrits avec une fiabilité très élevée, et même des écritures difficiles donnent des résultats exploitables, même si une relecture humaine reste parfois nécessaire.
2. Extraire des données d’un document officiel (type cartes grises)
Ici, l’enjeu n’est pas le manuscrit mais la fiabilité absolue sur quelques champs clés, dans un traitement entièrement non supervisé. Le pipeline Mistral OCR combiné à un pré-traitement d’image et une correction algorithmique permet d’atteindre des niveaux proches de 1 erreur pour 1 000 documents — un seuil qui rend l’automatisation industrielle viable sans validation humaine à chaque étape. On considère en effet que ces résultats peuvent être exploités sans supervision humaine. Plusieurs études montrent que le taux d’erreur humaine lors de la saisie ou de la recopie de données dans un système d’information se situe entre 1 et 3 % par champ.
Ainsi, pour un document comportant dix champs à extraire, un taux d’erreur de 1 % par champ conduit à environ 10 % de risque d’erreur sur l’ensemble du document. À l’échelle d’un lot de 1 000 cartes grises, le volume d’erreurs humaines devient donc largement supérieur à celui observé avec la solution actuellement exploitée en traitement entièrement automatisé.
Dans les deux cas, le coût de traitement par document est dérisoire (de l’ordre de 0,001 € à 0,002 €), ce qui rend la technologie accessible même pour des volumes modestes.
Théo Paput, data engineer chez OpenStudio
Pourquoi OpenStudio a choisi Mistral AI pour ses projets OCR ?
En mars 2025, Mistral AI, la licorne française de l’IA, lance son API Mistral OCR, puis en décembre 2025 sa troisième génération, Mistral OCR 3. Le positionnement est clair : se placer au-dessus des géants américains sur la précision, tout en proposant une tarification radicalement plus accessible.
Les performances annoncées donnent le vertige et font déjà office de très bons arguments :
- – 97,1 % à 98,8 % de précision selon les langues sur documents scannés
- – 88,9 % de précision sur l’écriture manuscrite (contre 78,2 % pour
- Azure AI dans le même benchmark)
- – 96,6 % sur les tableaux complexes (contre 84,8 % pour AWS Textract)
- – Traitement jusqu’à 2 000 pages par minute sur un seul serveur
- – Tarif : 2 € pour 1 000 pages, 1 € avec l’API batch (en traitement différé)
Ce qui différencie Mistral OCR de ses concurrents, notamment Open AI, ne se limite pas à la précision. Le modèle retourne du texte structuré en Markdown ou HTML (avec gestion des tableaux, cellules fusionnées, hiérarchies de colonnes), directement exploitable par d’autres systèmes informatiques, sans traitement intermédiaire. Les OCR classiques retournaient du texte brut et l’équipe technique devait tout retraiter derrière.
Théo Paput, data engineer chez OpenStudio
À noter cependant : certains benchmarks indépendants, comme celui du fournisseur Docsumo, nuancent ces performances en contexte de production réelle, notamment sur des cas très spécifiques nécessitant une fidélité absolue aux chiffres (données financières). Le consensus reste toutefois que Mistral OCR représente une avancée significative sur le marché.
Souveraineté et conformité
Mistral AI est français, ce qui signifie que les données restent soumises au droit européen. D’autre part, une option d’hébergement sur site (on-premise) est disponible pour les organisations traitant des données sensibles. Dans un contexte ou le respect du RGPD est indispensable, faire le choix d’une solution française, est un argument décisif face aux solutions américaines.
L’OCR n’est plus une technologie de niche
Le marché mondial de l’OCR était évalué à environ 17 milliards de dollars en 2025 et devrait dépasser 38 milliards d’ici 2030, avec une croissance annuelle de l’ordre de 17 %. Ce dynamisme est porté par un constat simple : environ 80 % des données des entreprises sont aujourd’hui stockées sous forme de documents non structurés : contrats, factures, formulaires, archives papier scannées.
Les secteurs les plus actifs sont :
- Banque et assurance : plus de 70 % des banques mondiales utilisent déjà l’OCR pour leurs process KYC,
- Santé : dossiers patients, ordonnances,…
- Logistique : étiquettes, bons de livraison (en 2024, plus de 1,8 milliard de colis ont été traités via des systèmes OCR dans le monde)
- Administration publique : formulaires administratifs, archives…
Plus de 90 % des grandes entreprises ont intégré une solution OCR dans leurs flux de travail en 2024.