PP-OCRv6 : Reconnaissance Optique de Caractères pour 50 Langues

Introduction

Le modèle PP-OCRv6 est la dernière génération de la famille de modèles d'OCR universels de PaddleOCR. Il est conçu pour la détection et la reconnaissance de texte dans des documents, des captures d'écran, des images multilingues, des affichages numériques, des étiquettes industrielles et du texte de scène.

Contexte Technique

PP-OCRv6 est une famille de modèles qui s'étend de 1,5 million à 34,5 millions de paramètres, avec trois niveaux : tiny, small et medium. Les niveaux medium et small prennent en charge 50 langues, dont le chinois simplifié, le chinois traditionnel, l'anglais, le japonais et 46 langues à écriture latine. Le modèle utilise PPLCNetV4 comme colonne vertébrale unifiée pour la détection et la reconnaissance de texte.

La détection de texte est la première étape du pipeline OCR. La qualité de la détection affecte les cultures envoyées au recogniteur, et de mauvaises cultures mènent souvent à une reconnaissance moins bonne. PP-OCRv6 améliore le module de détection avec RepLKFPN, un réseau de pyramide de fonctionnalités à noyau large léger conçu pour la détection de texte multi-échelle tout en gardant l'inférence efficace.

Analyse et Implications

PP-OCRv6 atteint 86,2 % de détection Hmean et 83,2 % de précision de reconnaissance sur les benchmarks OCR multi-scénarios d'entreprise de PaddleOCR. Par rapport à PP-OCRv5_server, il améliore la détection de texte de +4,6 points de pourcentage et la reconnaissance de texte de +5,1 points de pourcentage.

Le modèle peut être utilisé avec plusieurs backends d'inférence via PaddleOCR, y compris les backends Paddle Inference, Transformers et ONNX Runtime. Cela permet une grande flexibilité dans le déploiement et l'intégration du modèle dans différents environnements et applications.

Perspective

PP-OCRv6 offre une approche spécialisée pour la reconnaissance optique de caractères, se concentrant sur la production de sorties de texte structurées précises avec de petits modèles et des options de déploiement flexibles. Les utilisateurs peuvent évaluer PP-OCRv6 avec la démo en ligne, explorer les actifs de modèle disponibles dans la collection et utiliser le backend d'inférence qui correspond à leur propre flux de travail OCR.

PP-OCRv6 : Reconnaissance Optique de Caractères pour 50 Langues

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Accélération du Fine-Tuning de Transformers avec NVIDIA NeMo AutoModel

FFASR Leaderboard : Évaluation de la reconnaissance vocale

Créer des applications intelligentes avec CUGA

Mise à jour hebdomadaire de huggingface_hub avec l'IA

PP-OCRv6 : Reconnaissance Optique de Caractères pour 50 Langues

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Accélération du Fine-Tuning de Transformers avec NVIDIA NeMo AutoModel

FFASR Leaderboard : Évaluation de la reconnaissance vocale

Créer des applications intelligentes avec CUGA

Mise à jour hebdomadaire de huggingface_hub avec l'IA

Sauvegarder l'article