Introduction
Les documents au format PDF sont couramment utilisés pour leur capacité à préserver la mise en page et la présentation d’un contenu. Cependant, lorsqu’il s’agit de traitement automatique de ces documents par des machines, les informations structurées sont souvent perdues. Un nouveau concept de PDF évolutif a été développé pour répondre à ce défi, permettant aux humains de visualiser le document tel qu’il est habituellement présenté, tandis que les machines peuvent extraire des informations structurées sous forme de markdown.
Contexte Technique
Le format PDF est principalement visuel, stockant des instructions pour dessiner des glyphes sur une page. Bien que le format prenne en charge les PDF étiquetés, la majorité des PDF que l’on rencontre sont non étiquetés, ce qui rend difficile l’extraction de structures par les machines. Pour résoudre ce problème, une propriété du format PDF permet de définir un texte de remplacement pour le contenu marqué, qui est ignoré par les visualiseurs mais peut être lu par les extracteurs de texte qui le prennent en charge.
Analyse et Implications
L’utilisation de cette propriété pour attacher du texte de remplacement au flux de contenu via des séquences de contenu marqué permet aux extracteurs de texte de retourner du markdown structuré au lieu du texte visuel brut. Les tests ont montré que des outils tels que PyMuPDF et Poppler prennent en charge cette fonctionnalité. Cela signifie qu’un seul fichier PDF peut avoir deux sorties complètement différentes selon que le lecteur est humain ou machine.
Perspective
Ce concept de PDF évolutif ouvre des perspectives intéressantes pour l’avenir, notamment en termes d’automatisation et d’analyse de documents. L’objectif est de développer des outils pour faciliter la création de tels documents, comme une extension pour Google Doc, afin de rendre ce processus plus accessible et plus pratique. Les implications de cette technologie pourraient être considérables, améliorant la façon dont les humains et les machines interagissent avec les documents.