Introduction
Les pipelines RAG qui gèrent les PDF effectuent généralement les mêmes étapes : extraction du texte, découpage en morceaux, et embedding de ces morceaux. Cependant, cette approche néglige souvent les informations visuelles cruciales présentes dans les documents, telles que les en-têtes, les numéros de cas, les paragraphes indentés et les blocs de signature.
Contexte Technique
Le modèle Gemini Embedding 2 de Google permet de contourner ces limitations en acceptant les octets PDF bruts et en générant un vecteur d'embedding qui prend en compte la mise en page, la mise en forme et les tableaux. Cette approche élimine les étapes de traitement lossy traditionnelles et réduit le nombre d'appels API, tout en améliorant la qualité de récupération.
La méthode consiste à diviser les documents PDF en groupes de pages, à embedder les octets PDF bruts à l'aide de Gemini Embedding 2, puis à effectuer une reconnaissance optique des caractères (OCR) pour extraire le texte. Les embeddings et les textes sont ensuite stockés dans un référentiel de documents.
Analyse et Implications
L'approche native de traitement des PDF présente plusieurs avantages, notamment une réduction du nombre d'étapes de traitement, une diminution des appels API et une amélioration de la qualité de récupération. De plus, cette méthode élimine les problèmes de surcharge de mémoire liés au rendu des pages PDF en images.
Cependant, il est important de noter que cette approche nécessite l'utilisation de modèles spécifiques, tels que Gemini Embedding 2 et Gemini 2.5 Pro, qui sont conçus pour traiter les octets PDF bruts et générer des vecteurs d'embedding de haute qualité.
Perspective
Les futures étapes de recherche devraient se concentrer sur l'amélioration de la qualité des embeddings et de la reconnaissance optique des caractères, ainsi que sur l'exploration de nouvelles applications pour les pipelines RAG PDF. De plus, il est essentiel de développer des méthodes pour évaluer et comparer les performances des différents modèles et approches de traitement des PDF.