Introduction

Les modèles de langage (LLM) sont de plus en plus utilisés pour produire des données structurées à partir de sources non structurées et semi-structurées, comme les factures, les dossiers médicaux, les transcriptions de réunions et la conversion de PDF en lignes de base de données. Cependant, les benchmarks existants ne permettent pas d'évaluer avec précision la qualité de la sortie structurée de ces modèles.

Contexte Technique

Le nouveau référentiel, appelé Structured Output Benchmark (SOB), évalue les sorties structurées des LLM à travers trois modalités : texte, image et audio. Chaque enregistrement est associé à un schéma JSON et à une réponse de référence vérifiée par des humains avec une vérification croisée LLM. Les modèles sont évalués en fonction de sept métriques, notamment la précision des valeurs, la couverture de la structure et la sécurité des types.

Analyse et Implications

Les résultats montrent que les modèles les plus performants ont des scores élevés pour les métriques structurelles, mais des scores plus bas pour la précision des valeurs. Cela souligne l'importance de prendre en compte la qualité de la sortie structurée dans l'évaluation des LLM. Les modèles les plus performants varient en fonction de la modalité et de la métrique utilisée, ce qui souligne la nécessité d'une évaluation multidimensionnelle.

Perspective

Le référentiel SOB est un premier pas vers l'amélioration de la qualité de la sortie structurée des LLM. Les prochaines étapes consisteront à élargir le référentiel pour inclure davantage de modalités et de métriques, ainsi qu'à développer de nouvelles méthodes pour améliorer la qualité de la sortie structurée. Les entreprises et les développeurs doivent prendre en compte ces résultats pour améliorer la fiabilité et la sécurité de leurs systèmes basés sur les LLM.