présentation

Leanstral 1.5 est un modèle libre sous licence Apache-2.0, doté de 6 milliards de paramètres actifs, qui offre une amélioration significative des performances dans la vérification formelle. Il sature le miniF2F, résout 587 problèmes sur 672 du PutnamBench et atteint des résultats de pointe sur FATE-H (87%) et FATE-X (34%).

fonctionnement

Le modèle est entraîné à travers un processus en trois étapes : l'entraînement intermédiaire, le réglage fin supervisé et l'apprentissage par renforcement avec CISPO. Il utilise deux environnements d'apprentissage par renforcement : l'environnement multitour et l'environnement de code. Dans l'environnement multitour, le modèle reçoit une déclaration de théorème et doit soit la prouver, soit la réfuter. Dans l'environnement de code, il opère comme un développeur dans un système de fichiers brut, édite des fichiers, exécute des commandes bash et utilise le serveur de langage Lean pour inspecter les objectifs, les erreurs et les informations de type en temps réel.

Leanstral 1.5 est entraîné sur deux environnements d'apprentissage par renforcement :
- Environnement multitour : le modèle reçoit une déclaration de théorème et doit la prouver ou la réfuter.
- Environnement de code : le modèle opère comme un développeur dans un système de fichiers brut.

analyse scientifique

Les résultats de Leanstral 1.5 sont évalués sur plusieurs benchmarks, notamment miniF2F, PutnamBench, FATE-H et FATE-X. Le modèle sature le miniF2F, résout 587 problèmes sur 672 du PutnamBench et atteint des résultats de pointe sur FATE-H (87%) et FATE-X (34%). Il montre également une forte capacité à vérifier des propriétés de code et à découvrir des bogues dans des référentiels open source.

implications et limites

Les résultats de Leanstral 1.5 ont des implications importantes pour la vérification formelle et la vérification de code. Le modèle peut être utilisé pour vérifier des propriétés de code et découvrir des bogues dans des référentiels open source. Cependant, les résultats doivent être interprétés avec prudence, car le modèle n'est pas parfait et peut contenir des erreurs. De plus, la vérification formelle et la vérification de code sont des domaines complexes qui nécessitent une expertise approfondie pour être utilisés de manière efficace.