Leanstral 1.5 améliore la vérification formelle

présentation

Leanstral 1.5 est un modèle libre sous licence Apache-2.0, doté de 6 milliards de paramètres actifs, qui offre une amélioration significative des performances dans la vérification formelle. Il sature le miniF2F, résout 587 problèmes sur 672 du PutnamBench et atteint des résultats de pointe sur FATE-H (87%) et FATE-X (34%).

fonctionnement

Le modèle est entraîné à travers un processus en trois étapes : l'entraînement intermédiaire, le réglage fin supervisé et l'apprentissage par renforcement avec CISPO. Il utilise deux environnements d'apprentissage par renforcement : l'environnement multitour et l'environnement de code. Dans l'environnement multitour, le modèle reçoit une déclaration de théorème et doit soit la prouver, soit la réfuter. Dans l'environnement de code, il opère comme un développeur dans un système de fichiers brut, édite des fichiers, exécute des commandes bash et utilise le serveur de langage Lean pour inspecter les objectifs, les erreurs et les informations de type en temps réel.

Leanstral 1.5 est entraîné sur deux environnements d'apprentissage par renforcement :
- Environnement multitour : le modèle reçoit une déclaration de théorème et doit la prouver ou la réfuter.
- Environnement de code : le modèle opère comme un développeur dans un système de fichiers brut.

analyse scientifique

Les résultats de Leanstral 1.5 sont évalués sur plusieurs benchmarks, notamment miniF2F, PutnamBench, FATE-H et FATE-X. Le modèle sature le miniF2F, résout 587 problèmes sur 672 du PutnamBench et atteint des résultats de pointe sur FATE-H (87%) et FATE-X (34%). Il montre également une forte capacité à vérifier des propriétés de code et à découvrir des bogues dans des référentiels open source.

implications et limites

Les résultats de Leanstral 1.5 ont des implications importantes pour la vérification formelle et la vérification de code. Le modèle peut être utilisé pour vérifier des propriétés de code et découvrir des bogues dans des référentiels open source. Cependant, les résultats doivent être interprétés avec prudence, car le modèle n'est pas parfait et peut contenir des erreurs. De plus, la vérification formelle et la vérification de code sont des domaines complexes qui nécessitent une expertise approfondie pour être utilisés de manière efficace.

Leanstral 1.5 améliore la vérification formelle

présentation

fonctionnement

analyse scientifique

implications et limites

Articles similaires

Récupération d'adresses Bitcoin corrompues

Autonomie des drones

Réduction de la charge LLM avec des couches en mémoire

Zo Computer gratuit et fonctionnalités

Leanstral 1.5 améliore la vérification formelle

présentation

fonctionnement

analyse scientifique

implications et limites

Articles similaires

Récupération d'adresses Bitcoin corrompues

Autonomie des drones

Réduction de la charge LLM avec des couches en mémoire

Zo Computer gratuit et fonctionnalités

Sauvegarder l'article