Introduction
L'optimisation des hyperparamètres est une étape cruciale dans l'entraînement des modèles de machine learning. Les algorithmes classiques tels que CMA-ES et TPE sont couramment utilisés, mais les modèles de langage basés sur les LLM (Large Language Model) pourraient-ils les surpasser ?
Contexte Technique
Le dépôt autoresearch permet à un agent LLM d'optimiser les hyperparamètres en éditant directement le code d'entraînement. Les résultats montrent que les méthodes classiques surpassent les méthodes basées sur les LLM lorsqu'un espace de recherche fixe est défini. Cependant, lorsque l'on autorise les LLM à éditer directement le code source, l'écart se réduit mais ne disparaît pas, même avec les modèles les plus récents.
Les LLM ont du mal à suivre l'état d'optimisation entre les essais, contrairement aux méthodes classiques qui manquent de connaissance de domaine. Pour combiner les forces de ces deux approches, les auteurs introduisent Centaur, un hybride qui partage l'état interne de CMA-ES avec un LLM.
Analyse et Implications
Les résultats montrent que Centaur obtient les meilleurs résultats et qu'un LLM de 0,8 milliard de paramètres suffit pour surpasser toutes les méthodes classiques et basées sur les LLM. Cependant, l'édition de code non contrainte nécessite des modèles plus grands pour être compétitifs avec les méthodes classiques.
Les auteurs analysent également la diversité de recherche, la mise à l'échelle des modèles et la fraction d'essais proposés par les LLM dans Centaur. Les résultats suggèrent que les LLM sont les plus efficaces comme complément aux optimiseurs classiques, et non comme remplacement.
Perspective
Les LLM pourraient être utilisés pour améliorer les algorithmes classiques d'optimisation des hyperparamètres, en particulier dans les cas où la connaissance de domaine est cruciale. Cependant, il est important de noter que les LLM nécessitent des ressources importantes pour être compétitifs avec les méthodes classiques.
Les futurs travaux devraient se concentrer sur l'amélioration de l'efficacité des LLM dans l'optimisation des hyperparamètres, ainsi que sur l'exploration de nouvelles applications pour les LLM dans le domaine de la machine learning.