Introduction
L'article présente une expérimentation visant à comparer les capacités de 11 modèles de langage (LLM) à réorganiser un nœud de graphique de langage (LangGraph) complexe. Le nœud en question, appelé « nœud dieu », contient environ 350 lignes de logique et rend le graphique difficile à comprendre et à maintenir.
Contexte Technique
Les 11 modèles sélectionnés sont : GPT-5.4, GPT-5.5, DeepSeek-4-pro, Gemini-3.1-pro, GLM-5.1, Kimi-2.6, MiMo-2.5-pro, Opus-4.7, Qwen-3.6-plus, Qwen-3.7-max et Fable-5. Chaque modèle a généré une proposition pour réorganiser le nœud, puis a évalué les propositions des autres modèles.
Les modèles ont travaillé dans des sessions fraîches, avec un effort de raisonnement maximal, et n'ont pas pu voir les travaux des autres modèles pendant la génération des propositions. Les analyses ont été générées en fonction de l'ensemble des propositions, sans accès aux autres analyses.
Analyse et Implications
Les résultats de l'expérimentation montrent que les modèles ont des approches différentes pour réorganiser le nœud. Fable-5 propose de répartir la logique cachée sur cinq étapes, tandis que d'autres modèles suggèrent des approches plus simples ou plus complexes.
L'évaluation des propositions par les modèles eux-mêmes a permis d'identifier les forces et les faiblesses de chaque modèle. Les résultats montrent que les modèles ont des capacités variables à évaluer les propositions et à identifier les meilleures solutions.
Perspective
L'expérimentation met en évidence l'importance de la sélection du modèle de langage approprié pour les tâches de réorganisation de code. Les résultats suggèrent que Fable-5 pourrait être un bon choix pour la génération de propositions, tandis que d'autres modèles pourraient être plus adaptés pour l'évaluation des propositions.
Les limites de l'expérimentation incluent le nombre restreint de modèles évalués et la complexité du nœud de graphique de langage utilisé. Des recherches futures pourraient viser à évaluer un plus grand nombre de modèles et à explorer d'autres types de tâches de réorganisation de code.