Introduction

Les modèles de transformation ont démontré des capacités de rappel associatif remarquables, mais leur coût en termes de calcul peut être prohibitif pour certaines applications. Les réseaux de neurones récurrents (RNN) offrent une alternative, mais leur capacité de rappel est généralement inférieure. Cette étude explore l'amélioration de la mémoire dans les RNN en utilisant l'orthogonalisation de matrices.

Contexte Technique

Les RNN, en particulier les mLSTM, ont été utilisés pour améliorer le rappel associatif. Cependant, les tâches de rappel bruyant (NAR) nécessitent une approche différente. L'utilisation de l'orthogonalisation de matrices, inspirée par l'optimiseur Muon, a été testée pour améliorer les performances des mLSTM dans les tâches de NAR.

Analyse et Implications

Les résultats montrent que l'orthogonalisation améliore les taux de réussite et la précision moyenne dans les tâches de NAR. Les gains sont plus importants pour les tâches difficiles où les mLSTM traditionnels ont du mal à performer. Cependant, il est important de noter que ces résultats sont obtenus dans un régime de modèles de petite taille et que les tâches de NAR sont synthétiques.

Perspective

Il serait intéressant d'explorer si les gains obtenus dans les tâches de NAR se traduisent par des améliorations dans les benchmarks du monde réel pour les modèles plus grands. De plus, l'impact de l'orthogonalisation sur d'autres types de modèles et de tâches devrait être étudié pour mieux comprendre ses avantages et ses limites.