Introduction

Ollama, un système d'exécution pour les grands modèles de langage sur ordinateur local, a introduit le support du framework MLX d'Apple pour l'apprentissage automatique. Cette évolution promet d'améliorer considérablement les performances sur les Mac équipés de puces Apple Silicon (M1 ou ultérieure).

Contexte Technique

Ollama a également amélioré les performances de mise en cache et prend désormais en charge le format NVFP4 d'Nvidia pour la compression de modèles, ce qui entraîne une utilisation de la mémoire beaucoup plus efficace pour certains modèles. Le support MLX est actuellement disponible en version préliminaire (dans Ollama 0.19) et prend uniquement en charge un modèle : la variante à 35 milliards de paramètres d'Alibaba Qwen3.5.

Les exigences matérielles sont élevées, nécessitant un Mac équipé d'une puce Apple Silicon, ainsi qu'au moins 32 Go de mémoire RAM, selon l'annonce d'Ollama. Cette évolution intervient à un moment où les modèles locaux gagnent en popularité, en particulier avec le succès récent d'OpenClaw, qui a attiré plus de 300 000 étoiles sur GitHub.

Analyse et Implications

La prise en charge du framework MLX par Ollama devrait accélérer l'exécution des modèles locaux sur les Mac, ce qui pourrait avoir des implications importantes pour les développeurs qui cherchent à expérimenter avec les modèles de codage locaux. En effet, les limites de débit et les coûts élevés des abonnements de niveau supérieur aux outils tels que Claude Code ou ChatGPT Codex ont poussé les développeurs à chercher des alternatives.

Perspective

Il faudra surveiller l'évolution du support MLX dans Ollama et son impact sur les performances des modèles locaux sur les Mac. De plus, il sera intéressant de voir comment les développeurs vont utiliser cette nouvelle fonctionnalité pour créer des applications innovantes. Les limites actuelles du support, telles que la prise en charge d'un seul modèle, devraient être surveillées pour voir comment Ollama les adresse dans les prochaines mises à jour.