Introduction

L'exécution de modèles locaux sur un ordinateur personnel peut être un défi, mais offre également des avantages tels que la réduction de la dépendance aux grandes entreprises technologiques et la possibilité de travailler sans connexion internet. Dans cet article, nous allons explorer les possibilités d'exécution de modèles locaux sur un M4 avec 24GB de mémoire.

Contexte Technique

Pour exécuter des modèles locaux, il est nécessaire de choisir un framework de travail tel que Ollama, llama.cpp ou LM Studio. Chacun de ces frameworks présente des particularités et des limitations, et ne propose pas tous les mêmes modèles. Il est également important de sélectionner un modèle qui convient à la quantité de mémoire disponible et qui offre une fenêtre de contexte suffisante, idéalement de 128K ou plus.

Les modèles tels que Qwen 3.6 Q3, GPT-OSS 20B et Devstral Small 24B ont été testés, mais se sont avérés inutilisables en pratique malgré leur compatibilité avec la quantité de mémoire disponible. Le modèle Gemma 4B a fonctionné correctement, mais a rencontré des difficultés avec l'utilisation d'outils.

Analyse et Implications

Le modèle Qwen 3.5-9B (4b quant) s'est avéré être le plus performant, avec une vitesse de traitement raisonnable de 40 tokens par seconde, une prise en charge de la réflexion et une fenêtre de contexte de 128K. Cependant, ce modèle présente des limitations par rapport aux modèles SOTA, tels que des distractions plus fréquentes et des difficultés à résoudre des problèmes complexes de manière autonome.

Les paramètres de configuration tels que la température, le top_p, le top_k, le min_p et la pénalité de présence doivent être ajustés pour optimiser les performances du modèle. La prise en charge de la réflexion nécessite également la sélection du modèle et la configuration de l'inférence.

Perspective

L'exécution de modèles locaux sur un M4 avec 24GB de mémoire offre des possibilités intéressantes, notamment la réduction de la dépendance aux grandes entreprises technologiques et la possibilité de travailler sans connexion internet. Cependant, les limitations des modèles locaux doivent être prises en compte, et les paramètres de configuration doivent être ajustés pour optimiser les performances.

Les exemples d'utilisation de Qwen 3.5-9B pour résoudre des problèmes de codage et de dépendances montrent que le modèle peut être utile pour des tâches spécifiques, mais nécessite une interaction plus étroite avec l'utilisateur pour obtenir des résultats satisfaisants.