Introduction
Les entreprises sont en train de passer d'une phase de test de l'IA à une adoption plus large, et le plus grand défi est de construire des systèmes d'inférence IA évolutifs qui performe sans dépasser le budget. La prochaine vague de l'IA ne sera pas gagnée uniquement par la puissance brute, mais par qui peut faire plus avec moins.
Contexte Technique
Lorsque l'inférence IA a démarré, l'accent était mis sur le déploiement de modèles de plus en plus grands sur des grappes de GPU massives, suivant l'essor de ChatGPT et des modèles de poids ouvert. C'est à ce moment-là que les clients se sont tournés vers Red Hat, à la recherche de moyens pour mettre à l'échelle ces modèles sur des plateformes comme Red Hat Enterprise Linux et OpenShift sans sacrifier le contrôle ou l'efficacité coût.
Les CPU jouent désormais un rôle plus important que lors de la phase précédente d'adoption, où les GPU étaient prédominants. Les entreprises cherchent maintenant à trouver le bon équilibre entre les deux pour répondre aux besoins de performance de manière efficace, ce qui sous-tend la dernière collaboration entre Red Hat et Intel pour apporter une prise en charge complète de vLLM pour Intel Xeon à Red Hat AI 3.4.
Analyse et Implications
La collaboration entre Red Hat et Intel vise à développer des systèmes d'inférence IA évolutifs et à promouvoir le rôle croissant des déploiements d'IA basés sur les CPU et open-source. Cela permet aux entreprises de trouver le bon équilibre entre les CPU et les GPU pour répondre à leurs besoins de performance de manière efficace, tout en réduisant les coûts.
Les entreprises doivent reconnaître que les CPU sont déjà déployés dans la plupart des centres de données et que une part croissante des charges de travail d'inférence, en particulier les tâches agentic comme l'appel d'outils et l'orchestration de données, n'exigent pas de GPU. Cela libère la capacité de GPU pour les tâches lourdes, selon Pearson.
Perspective
Il est important de surveiller l'évolution de l'inférence IA et la manière dont les entreprises équilibrent les CPU et les GPU pour répondre à leurs besoins de performance. La collaboration entre Red Hat et Intel est un exemple de la façon dont les entreprises peuvent travailler ensemble pour développer des systèmes d'inférence IA évolutifs et promouvoir l'adoption de l'IA dans les entreprises.