Introduction
Deepinfra, une startup spécialisée dans le cloud d'inférence, a levé 107 millions de dollars dans le cadre d'une série B de financement. Cette levée de fonds, menée par 500 Global et Georges Harik, vise à développer son infrastructure cloud dédiée aux modèles d'IA open source.
Contexte Technique
Deepinfra cherche à repenser l'infrastructure cloud pour les charges de travail d'IA, alors que l'industrie passe des chatbots expérimentaux aux flux de travail « agents » à grande échelle, capables de fonctionner de manière autonome sans intervention humaine. La startup estime que le processus d'inférence, qui consiste à exécuter des modèles d'IA en production, est extrêmement inefficace en raison de la conception traditionnelle des plateformes cloud qui ne sont pas adaptées à ces charges de travail.
Deepinfra propose une solution en construisant un « usine de jetons » qui traite l'inférence comme un processus principal plutôt que comme un service cloud secondaire. La startup exploite son propre matériel dans huit centres de données aux États-Unis, lui permettant de contrôler la pile d'infrastructure complète, des unités de traitement graphique (GPU) aux interfaces de programmation d'applications (API), pour obtenir de meilleures performances de son matériel cloud.
Analyse et Implications
Deepinfra mise particulièrement sur l'IA « agente » car ces systèmes sont beaucoup plus gourmands en ressources et coûteux que les chatbots d'IA génératifs traditionnels. Déjà, plus de 30 % du volume de jetons sur sa plateforme est généré par des agents autonomes. La plateforme prend en charge plus de 190 modèles d'IA open source, y compris la famille de modèles Nemotron de Nvidia, et offre une politique de rétention de données nulle pour les entreprises réticentes à envoyer des informations sensibles dans le cloud.
Perspective
Le fondateur et PDG de Deepinfra, Nikola Borisov, estime que l'inférence deviendra le principal moteur des charges de travail d'IA d'entreprise. La demande pour l'inférence d'IA est en pleine croissance, et les ingénieurs et les développeurs ont besoin d'une infrastructure plus rapide, plus flexible et plus fiable pour la soutenir. Deepinfra est bien positionnée pour répondre à cette demande avec son infrastructure cloud dédiée et sa capacité à prendre en charge les modèles d'IA open source.