Introduction

Thinking Machines, une startup de recherche en intelligence artificielle, a annoncé un nouveau modèle d'interaction conçu pour des interactions humaines en temps réel. Ce modèle vise à dépasser les limitations des interactions basées sur les tours de parole, caractérisées par des pauses et des retards.

Contexte Technique

Les modèles d'IA actuels nécessitent que les utilisateurs terminent leur question ou leur phrase avant de pouvoir traiter une réponse. Pour contourner cela, Thinking Machines a créé une architecture de modèle entièrement nouvelle qui permet une communication « full-duplex », c'est-à-dire que l'IA peut écouter, voir et parler simultanément. Le modèle utilise une conception multistream micro-tour basée sur des chunks de 200 millisecondes, permettant ainsi des réactions en temps réel.

La startup a développé deux composants : TML-Interaction-Small, un modèle de 276 milliards de paramètres conçu pour gérer les dialogues et les suivis immédiats, et un agent asynchrone qui travaille en arrière-plan pour effectuer des raisonnements complexes et des recherches sur le Web. Cette architecture « dual-model » est conçue pour équilibrer la vitesse et la profondeur de raisonnement.

Analyse et Implications

Les résultats du modèle sont prometteurs, avec une latence de moins de 0,4 seconde sur le benchmark FD-bench, devançant ainsi les modèles de Google et d'autres concurrents. Les implications de ce modèle sont importantes, notamment dans les applications d'entreprise où des modèles qui peuvent voir et réagir en temps réel ouvrent la voie à de nouvelles possibilités, telles que la surveillance de la sécurité dans les laboratoires ou les usines.

Perspective

Thinking Machines prévoit de rendre son modèle disponible au public plus tard dans l'année, après une phase de prévisualisation de recherche auprès d'un nombre sélectionné de partenaires. Les modèles internes de temps permettent à l'IA de gérer les demandes sensibles au temps, ce qui constitue un avantage significatif pour les applications où la rapidité et la précision sont cruciales.