Introduction
L'introduction de l'IA dans le domaine de la santé a principalement porté sur des modèles de perception, capables d'interpréter des signaux et de classifier ou de segmenter la pathologie ou l'anatomie. Cependant, la santé implique également des actions physiques, ce qui rend les jeux de données statiques et basés uniquement sur la perception insuffisants. Le domaine a besoin de corps de robot standardisés, de données de vision-force-kinématiques synchronisées, de paires sim-to-real et de références de benchmark pour construire les fondements de l'IA physique.
Contexte Technique
Open-H-Embodiment est une initiative de jeu de données communautaire qui vise à créer une fondation ouverte et partagée pour entraîner et évaluer l'autonomie de l'IA et les modèles de fondation du monde pour la robotique chirurgicale et l'échographie. Ce jeu de données comprend 778 heures de données de formation de robotique en santé, couvrant principalement la robotique chirurgicale, mais également l'autonomie de l'échographie et de la colonoscopie.
Deux nouveaux modèles open-source ont été publiés en même temps que ce jeu de données : GR00T-H, un modèle dérivé de la série de modèles VLA (Vision-Language-Action) Isaac GR00T N, et Cosmos-H-Surgical-Simulator, un modèle de fondation du monde pour la robotique chirurgicale.
Analyse et Implications
GR00T-H est le premier modèle de politique pour les tâches de robotique chirurgicale, entraîné sur environ 600 heures de données Open-H-Embodiment. Il utilise quatre choix de conception clés pour gérer les difficultés de l'apprentissage par imitation dans la robotique chirurgicale. Cosmos-H-Surgical-Simulator est un modèle de fondation du monde qui génère des vidéos chirurgicales physiquement plausibles à partir d'actions kinématiques, surmontant le fossé sim-to-real et offrant des gains d'efficacité.
Ces modèles ouvrent la voie à de nouvelles possibilités pour la robotique en santé, notamment la création de systèmes autonomes capables d'expliquer, de planifier et de s'adapter à long terme. Cependant, cela nécessite une extension du jeu de données Open-H-Embodiment pour inclure des traces de tâches annotées, capturant les intentions, les résultats et les modes de défaillance.
Perspective
Le but de la version 2 de l'effort Open-H-Embodiment est de dépasser le contrôle perceptuel pour atteindre une autonomie capable de raisonnement, un moment « ChatGPT » pour la robotique chirurgicale, où les systèmes peuvent expliquer, planifier et s'adapter à long terme. Cela nécessite une implication communautaire et nous invitons les intéressés à se joindre à l'effort. Les ressources pour commencer à travailler avec le jeu de données et les modèles Open-H-Embodiment sont disponibles sur Hugging Face et GitHub.