Introduction

NVIDIA Cosmos Predict 2.5 est un modèle de monde à grande échelle capable de générer des vidéos physiquement plausibles conditionnées par du texte, des images ou des extraits vidéo. Pour l'adapter à un domaine spécifique, tel que la manipulation de robots ou un point de vue de caméra particulier, les équipes ont encore besoin d'un affinage ciblé.

Contexte Technique

La formation de politiques de robot nécessite des données de démonstration, mais la collecte de trajectoires de robot réelles est lente et coûteuse. La génération de trajectoires synthétiques avec un modèle de monde vidéo affiné offre une alternative évolutive. Cependant, l'affinage complet d'un modèle de 2 milliards de paramètres est coûteux et risque d'oubli catastrophique des connaissances générales. LoRA et DoRA injectent de petits modules d'adaptateur entraînables dans le modèle de base gelé, réduisant les exigences de mémoire tout en gardant les fichiers d'adaptateur petits et portables.

Analyse et Implications

Ce guide présente l'affinage efficace en termes de paramètres de Cosmos Predict 2.5 avec LoRA et DoRA, en utilisant les bibliothèques diffusers et accelerate avec une prise en charge de la formation à la fois sur une seule GPU et sur plusieurs GPU. Nous montrons ensuite comment utiliser le modèle affiné pour générer des trajectoires de robot synthétiques pour les tâches d'apprentissage de robot en aval.

Perspective

Les résultats de cette étude ouvrent des perspectives pour l'utilisation de modèles de monde vidéo affinés dans des applications de robotique, en particulier pour la génération de données synthétiques pour l'apprentissage de politiques de robot. Cependant, des recherches supplémentaires sont nécessaires pour explorer les limites et les prochaines étapes de cette approche, notamment en termes de généralisation à différents domaines et de robustesse aux perturbations.