Introduction
Overworld présente Waypoint-1, un modèle de diffusion vidéo interactif en temps réel qui permet une interaction fluide via du texte, la souris et le clavier. Ce modèle est capable de créer un monde que l'utilisateur peut explorer et interagir avec de manière immersive.
Contexte Technique
Waypoint-1 repose sur un transformateur de flux rectifié causal entraîné sur 10 000 heures de séquences de jeux vidéo diversifiées, associées à des entrées de contrôle et des légendes textuelles. Le modèle est entraîné sur des trames compressées, ce qui le rend plus efficace. La technique d'entraînement utilisée, appelée diffusion forcing, permet au modèle d'apprendre à débruer les trames futures à partir de trames passées. Un masque d'attention causal est appliqué pour que chaque jeton dans une trame ne puisse considérer que les jetons de sa propre trame ou des trames passées, mais pas les trames futures.
Analyse et Implications
L'avantage majeur de Waypoint-1 réside dans sa capacité à offrir une expérience interactive sans latence, permettant aux utilisateurs de contrôler la caméra librement avec la souris et d'entrer des commandes au clavier sans restriction. Chaque trame est générée en tenant compte des commandes de l'utilisateur, ce qui offre une expérience fluide et immersive. Les performances du modèle sont également notables, avec la capacité de soutenir jusqu'à 30 000 passes de jetons par seconde et d'atteindre 30 images par seconde avec 4 étapes ou 60 images par seconde avec 2 étapes sur un matériel consommateur.
Perspective
Les possibilités offertes par Waypoint-1 sont considérables, notamment dans les domaines du jeu vidéo, de la réalité virtuelle et de la création de contenu interactif. La communauté est invitée à explorer et à étendre les capacités de Waypoint-1, notamment à travers l'organisation d'un hackathon visant à encourager l'innovation et la créativité autour de ce modèle. Les défis futurs incluront probablement l'amélioration de la qualité des images générées, l'extension des possibilités d'interaction et l'exploration de nouvelles applications pour ce type de technologie.