Introduction
Overworld présente Waypoint-1, un modèle de diffusion vidéo interactive en temps réel, contrôlable via du texte, la souris et le clavier. Ce modèle permet de créer des mondes interactifs à partir de quelques frames initiales. L'objectif est de fournir une expérience immersive et réactive, sans latence.
Contexte Technique
Waypoint-1 repose sur un transformateur de flux rectifié entraîné sur 10 000 heures de vidéos de jeux diversifiés, associées à des entrées de contrôle et des légendes textuelles. Le modèle est entraîné sur des frames compressées, ce qui le rend plus efficace. La technique d'entraînement par diffusion permet au modèle d'apprendre à débruir les frames futures à partir des frames passées. Un masque d'attention causal est appliqué pour éviter que les tokens d'une frame ne soient influencés par des tokens de frames futures.
Analyse et Implications
Waypoint-1 offre une expérience interactive sans précédent, avec une latence quasi nulle et la possibilité de contrôler la caméra en temps réel. Le modèle est également capable de générer des frames à une fréquence élevée, ce qui en fait un outil prometteur pour les applications de réalité virtuelle et de jeu vidéo. Les implications concrètes incluent la possibilité de créer des expériences de jeu plus immersives, des simulations de formation plus réalistes et des outils de conception de mondes virtuels plus puissants.
Perspective
Les prochaines étapes pour Waypoint-1 incluent l'amélioration de la qualité des frames générées, l'extension du modèle à des applications plus larges et la mise en place d'outils de développement plus accessibles pour les créateurs de contenu. La communauté est invitée à participer à un hackathon pour explorer les possibilités de Waypoint-1 et de la bibliothèque d'inférence WorldEngine. Les limites actuelles du modèle incluent la nécessité d'un matériel puissant pour exécuter le modèle en temps réel et la complexité de l'entraînement du modèle.