Introduction

GitHub a publié son rapport de disponibilité pour le mois de mai 2026, dans lequel il présente les incidents qui ont eu un impact sur la plateforme et les mesures prises pour améliorer la fiabilité et la résilience. L'objectif principal de GitHub est de garantir la disponibilité, la capacité et les fonctionnalités de la plateforme.

Contexte Technique

GitHub a connu une croissance rapide du trafic, en partie due aux flux de travail de développement assistés par l'IA et agentic. Pour répondre à cette croissance, GitHub a entamé une transformation de son infrastructure, notamment en passant à Azure pour une capacité élastique, en décomposant son monolithe en services isolés et en éliminant les points de défaillance partagés qui ont entraîné des incidents par le passé.

Les progrès réalisés incluent le passage de 8% à 40% du trafic du monolithe vers Azure, ainsi que l'isolement de la base de données principale en domaines indépendants pour éviter les cascades de problèmes. De plus, GitHub a mis en œuvre des jetons d'authentification sans état pour réduire les requêtes de base de données et améliorer la sécurité.

Analyse et Implications

En mai, GitHub a connu neuf incidents qui ont entraîné des perturbations de service. Les incidents les plus significatifs incluent une interruption de service le 4 mai, qui a duré environ une heure et a affecté plusieurs services, notamment les pull requests, les problèmes, les actions et les opérations Git.

Un autre incident notable s'est produit les 5 et 6 mai, lorsque les exécuteurs hébergés de GitHub Actions ont été dégradés en raison d'une opération de mise à l'échelle et d'une introduction de données de configuration incorrectes. Ces incidents ont mis en évidence l'importance de la surveillance, de la gestion des ressources et de la planification pour éviter les perturbations de service.

Perspective

GitHub continue de travailler pour améliorer la fiabilité et la résilience de la plateforme. Les prochaines étapes incluent la mise en œuvre de mécanismes d'arrêt automatique pour les migrations de schéma, l'amélioration de la gestion des ressources et la mise en place de systèmes de surveillance plus robustes pour détecter les problèmes avant qu'ils n'aient un impact sur les clients.

Il est essentiel pour les utilisateurs de GitHub de rester informés des mises à jour et des améliorations apportées à la plateforme, ainsi que des incidents qui pourraient survenir. En travaillant ensemble, GitHub et ses utilisateurs peuvent garantir que la plateforme reste fiable, sécurisée et performante pour répondre aux besoins de la communauté de développement.