Introduction

N-Day-Bench est un benchmark conçu pour mesurer la capacité des modèles de langage avancés (LLM) à détecter des vulnérabilités réelles dans des bases de code réelles. Ce projet, mené par Winfunc Research, vise à évaluer les capacités de cybersécurité des LLM, en particulier dans le domaine de la découverte de vulnérabilités.

Contexte Technique

N-Day-Bench utilise une approche adaptive, avec des cas de test mis à jour mensuellement et des modèles de langage mis à jour vers leurs dernières versions et points de contrôle. Les modèles testés incluent openai/gpt-5.4, z-ai/glm-5.1, anthropic/claude-opus-4.6, moonshotai/kimi-k2.5 et google/gemini-3.1-pro-preview. Les traces de tous les tests sont accessibles publiquement.

Analyse et Implications

L'objectif principal de N-Day-Bench est de mesurer la capacité des LLM à identifier des vulnérabilités réelles, dites « N-Days », qui ont été découvertes après la date de coupure des connaissances des modèles. Cela permet d'évaluer les capacités de cybersécurité des LLM dans un contexte réel. Les résultats des tests peuvent avoir des implications importantes pour la sécurité des systèmes informatiques et la confiance dans les capacités des LLM pour la détection de vulnérabilités.

Perspective

Il est essentiel de surveiller les résultats de N-Day-Bench et les prochaines étapes de ce projet pour comprendre les limites et les potentialités des LLM dans la détection de vulnérabilités. Les futurs développements pourraient inclure l'extension du benchmark à d'autres types de vulnérabilités ou l'intégration de nouvelles techniques d'apprentissage automatique pour améliorer les performances des LLM dans ce domaine.