Intégrité des évaluations : comment nous avons découvert les fuites

Introduction

Lorsque vous construisez un agent IA qui utilise la bibliothèque de graphiques, vous faites confiance à nos taux de base historiques. Si ces taux de base sont gonflés en raison de fuites, la taille, la placement d'arrêt et la calibration de la confiance de votre agent sont tous affectés en aval par un mensonge. C'est inacceptable pour tout client que nous souhaitons avoir, nous avons donc effectué une audit interne et publié nos découvertes.

Contexte Technique

Nous avons constaté que notre ligne de base interne pour la précision de la direction d'intégration de forme était de 51,6 % - à peine au-dessus du plancher de 51,2 % de la pièce. Cette différence de 0,4 point de pourcentage était mesurée par rapport à une division qui permettait au modèle de trouver des quasi-duplicats de chaque requête dans l'ensemble d'entraînement. Une fois que nous avons corrigé cela, le chiffre est revenu à environ 51,2 %. Nous n'avions jamais de signal là où nous pensions en avoir.

Nous avons divisé l'entraînement de la validation par date (entraînement < 2025, validation = 2025). Le problème : AAPL a un intégration de forme de motif de graphique pour chaque jour de trading. Son intégration le 30 décembre 2024 et le 2 janvier 2025 sont presque les mêmes vecteurs (même symbole, barres précédentes presque identiques).

Analyse et Implications

Lorsque nous avons exécuté une évaluation k-nearest-neighbor sur les échantillons de validation, le voisin d'entraînement le plus proche pour AAPL le 2 janvier 2025 était AAPL le 30 décembre 2024 - qui se trouve dans l'ensemble d'entraînement. Le modèle ne trouvait pas de « modèles historiques similaires ». Il se trouvait lui-même quelques jours plus tôt.

53,6 % des échantillons de validation avaient un voisin d'entraînement du même symbole dans les 20 jours de trading. L'amélioration de la précision de direction était presque entièrement due à cette corrélation. Les divisions disjointes de symboles (retenir les tickers entiers, et non les dates) donnent des chiffres honnêtes.

Perspective

À l'avenir, chaque évaluation de la qualité d'intégration de la bibliothèque de graphiques utilisera : des divisions disjointes de symboles - 70 % des tickers dans l'entraînement, 15 % dans la validation, 15 % dans les tests. Aucun ticker n'apparaît dans plus d'une division. Une purge et une fenêtre d'embargo de 10 jours de trading à chaque limite de division restante (par exemple, marche avant). Un rapport de taille d'échantillon sur chaque métrique signalée, avec des intervalles de confiance. Une publication ouverte de la ligne de base afin que les mises à jour futures du modèle doivent battre un chiffre honnête, et non gonflé.

La précision de la direction de similarité de forme pure sur une division disjointe de symboles et avec embargo est à ou près de 51 % - essentiellement une pièce. Ce n'est pas un défaut de nos intégrations ; c'est l'état réel du problème. Prévoir la direction de 5 jours à partir d'une seule forme de graphique est l'un des problèmes d'extraction de signal les plus difficiles dans le domaine financier, et il est bien documenté dans la littérature universitaire que les caractéristiques de prix pur ont un ratio d'information très faible avant la condition de régime / liquidité / volume.

Intégrité des évaluations : comment nous avons découvert les fuites

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Dependabot attend maintenant avant de mettre à jour les versions

Copilot contre accès API brut

GitHub réorganise son programme de chasse aux bugs

GitHub Copilot crée des expériences interactives avec des canevas

Intégrité des évaluations : comment nous avons découvert les fuites

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Dependabot attend maintenant avant de mettre à jour les versions

Copilot contre accès API brut

GitHub réorganise son programme de chasse aux bugs

GitHub Copilot crée des expériences interactives avec des canevas

Newsletter TechFi24

Sauvegarder l'article