Introduction

Des chercheurs ont découvert que des datasets de mauvaise qualité ont été utilisés pour entraîner des modèles cliniques pour la détection des accidents vasculaires cérébraux et du diabète. Ces datasets, hébergés sur la plateforme Kaggle, contiennent des images de célébrités et des données patient non fiables.

Contexte Technique

Les chercheurs Adrian Barnett et Alexander Gibson ont examiné plusieurs datasets sur Kaggle et ont constaté que ceux-ci contenaient des données de mauvaise qualité, notamment des images de célébrités et des données patient dupliquées. Les datasets ont été utilisés pour entraîner des modèles de prédiction clinique pour la détection des accidents vasculaires cérébraux et du diabète.

Les chercheurs ont utilisé des méthodes de recherche inversée pour identifier les sources des images et ont constaté que de nombreuses images étaient des photos de célébrités ou des images non pertinentes. Les datasets contenaient également des données patient non fiables, telles que des données dupliquées et des valeurs manquantes peu probables.

Analyse et Implications

L'utilisation de ces datasets de mauvaise qualité peut avoir des implications importantes pour la santé publique. Les modèles de prédiction clinique entraînés sur ces données peuvent ne pas être fiables et peuvent conduire à des diagnostics incorrects ou à des traitements inappropriés.

Les chercheurs ont constaté que de nombreux articles scientifiques ont utilisé ces datasets sans vérifier leur qualité. Cela souligne l'importance de la vérification de la qualité des données avant de les utiliser pour l'entraînement de modèles de prédiction clinique.

Perspective

Il est essentiel de prendre des mesures pour améliorer la qualité des données utilisées pour l'entraînement de modèles de prédiction clinique. Cela peut inclure la vérification de la provenance des données, la vérification de la qualité des données et l'utilisation de méthodes de validation pour évaluer la fiabilité des modèles.

Les plateformes de partage de données, telles que Kaggle, doivent également prendre des mesures pour améliorer la qualité des données partagées sur leur plateforme. Cela peut inclure la mise en place de processus de vérification de la qualité des données et la fourniture de conseils aux utilisateurs sur la manière de vérifier la qualité des données avant de les utiliser.