Sur la stabilité et la robustesse des Vision Transformers pour la classification des maladies neurodégénératives
Résumé
Les Vision Transformers (ViT) ont récemment été explorés pour la classification d’IRM structurelles, motivés par leur capacité à capturer la structure d’image non locale. Cependant, dans des cohortes cliniques limitées et hétérogènes, leurs biais inductifs faibles et leur sensibilité aux conditions d’entraînement conduisent souvent à un comportement à variance élevée. Bien que les réglages binaires tels que cognitif normal contre démence soient largement rapportés et présentent généralement une variabilité modérée, nous montrons que cette stabilité ne s’étend pas au diagnostic différentiel. Lorsque la complexité de la tâche augmente (par exemple, contrôles contre maladie d’Alzheimer contre démence frontotemporale), la performance devient sensible au déséquilibre des classes et au chevauchement des phénotypes, avec une variabilité accrue due à un plus petit nombre d’échantillons par classe, des étiquettes plus bruitées et une hétérogénéité inter-sites accrue. Dans cette étude, nous examinons un protocole de stabilisation combinant l’augmentation de données, des contraintes architecturales et des stratégies d’optimisation sur des ensembles de données IRM multi-sites. Nous évaluons comment la variance du modèle évolue avec la complexité de la tâche en utilisant le bootstrapping apparié au niveau du patient, l’analyse de calibration, les tests de signification appariés et des estimations de la probabilité de surperformance fausse pour obtenir des comparaisons sensibles à l’incertitude entre les modèles. Nos résultats soulignent les conditions selon lesquelles les classifieurs basés sur des Transformers peuvent être entraînés de manière cohérente avec des données neuro-imagerie limitées et illustrent que plusieurs gains de performance disparaissent une fois que la variabilité stochastique est rapportée. Ces résultats soulignent que le diagnostic différentiel fiable avec les ViT nécessite à la fois des protocoles de stabilisation robustes pour atténuer le bruit d’optimisation et une quantification de l’incertitude standardisée au-delà des simples estimations ponctuelles.