AI | L'IA peut-elle contribuer à l'évaluation par les pairs ?
Le processus d'évaluation par les pairs joue un rôle crucial dans le maintien de la rigueur et des normes de qualité dans la recherche universitaire. Cependant, l'augmentation constante des résultats de la recherche a mis ce système à rude épreuve, car le nombre d'articles nécessitant une évaluation par des experts augmente chaque année. Les évaluateurs passent de plus en plus d'heures à passer au peigne fin les soumissions, et les arriérés de soumissions ne cessent de s'allonger. La productivité de la recherche s'en ressentant, les scientifiques ont cherché des moyens de rationaliser l'évaluation par les pairs sans en compromettre l'utilité. L'intelligence artificielle (IA) pourrait-elle offrir une solution en aidant les évaluateurs ou en automatisant certaines tâches ?
Une nouvelle étude menée par des chercheurs italiens et britanniques se penche sur cette question en développant un système d'IA pour analyser les décisions antérieures d'évaluation par les pairs et prédire les résultats pour les nouveaux articles sur la base de caractéristiques superficielles telles que le choix des mots, la lisibilité et la mise en forme. Leurs conclusions suggèrent que l'IA peut effectivement jouer un rôle de soutien, en réduisant potentiellement la charge de travail des évaluateurs sans remplacer le jugement humain. Toutefois, les chercheurs soulèvent également d'importantes considérations concernant les biais que l'approche pourrait introduire par inadvertance si elle n'est pas correctement supervisée.
L'équipe a recueilli plus de 3 300 articles de conférence, ainsi que les notes des évaluateurs et les décisions d'acceptation des années précédentes. Elle s'est concentrée sur deux grandes conférences sur l'intelligence artificielle par l'intermédiaire de la plateforme d'évaluation ouverte OpenReview.net, ainsi que sur une conférence sur les communications sans fil. Pour chaque article, ils ont extrait des caractéristiques superficielles telles que la fréquence des mots, les mesures de lisibilité et les détails de mise en forme, plutôt que de se pencher sur le contenu. Ils ont entraîné un réseau neuronal sur ces données pour en déduire des règles reliant les caractéristiques aux résultats de l'évaluation.
Pour tester le modèle, ils ont examiné dans quelle mesure il pouvait prédire les recommandations des évaluateurs humains pour des articles non vus, en se basant uniquement sur les attributs de surface. De manière surprenante, la précision était souvent élevée, ce qui suggère une forte corrélation entre les qualités superficielles et les résultats globaux de l'évaluation. Les articles rédigés de manière plus claire et correctement formatés, par exemple, ont eu tendance à recevoir des évaluations plus positives dans l'ensemble.
Selon les chercheurs, cette corrélation indique que ces indices superficiels peuvent servir d'indicateurs crédibles de la qualité générale. Les articles bien présentés sont moins susceptibles de contenir des défauts plus profonds, de sorte que l'évaluation des soumissions en partie sur la base de la lisibilité et de l'apparence pourrait contribuer à rationaliser la sélection. L'IA pourrait signaler des problèmes pour des remaniements précoces sans examen complet, ce qui permettrait d'éviter les biais introduits par des problèmes superficiels. Elle pourrait également conseiller les évaluateurs inexpérimentés en leur signalant les niveaux de qualité attendus.
Bien sûr, l'étude a ses limites. Elle s'est concentrée sur un champ restreint et n'a pas tenté de reproduire intégralement le jugement complexe et expert de l'examen par les pairs. En outre, l'approche risque de propager les préjugés existants si une surveillance injuste est possible, car les modèles héritent des tendances de leurs données d'apprentissage.
Les chercheurs proposent plusieurs applications pour réduire ces risques et améliorer le processus dans son ensemble. Les explications de l'IA pourraient mettre en évidence les motifs implicites des décisions, ce qui aiderait à lutter contre les préjugés. Les auteurs pourraient avoir un aperçu des questions qui influencent inconsciemment les évaluateurs, afin d'améliorer leurs chances de succès à l'avenir. Les rédacteurs peuvent également extraire des règles générales pour une meilleure gestion.
Des expériences contrôlées intégrant les recommandations de l'IA dans les évaluations en direct sont nécessaires pour comprendre pleinement les effets d'interaction. Les modèles devraient également analyser les textes d'évaluation complets et le retour d'information plutôt que la seule fréquence des mots clés afin d'obtenir une perspective plus riche. Il est également important de tenir compte des normes disciplinaires, car les normes diffèrent d'un domaine à l'autre en matière de présentation de la recherche.
Si elle est conçue et appliquée avec soin et sous surveillance, l'IA pourrait, selon les chercheurs, aider directement les rédacteurs en chef à sélectionner plus rapidement les articles soumis. Au-delà des problèmes de formatage et de style signalés pour être corrigés sans autre forme d'évaluation, l'IA pourrait également mieux faire correspondre les articles et les évaluateurs en fonction de leur expertise. La réduction des examens redondants grâce à des rejets plus éclairés pourrait également permettre d'économiser un nombre incalculable d'heures de travail des examinateurs chaque année.
Dans le même temps, la transparence doit être privilégiée afin que les logiques de décision soient clairement expliquées et que l'on puisse vérifier leur impartialité. L'IA "boîte noire" opaque risque de perdre la confiance des utilisateurs et de propager des préjugés involontaires. Des tests vigilants sont également nécessaires pour prévenir toute discrimination émergente à l'encontre de groupes de chercheurs historiquement marginalisés au fil du temps, à mesure que les systèmes sont affinés de manière dynamique. La conception générale des projets et les pratiques d'examen fondées sur les principes d'équité peuvent contribuer à maximiser les avantages de l'IA et à en éviter les inconvénients.
Bien qu'elle soit loin de remplacer les experts, l'IA est prometteuse pour soutenir l'examen par les pairs grâce à des recommandations explicables sur des tâches courantes mais chronophages. Si elle est gérée de manière consciencieuse et supervisée, elle peut alléger les contraintes croissantes qui pèsent sur le système sans compromettre les fonctions essentielles d'assurance qualité. Des études approfondies intégrant l'assistance de l'IA dans des flux de travail réels devraient révéler à quel point cette approche peut être proche de la réalisation pour alléger les responsabilités importantes mais de plus en plus lourdes de l'examen par les pairs.
Référence(s)
-
Checco, A., Bracciale, L., Loreti, P. et al. AI-assisted peer review. Humanit Soc Sci Commun 8, 25 (2021). https://doi.org/10.1057/s41599-020-00703-8
Cliquez sur TAGS pour voir les articles connexes :
AI | ÉVALUATION PAR LES PAIRS | RECHERCHE | SOCIÉTÉ
- Green turtle bounces back from brink in...on October, 2025 at 8:01 am
- 'How growing a sunflower helped me fight anorexia'on October, 2025 at 5:04 am
- Fossil found on Dorset coast is unique 'sword...on October, 2025 at 12:20 am
- Naked mole rats' DNA could hold key to long lifeon October, 2025 at 6:06 pm