L'IA va-t-elle réduire la rigueur de l'évaluation par les pairs ?
Les universitaires ont progressivement adopté les aides informatiques comme moyen d'accélérer la production écrite et les travaux d'analyse. Cependant, à mesure que ces systèmes automatisés gagnent en compétence, leur potentiel d'orienter subtilement les discussions intellectuelles s'accroît également. Un groupe de chercheurs de l'université de Stanford a réalisé l'une des premières études quantitatives approfondies sur l'omniprésence de l'impact des modèles de langage dans certains domaines universitaires.
L'équipe a analysé les critiques soumises à d'importantes conférences sur l'apprentissage automatique et les articles publiés dans une série de périodiques scientifiques réputés, avant et après le lancement de ChatGPT en novembre 2022. En développant de nouvelles techniques statistiques pour évaluer la probabilité qu'un texte donné ait été modifié ou généré de manière significative par un instrument d'intelligence artificielle, ils ont trouvé des preuves irréfutables de l'utilisation des LLM dans la substance des critiques, bien que leur degré varie d'un domaine à l'autre.
Plus remarquable encore, leurs estimations indiquent qu'entre 6,5 et 16,9 % des phrases figurant dans les évaluations de l'ICLR, du NeurIPS, du CoRL et de l'EMNLP de l'année dernière pourraient avoir été modifiées de manière significative par l'IA, au-delà de la simple relecture. En revanche, ils n'ont détecté aucune déviation statistiquement significative dans les évaluations publiées dans les publications sur la nature. Ces découvertes sont conformes aux attentes selon lesquelles les experts en apprentissage automatique pourraient avoir été les premiers à adopter la technologie, compte tenu de leurs connaissances et de leur accès à des outils performants.
Des analyses supplémentaires ont permis de mieux comprendre comment et quand l'application du LLM semble émerger. Les critiques soumises à une date proche de la date limite ou émanant d'arbitres moins enclins à engager la discussion avec les auteurs sont en corrélation avec une implication plus importante de l'IA. Les critiques manquant de références savantes ou démontrant moins de variation dans la substance à travers les évaluations d'un article ont également été coordonnées avec des signaux d'IA amplifiés.
Bien que l'enquête ne permette pas de démontrer l'existence de relations de cause à effet, ces modèles suscitent des interrogations quant à la possibilité que la facilité et la pression du temps influencent les jugements de certains arbitres et faussent potentiellement le processus d'évaluation. D'une manière plus générale, l'homogénéisation du contenu observée à grande échelle là où l'IA existe soulève des inquiétudes accrues quant au savoir-faire représentatif et à la diversité qui ont longtemps soutenu l'évaluation par les pairs.
Les créateurs insistent sur le fait qu'il s'agit de découvertes initiales issues d'une nouvelle méthodologie et qu'un effort interdisciplinaire supplémentaire reste impératif. Néanmoins, leurs estimations de haut niveau et leurs indices linguistiques constituent un point de départ précieux pour l'inspection méthodique de l'influence diffuse mais délicate de l'IA sur les conversations savantes et la formation de l'information. Ce n'est que grâce à des mesures transparentes comme celles-ci que nous pourrons garantir que ces instruments puissants augmentent la prise de décision et les échanges humains au lieu de les diriger de manière inappropriée.
Référence(s)
Cliquez sur TAGS pour voir les articles connexes :
AI | ÉVALUATION PAR LES PAIRS | RECHERCHE | SOCIÉTÉ
- UK to dispose of radioactive plutonium stockpileon January, 2025 at 5:03 pm
- Giant iceberg on crash course with island,...on January, 2025 at 12:01 am
- Trump vows to leave Paris climate agreement and...on January, 2025 at 3:20 am
- 'Dark oxygen' mission takes aim at other worldson January, 2025 at 1:05 am