AI | Kann AI bei der Peer Review helfen?
Das Peer-Review-Verfahren spielt eine entscheidende Rolle bei der Aufrechterhaltung von Strenge und Qualitätsstandards in der akademischen Forschung. Die ständige Zunahme der Forschungsleistung hat jedoch zu einer enormen Belastung dieses Systems geführt, da die Zahl der Arbeiten, die von Experten begutachtet werden müssen, jedes Jahr steigt. Die Gutachter verbringen immer mehr Stunden damit, die eingereichten Arbeiten zu sichten, und die Rückstände bei den Einreichungen werden immer länger. Da die Produktivität der Forschung darunter leidet, haben Wissenschaftler nach Möglichkeiten gesucht, die Peer-Review zu rationalisieren, ohne ihren Nutzen zu beeinträchtigen. Könnte künstliche Intelligenz (KI) eine Lösung bieten, indem sie die Gutachter unterstützt oder bestimmte Aufgaben automatisiert?
Eine neue Studie von Forschern aus Italien und dem Vereinigten Königreich geht dieser Frage nach, indem sie ein KI-System entwickeln, das frühere Peer-Review-Entscheidungen analysiert und die Ergebnisse für neue Arbeiten auf der Grundlage oberflächlicher Merkmale wie Wortwahl, Lesbarkeit und Formatierung vorhersagt. Ihre Ergebnisse deuten darauf hin, dass KI in der Tat eine unterstützende Rolle spielen und die Arbeitsbelastung der Gutachter verringern kann, ohne das menschliche Urteilsvermögen zu ersetzen. Die Forscher geben jedoch auch zu bedenken, dass der Ansatz unbeabsichtigt zu Verzerrungen führen könnte, wenn er nicht angemessen überwacht wird.
Das Team sammelte über 3300 Konferenzbeiträge zusammen mit den Bewertungen der Gutachter und den Annahmeentscheidungen der vergangenen Jahre. Sie konzentrierten sich auf zwei große KI-Konferenzen über die offene Bewertungsplattform OpenReview.net sowie auf eine Konferenz für drahtlose Kommunikation. Für jeden Beitrag extrahierten sie oberflächliche Merkmale wie Worthäufigkeiten, Lesbarkeitskennzahlen und Formatierungsdetails, anstatt sich mit dem Inhalt zu befassen. Anhand dieser Daten trainierten sie ein neuronales Netzwerk, um Regeln abzuleiten, die die Merkmale mit den Ergebnissen der Überprüfung verbinden.
Um das Modell zu testen, untersuchten sie, wie gut es die Empfehlungen menschlicher Gutachter für ungesehene Arbeiten allein auf der Grundlage von Oberflächenattributen vorhersagen konnte. Überraschenderweise war die Genauigkeit oft hoch, was auf eine starke Korrelation zwischen oberflächlichen Eigenschaften und den allgemeinen Bewertungsergebnissen hindeutet. So erhielten beispielsweise Arbeiten mit klarerem Text und korrekter Formatierung insgesamt eher positive Bewertungen.
Diese Korrelation deutet darauf hin, dass solche oberflächlichen Anhaltspunkte als glaubwürdige Indikatoren für die allgemeine Qualität dienen können, so die Forscher. Bei gut präsentierten Arbeiten ist die Wahrscheinlichkeit geringer, dass sie tiefere Mängel aufweisen. Daher könnte die Bewertung von Beiträgen anhand ihrer Lesbarkeit und ihres Aussehens dazu beitragen, das Screening zu optimieren. Die künstliche Intelligenz könnte Probleme für eine frühzeitige Überarbeitung ohne vollständige Überprüfung aufzeigen und so möglicherweise Verzerrungen vermeiden, die durch oberflächliche Probleme entstehen. Sie könnte auch unerfahrene Gutachter beraten, indem sie ihnen das erwartete Qualitätsniveau signalisiert.
Natürlich hat die Studie ihre Grenzen. Sie war eng gefasst und versuchte nicht, das komplexe Expertenurteil der Peer-Reviews vollständig zu replizieren. Darüber hinaus birgt der Ansatz die Gefahr, dass bestehende Verzerrungen durch ungerechtfertigte Überprüfungen verstärkt werden, da die Modelle Tendenzen aus ihren Trainingsdaten übernehmen.
Die Forscher schlagen mehrere Anwendungen vor, um solche Risiken zu verringern und den Prozess insgesamt zu verbessern. KI-Erklärungen könnten implizite Motive hinter Entscheidungen aufdecken und so dazu beitragen, Vorurteile abzubauen. Autoren könnten Einblicke in Themen gewinnen, die Gutachter unbewusst beeinflussen, um ihre Erfolgschancen zu verbessern. Auch Redakteure könnten allgemeine Regeln für ein besseres Management ableiten.
Kontrollierte Experimente, bei denen KI-Empfehlungen in Live-Bewertungen integriert werden, sind erforderlich, um die Interaktionseffekte vollständig zu verstehen. Die Modelle sollten auch vollständige Rezensionstexte und Feedback analysieren und nicht nur die Häufigkeit der Schlüsselwörter, um eine umfassendere Perspektive zu erhalten. Auch die Berücksichtigung disziplinärer Normen bleibt wichtig, da sich die Normen für die Präsentation von Forschungsergebnissen von Fachgebiet zu Fachgebiet unterscheiden.
Die Forscher argumentieren, dass KI bei sorgfältiger Entwicklung und Anwendung die Redakteure bei der schnelleren Prüfung von Beiträgen direkt unterstützen könnte. Neben dem Aufspüren von Formatierungs- und Stilfehlern, die ohne weitere Prüfung behoben werden müssten, könnte die KI auch die Beiträge und Gutachter besser nach ihren Fachkenntnissen abstimmen. Die Verringerung überflüssiger Überprüfungen durch sachkundigere Ablehnungen am Schreibtisch könnte ebenfalls jedes Jahr unzählige Arbeitsstunden von Gutachtern einsparen.
Gleichzeitig muss der Transparenz Vorrang eingeräumt werden, damit die Entscheidungsgründe klar erläutert und nachweislich unparteiisch sind. Undurchsichtige "Blackbox"-KI birgt das Risiko, das Vertrauen der Nutzer zu verlieren und unbeabsichtigte Voreingenommenheit zu verbreiten. Wachsame Tests sind auch erforderlich, um zu verhindern, dass historisch marginalisierte Forschergruppen im Laufe der Zeit diskriminiert werden, da die Systeme dynamisch weiterentwickelt werden. Eine allgemeine Projektgestaltung und Überprüfungspraxis, die sich an den Grundsätzen der Fairness orientiert, kann dazu beitragen, den Nutzen der KI zu maximieren und Schaden zu vermeiden.
KI ist zwar weit davon entfernt, Experten zu ersetzen, aber sie verspricht eine Unterstützung der Peer-Review durch erklärbare Empfehlungen für häufige, aber zeitaufwändige Aufgaben. Wenn sie gewissenhaft und unter Aufsicht eingesetzt wird, kann sie die zunehmende Belastung des Systems verringern, ohne die Kernfunktionen der Qualitätssicherung zu beeinträchtigen. Sorgfältige Studien zur Integration von KI-Unterstützung in reale Begutachtungsabläufe sollten zeigen, wie nah an der Verwirklichung eines solchen Ansatzes zur Erleichterung der wichtigen, aber immer anstrengenderen Aufgaben der Peer-Review sein kann.
Hinweis(e)
-
Checco, A., Bracciale, L., Loreti, P. et al. AI-assisted peer review. Humanit Soc Sci Commun 8, 25 (2021). https://doi.org/10.1057/s41599-020-00703-8
Klicken Sie auf TAGS, um verwandte Artikel zu sehen:
KI | PEER REVIEW | FORSCHUNG | GESELLSCHAFT
- Green turtle bounces back from brink in...on October, 2025 at 8:01 am
- 'How growing a sunflower helped me fight anorexia'on October, 2025 at 5:04 am
- Fossil found on Dorset coast is unique 'sword...on October, 2025 at 12:20 am
- Naked mole rats' DNA could hold key to long lifeon October, 2025 at 6:06 pm