IA responsable en medicina: Garantizar la validación clínica y la aplicación ética
"Casi no hay IA en sanidad que sea autónoma... Tenemos que empezar a pensar en cómo asegurarnos de que estamos midiendo la precisión, no solo de la IA, sino de la IA más el usuario final".
El rápido avance de las tecnologías de inteligencia artificial (IA) ha suscitado tanto entusiasmo como preocupación en el campo de la medicina. Por un lado, estos potentes algoritmos encierran un inmenso potencial para revolucionar la atención sanitaria, desde la aceleración de los diagnósticos hasta la optimización de los planes de tratamiento. Sin embargo, la integración de la IA en la práctica médica real también plantea importantes retos que deben sortearse con cuidado.
En los últimos años, cientos de dispositivos médicos basados en IA han recibido la aprobación de las autoridades reguladoras, por lo que cada vez son más las voces que reclaman una validación clínica más rigurosa para garantizar que estas herramientas benefician realmente a los pacientes. El despliegue desordenado de la IA podría no solo no mejorar los resultados, sino, en el peor de los casos, provocar daños a los pacientes. El desarrollo y la aplicación responsables de la IA médica requieren un enfoque polifacético, que aborde cuestiones complejas en torno a las pruebas clínicas, el sesgo algorítmico, la interacción entre el ser humano y la IA y el consentimiento del paciente.
Los peligros de la implantación precipitada
La historia de Devin Singh, un residente de pediatría que presenció un trágico caso de parada cardiaca en el servicio de urgencias, pone de relieve la urgente necesidad de evaluar a fondo los sistemas de IA antes de su uso clínico. Devastado por la muerte del niño, Singh se vio obligado a aprovechar su doble experiencia en pediatría e informática para explorar cómo la IA podía ayudar a reducir los tiempos de espera y agilizar la atención. Gracias a su investigación, Singh y sus colegas desarrollaron un conjunto de modelos de IA que podían proporcionar diagnósticos rápidos y recomendar pruebas adecuadas para pacientes pediátricos.
Aunque el análisis retrospectivo de los datos mostró resultados prometedores, con potencial para acelerar la atención de más del 20 % de las visitas a urgencias, este es solo el primer paso para verificar el impacto en el mundo real de una intervención de IA de este tipo. Probar adecuadamente la IA médica es un proceso complejo de varias fases que va mucho más allá del rendimiento algorítmico inicial.
Por desgracia, el panorama actual presenta importantes lagunas en la validación clínica. Una revisión reciente descubrió que solo se publicaron 65 ensayos controlados aleatorizados de intervenciones de IA entre 2020 y 2022, una cifra ínfima en comparación con los cientos de dispositivos médicos impulsados por IA cuyo uso ha sido aprobado por organismos reguladores como la Administración de Alimentos y Medicamentos de Estados Unidos (FDA).
El cardiólogo David Ouyang, del Centro Médico Cedars-Sinai de Los Ángeles, lo explica sin rodeos: "Las organizaciones sanitarias están viendo muchos dispositivos aprobados que no tienen validación clínica". Esta falta de pruebas rigurosas significa que los hospitales y las clínicas a menudo tienen que tomar decisiones arriesgadas sobre la adopción de estas tecnologías con pruebas limitadas de su impacto en el mundo real.
Las estructuras de incentivos en el mercado de la IA médica pueden agravar este problema. En Estados Unidos, los programas de seguros médicos ya reembolsan a los hospitales el uso de determinados dispositivos de IA, lo que crea una motivación económica para adoptar estas herramientas aunque no se hayan demostrado sus beneficios para la atención al paciente. Ouyang sugiere que esto podría disuadir a las empresas de invertir en el costoso y largo proceso de los ensayos clínicos, ya que conseguir la aprobación del reembolso puede ser más prioritario que demostrar la mejora de los resultados sanitarios.
La situación puede ser diferente en los sistemas sanitarios con financiación pública centralizada, donde el listón de las pruebas es más alto antes de poder adquirir tecnologías. Pero, en general, el entorno normativo actual parece haber puesto el listón demasiado bajo, ya que los dispositivos que plantean riesgos potencialmente elevados para los pacientes a menudo sólo requieren datos clínicos limitados para su aprobación.
Contabilización de los factores humanos
Incluso cuando un sistema de IA ha demostrado resultados prometedores en un estudio controlado, su rendimiento en el mundo real puede verse muy influido por la forma en que los profesionales sanitarios interactúan con la tecnología y responden a ella. Este factor "humano en el bucle" es una consideración crucial que a menudo se pasa por alto.
La experiencia del Centro Médico Universitario de Ámsterdam es un buen ejemplo. Allí, los investigadores realizaron un ensayo aleatorizado para probar un algoritmo desarrollado por Edwards Lifesciences que podía predecir la aparición de hipotensión durante una intervención quirúrgica, una situación peligrosa conocida como hipotensión intraoperatoria. El ensayo inicial demostró que el algoritmo, combinado con un protocolo de tratamiento claro, era eficaz para reducir la duración de los episodios de hipotensión.
Sin embargo, un ensayo posterior realizado por otra institución no consiguió replicar estos beneficios. ¿La diferencia clave? En el primer ensayo, los investigadores habían preparado cuidadosamente a los anestesistas sobre cómo responder a las alertas del algoritmo. Pero en el segundo ensayo, "los médicos de cabecera no hicieron nada cuando sonó la alarma", explica la anestesista Denise Veelo.
Este factor humano es crucial. Un algoritmo de IA perfectamente bueno fracasará si los profesionales sanitarios que lo utilizan deciden ignorar o malinterpretar sus recomendaciones. Factores como la "fatiga de alerta", en la que los médicos se insensibilizan ante un gran volumen de advertencias generadas por la IA, también pueden socavar el potencial de la tecnología.
Cerrar la brecha entre los desarrolladores de IA y los usuarios finales es esencial. Como descubrió Barbara Barry, investigadora de la Clínica Mayo, al probar un algoritmo para detectar afecciones cardiacas, los profesionales sanitarios querían más orientación sobre cómo comunicar eficazmente los resultados de la herramienta a los pacientes. Incorporar estas ideas de diseño centrado en el usuario es fundamental para garantizar una integración fluida de la IA en los flujos de trabajo clínicos.
Más allá de los médicos, también hay que tener en cuenta el papel del paciente. Muchas de las aplicaciones actuales de IA médica actúan entre bastidores, ayudando a los profesionales en la detección, el diagnóstico y la planificación del tratamiento. Pero, como ilustra el proyecto del servicio de urgencias pediátricas de Singh, hay una clase creciente de herramientas de IA que pretenden capacitar directamente a los pacientes, automatizando determinados procesos de toma de decisiones.
En este caso, el sistema de IA tomaría los datos de triaje, haría una predicción y, a continuación, pediría la aprobación directa de los padres o cuidadores para proceder a las pruebas, eliminando de hecho al clínico del bucle. Esto plantea cuestiones éticas y normativas sin precedentes en torno al consentimiento, la responsabilidad y la obligación del paciente. ¿Cómo podemos garantizar un consentimiento verdaderamente informado y auténtico de las familias en estos escenarios automatizados? ¿Cuáles son las implicaciones jurídicas si algo sale mal?
Son aguas desconocidas, y el equipo de Singh está colaborando con expertos jurídicos y reguladores para navegar por ellas. Pero en términos más generales, la comunidad de la IA médica debe lidiar con el papel cambiante del paciente como fuente de datos y usuario final de estas tecnologías. La comunicación transparente, los procesos de consentimiento significativos y los marcos sólidos de gobernanza de datos serán esenciales.
Prejuicios algorítmicos
Otro reto fundamental a la hora de probar y desplegar la IA médica es garantizar que estas herramientas funcionen de forma equitativa en poblaciones de pacientes diversas. El sesgo algorítmico, en el que un sistema de IA muestra resultados sesgados o discriminatorios en función de factores como la raza, el sexo o el nivel socioeconómico, es un problema bien documentado en el ámbito de la atención sanitaria.
Las poblaciones de los ensayos clínicos no suelen ser representativas de las poblaciones de pacientes más amplias a las que servirán estas tecnologías. Como señala Xiaoxuan Liu, investigador clínico de la Universidad de Birmingham (Reino Unido): "Es simplemente un hecho conocido que los algoritmos de IA son muy frágiles cuando se utilizan en datos que son diferentes de los datos en los que se entrenó."
El ejemplo del algoritmo de Google Health para detectar la retinopatía diabética ilustra este riesgo. Aunque la herramienta demostró una gran precisión en las pruebas realizadas en Palo Alto (California), sede de la empresa, su rendimiento disminuyó considerablemente cuando se utilizó en clínicas de Tailandia. Un estudio observacional reveló que las diferencias en las condiciones de iluminación y la calidad de la imagen en los entornos tailandeses redujeron la eficacia del algoritmo.
Estos casos ponen de relieve la necesidad crítica de evaluar los sistemas de IA médica no sólo en entornos de investigación idealizados, sino en todo el espectro de entornos clínicos del mundo real y poblaciones de pacientes en los que se utilizarán. Las pruebas de sesgo rigurosas deben ser un componente básico del proceso de validación clínica, para garantizar que estas tecnologías no agraven las disparidades existentes en la atención sanitaria.
Creación de capacidades para la validación local
Dados los múltiples retos que plantea la comprobación de la IA médica, surge la pregunta: ¿quién debe responsabilizarse de esta labor crucial? Algunos sostienen que cada institución sanitaria debería realizar sus propias evaluaciones antes de adoptar cualquier herramienta de IA. Pero, como señala la especialista en IA Shauna Overgaard, esto supone una carga considerable, sobre todo para las organizaciones sanitarias más pequeñas.
Para hacer frente a esta situación, están surgiendo iniciativas de colaboración para crear enfoques más centralizados y estandarizados de validación de la IA médica. La Coalition for Health AI, que incluye a representantes de la industria, el mundo académico y grupos de pacientes, ha propuesto la creación de una red de "laboratorios de garantía de la IA sanitaria" que podrían evaluar modelos utilizando un conjunto de principios acordados.
Por su parte, la Health AI Partnership, financiada por la Gordon and Betty Moore Foundation, pretende crear capacidades de asistencia técnica y validación local en cualquier organización sanitaria que quiera probar modelos de IA por su cuenta. Como sostiene Mark Sendak, científico de datos clínicos de la Universidad de Duke, "cada entorno necesita tener sus propias capacidades e infraestructuras internas para hacer también esas pruebas."
Nina Kottler, de Radiology Partners, está de acuerdo en que la validación local es crucial, pero también subraya la importancia de educar a los usuarios finales: los clínicos que manejarán estas herramientas de IA en la práctica. "Casi no hay IA en la atención sanitaria que sea autónoma", señala. "Tenemos que empezar a pensar en cómo asegurarnos de que estamos midiendo la precisión, no solo de la IA, sino de la IA más el usuario final".
Hacia un futuro de IA médica responsable
La rápida proliferación de dispositivos médicos basados en IA ha superado el desarrollo de marcos sólidos para su validación clínica y aplicación ética. Como resultado, las organizaciones sanitarias a menudo se ven obligadas a navegar por estas aguas inexploradas por su cuenta, con orientación y apoyo limitados.
Sin embargo, la comunidad médica de la IA se está uniendo cada vez más en torno a la necesidad de un enfoque más riguroso, colaborativo y centrado en el paciente. Entre las principales prioridades figuran:
1. Reforzar los requisitos de validación clínica: Los organismos reguladores deben subir el listón de las pruebas de impacto en el mundo real, yendo más allá del mero rendimiento algorítmico para evaluar los resultados clínicos, la seguridad y la equidad en poblaciones diversas.
2. Fomentar la colaboración entre las distintas partes interesadas: La industria, el mundo académico, los proveedores de atención sanitaria y los defensores de los pacientes deben trabajar juntos para establecer principios y procesos estandarizados para las pruebas y el despliegue de la IA médica.
3. Potenciar las capacidades de validación locales: Las organizaciones sanitarias de todos los tamaños necesitan los recursos técnicos y la experiencia para evaluar a fondo las herramientas de IA dentro de sus propios entornos clínicos y flujos de trabajo.
4. Centrarse en el elemento humano: Las interacciones entre los sistemas de IA y los profesionales sanitarios, así como los pacientes y sus familias, deben diseñarse y estudiarse cuidadosamente para garantizar una integración fluida y la confianza.
5. Abordar las consideraciones éticas: Las cuestiones del consentimiento del paciente, la gobernanza de los datos, el sesgo algorítmico y la responsabilidad deben abordarse de forma proactiva para garantizar que la IA médica se implemente de manera ética y equitativa.
Al adoptar este enfoque polifacético para el desarrollo y la implantación responsables de la IA, la comunidad médica puede aprovechar el poder transformador de estas tecnologías y, al mismo tiempo, mitigar los riesgos. Es mucho lo que está en juego, ya que la vida y el bienestar de los pacientes penden de un hilo. Pero con diligencia, colaboración y un firme compromiso con la validación clínica y la aplicación ética, la promesa de la IA en medicina puede materializarse en todo su potencial.
Pulse TAGS para ver artículos relacionados :