El modelo de IA previsión utiliza datos tomados de registros de hospitales y médicos de familia en Inglaterra

Hannah McKay/Reuters/Bloomberg a través de Getty Images

Un modelo de inteligencia artificial capacitado en los datos médicos de 57 millones de personas que han utilizado el Servicio Nacional de Salud en Inglaterra podría algún día ayudar a los médicos a predecir la enfermedad o pronosticar tasas de hospitalización, han afirmado sus creadores. Sin embargo, otros investigadores dicen que todavía hay preocupaciones significativas en la privacidad y la protección de datos en torno a tal uso a gran escala de datos de salud, mientras que incluso los arquitectos de la IA dicen que no pueden garantizar que no revelen inadvertidamente los datos del paciente confidenciales.

El modelo, llamado Foresight, se desarrolló por primera vez en 2023. Esa versión inicial utilizó GPT-3 de OpenAI, el modelo de lenguaje grande (LLM) detrás de la primera versión de ChatGPT, y se formó en 1,5 millones de registros de pacientes reales de dos hospitales de Londres.

Ahora, Chris Tomlinson en el University College London y sus colegas han ampliado previsión para crear lo que dicen es el primer “modelo de datos de salud generativos de salud generativos de la IA a escala nacional” y el más grande de su tipo.

Foresight utiliza ocho conjuntos de datos diferentes de información médica recopilada rutinariamente por el NHS en Inglaterra entre noviembre de 2018 y diciembre de 2023 y se basa en la LLAMA LLM 2 de código abierto de Meta. Estos conjuntos de datos incluyen conjuntos de datos incluyen citas exteriores, visitas hospitalarias, datos de vacunación y registros, que comprenden un total de 10 billones de eventos de salud diferentes para 57 millones de personas, esencialmente todos en el Inglaterra.

Tomlinson dice que su equipo no está lanzando información sobre qué tan bien funciona la previsión porque el modelo aún se está probando, pero afirma que algún día podría usarse para hacer todo, desde hacer diagnósticos individuales hasta predecir tendencias de salud futuras amplias, como hospitalizaciones o ataques cardíacos. “El potencial real de la previsión es predecir las complicaciones de la enfermedad antes de que ocurran, dándonos una ventana valiosa para intervenir temprano y permitir un cambio hacia una atención médica más preventiva a escala”, dijo en una conferencia de prensa el 6 de mayo.

Si bien los beneficios potenciales aún no se han respaldado, ya existen preocupaciones sobre los datos médicos de las personas que se alimentan a una IA a una escala tan grande. Los investigadores insisten en que todos los registros fueron “desidentificados” antes de ser utilizados para capacitar a la IA, pero los riesgos de que alguien pueda usar patrones en los datos para reidentificar los registros se encuentran bien, particularmente cuando se trata de grandes conjuntos de datos.

“Construir potentes modelos de IA generativos que protejan la privacidad del paciente es un problema científico abierto y sin resolver”, dice Luc Rocher en la Universidad de Oxford. “La misma riqueza de los datos que lo hace valioso para la IA también hace que sea increíblemente difícil anonimizar. Estos modelos deben permanecer bajo un estricto control del NHS donde se pueden usar de manera segura”.

“Los datos que entran en el modelo están desidentificados, por lo que se eliminan los identificadores directos”, dijo Michael Chapman en NHS Digital, hablando en la conferencia de prensa. Pero Chapman, quien supervisa los datos utilizados para capacitar la previsión, admitió que siempre existe el riesgo de reidentificación: “Es muy difícil con los datos de salud ricos dar una certeza del 100 % de que alguien no puede ser visto en ese conjunto de datos”.

Para mitigar este riesgo, Chapman dijo que la IA está operando dentro de un entorno de datos del NHS “seguro” personalizado para garantizar que la información no se filtre fuera del modelo y que sea accesible solo para los investigadores aprobados. Amazon Web Services y la compañía de datos Databricks también han suministrado “infraestructura computacional”, pero no puede acceder a los datos, dijo Tomlinson.

Yves-Alexandre de Montjoye en el Imperial College London dice que una forma de verificar si los modelos pueden revelar información confidencial es verificar si pueden memorizar los datos vistos durante la capacitación. Cuando se le preguntó por Nuevo científico Si el equipo de previsión había realizado estas pruebas, Tomlinson dijo que no lo había hecho, pero que estaba buscando hacerlo en el futuro.

Usar un conjunto de datos tan vasto sin comunicarse con las personas cómo se han utilizado los datos también puede debilitar la confianza pública, dice Caroline Green en la Universidad de Oxford. “Incluso si se está anonimizando, es algo de lo que las personas se sienten muy fuertemente desde un punto de vista ético, porque las personas generalmente quieren mantener el control sobre sus datos y quieren saber a dónde va”.

Pero los controles existentes le dan a las personas pocas oportunidades de optar por sus datos utilizados por la previsión. Todos los datos utilizados para capacitar al modelo provienen de conjuntos de datos del NHS recopilados a nivel nacional, y debido a que se ha “desidentificado”, los mecanismos de exclusión existentes no se aplican, dice un portavoz del NHS Inglaterra, aunque las personas que han elegido no compartir datos de su médico de familia no se tendrán en el modelo.

Según el Reglamento General de Protección de Datos (GDPR), las personas deben tener la opción de retirar el consentimiento para el uso de sus datos personales, pero debido a la forma en que los LLM como la previsión están capacitados, no es posible eliminar un solo registro de una herramienta de IA. El portavoz del NHS Inglaterra dice que “como los datos utilizados para capacitar al modelo se anonimizan, no está utilizando datos personales y, por lo tanto, GDPR no se aplicaría”.

Exactamente cómo el GDPR debe abordar la imposibilidad de eliminar los datos de un LLM es una pregunta legal no probada, pero el sitio web de la Oficina del Comisión de Información del Reino Unido establece que los datos “desidentificados” no deben usarse como sinónimo de datos anónimos. “Esto se debe a que la ley de protección de datos del Reino Unido no define el término, por lo que usarlo puede conducir a la confusión”, afirma.

La posición legal es aún más complicada porque la previsión se está utilizando actualmente solo para la investigación relacionada con CoVID-19, dice Tomlinson. Eso significa que aún se aplican excepciones a las leyes de protección de datos promulgadas durante la pandemia, dice Sam Smith de MedConfidential, una organización de privacidad de datos del Reino Unido. “Esta IA solo covid casi seguramente tiene datos de pacientes integrados en él, que no se pueden dejar fuera del laboratorio”, dice. “Los pacientes deben tener control sobre cómo se utilizan sus datos”.

En última instancia, los derechos y responsabilidades competitivos en torno al uso de datos médicos para la IA dejan la previsión en una posición incierta. “Hay un pequeño problema cuando se trata del desarrollo de la IA, donde la ética y las personas son un segundo pensamiento, en lugar del punto de partida”, dice Green. “Pero lo que necesitamos son los humanos y la ética debe ser el punto de partida, y luego viene la tecnología”.

Artículo modificado el 7 de mayo de 2025

Hemos atribuido correctamente los comentarios hechos por un portavoz de NHS Inglaterra

Temas:

Enlace fuente