Estados Unidos.- La inteligencia artificial podría ayudar a los médicos al completar el papeleo de memoria, pero no va a ser útil en la sala de emergencias en el corto plazo, según un estudio reciente.
«ChatGPT no actuaba de manera consistente», dijo el investigador principal, el doctor Thomas Heston, profesor asociado del Colegio de Medicina Elson S. Floyd de la Universidad Estatal de Washington, este agregó, que «con exactamente los mismos datos, ChatGPT daría una puntuación de riesgo bajo, y la próxima vez un riesgo intermedio, y en ocasiones, llegaría a dar un riesgo alto».
La inteligencia artificial tampoco funcionó tan bien como los métodos tradicionales que usan los médicos para solo el riesgo cardiaco de un paciente, según los hallazgos, publicados recientemente en la revista PLOS One.
Te puede interesar: Sistema de inteligencia artificial en la lectura de estudios de imágenes
Para el estudio, los investigadores alimentaron a ChatGPT con miles de casos simulados de pacientes con dolor cardíaco. Investigaciones anteriores mostraron que el programa de IA puede pasar exámenes médicos, por lo que se esperaba que fuera útil para responder a emergencias médicas.
Los dolores en el pecho son una queja común en la sala de emergencias, y los médicos deben evaluar rápidamente la urgencia de la afección de un paciente. Los casos muy graves pueden ser fáciles de identificar a partir de los síntomas, pero los casos de menor riesgo pueden ser más complicados, dijo Heston. Puede ser difícil decidir si una persona debe permanecer en el hospital para observación o enviarla a casa.
Hoy en día, los médicos con frecuencia usan dos medidas para evaluar el riesgo cardiaco, llamadas TIMI y HEART, explicó Heston. Estas listas de verificación sirven como calculadoras que utilizan los síntomas, el historial de salud y la edad para determinar la enfermedad de un paciente cardíaco.
Los investigadores crearon tres conjuntos de 10.000 casos simulados aleatorios. El primer conjunto contenía las siete variables utilizadas para la escala TIMI, el segundo las cinco variables utilizadas en el HEART y el tercero tenía un conjunto más complejo de 44 lecturas de salud aleatorias.
Cuando se le administraron los dos primeros conjuntos de datos, ChatGPT estuvo de acuerdo con las puntuaciones fijas de TIMI y HEART aproximadamente la mitad de las veces, 45% y 48% respectivamente.
En el último conjunto de datos, los investigadores analizaron los mismos casos cuatro veces y descubrieron que ChatGPT a menudo ni siquiera podía estar de acuerdo consigo mismo. La inteligencia artificial devolvió diferentes evaluaciones para los mismos casos el 44% de las veces.
Es probable que el problema se deba a la aleatoriedad incorporada en la versión actual del software ChatGPT, que le ayuda a variar sus respuestas para simular el lenguaje natural. A pesar de este estudio, Heston dijo que la IA tiene el potencial de ser realmente útil en la sala de emergencias.
Por ejemplo, todo el expediente médico de una persona podría incluirse en el programa, y podría proporcionar los datos más pertinentes sobre un paciente rápidamente en caso de emergencia, dijo Heston. Los médicos también pueden pedir al programa que ofrezca varios diagnósticos posibles en casos difíciles y complejos.