Desarrollan un método que mejora la evaluación de la calidad en la predicción de los sistemas de diagnóstico médico

15 Jul 2024

La curva IMCP ayuda a determinar gráficamente la fiabilidad de modelos de predicción que tienen que analizar múltiples valores de la variable objetivo

En el campo de la biomedicina, la evaluación de la calidad de los sistemas de diagnóstico es fundamental para garantizar que se aplican soluciones adecuadas. En los modelos predictivos tiene especial relevancia el hecho de que los valores objeto de estudio son de distinta clase (multiclase) y estas clases a su vez presentan una gran variedad en su frecuencia. Es lo que se conoce como desbalanceo o desequilibrio de datos. 

 En contextos médicos es de suma importancia disponer de un método capaz de mostrar la calidad del sistema en cuanto a las predicciones que realiza. Hasta ahora, para evaluar de forma gráfica la calidad de un sistema de diagnóstico solo existía la curva ROC (Receiver Operating Characteristic), un análisis utilizado para medir el coste/beneficio de decisiones diagnósticas, pero que no funciona con conjuntos de datos multiclase como, por ejemplo, distintos tipos de tumores. 

Investigadores del grupo Data Analytics Science & Engineering, liderado por Jesús Aguilar, catedrático de Lenguajes y Sistemas Informáticos de la Universidad Pablo de Olavide, en colaboración con Marcin Michalak, investigador de la Silesian University of Technology (Polonia), han propuesto un método innovador para la evaluación de sistemas de diagnóstico, denominado curva IMCP, que muestra el rendimiento de la clasificación y, por otro lado, identifica para qué valores de la variable objetivo el modelo está ofreciendo mejor o peor calidad en la predicción. 

La curva IMPC (Imbalanced Multiclass Classification Performance) ha sido evaluada en la predicción de 35 tipos de tumores a partir de una colección de 6.756 muestras de tumores metastásicos y primarios obtenidos por la Hartwig Medical Foundation (Países Bajos) y el Pan-Cancer Analysis of Whole Genomes Consortium, analizando un total de 511 características. Como resultado, se revela que un modelo predictivo para tumores aparentemente fiable (92,4% de exactitud en la predicción), podría mostrar un comportamiento desigual para diferentes tipos de tumores (bueno en la predicción de melanoma, pero malo en el caso de sarcoma), lo que necesariamente debería conducir a un examen humano más detallado en el caso de ciertos tipos de tumores, en consonancia con la fiabilidad del sistema de diagnóstico para esos casos. 

El análisis propuesto por Aguilar y Michalak permite evaluar el rendimiento para cada valor por separado. De este modo, revela en qué casos el rendimiento global oculta distintos resultados para diferentes tipos de valores (multiclase). Así, si el rendimiento global es del 92,4%, podría darse el caso en que el sistema diagnostique el melanoma con una exactitud del 98,6%, pero el sarcoma con 17,5%. Por tanto, la curva IMCP posibilita identificar la fiabilidad de la predicción a partir de conjuntos de datos de distinta clase. 

El método, basado en el cálculo de distancias de funciones de distribución de probabilidad, es aplicable en contextos en donde la curva ROC no puede usarse, cubriendo un vacío existente en la actualidad en el campo de machine learning, con utilidad en multitud de disciplinas. 

La curva IMCP puede visualizarse con facilidad a partir de las probabilidades de asignación a cada valor de la variable objetivo proporcionadas por el sistema de diagnóstico, mediante el uso de una librería implementada en Python, de acceso libre y código abierto, publicada en https://github.com/adaa-polsl/imcp. El trabajo ha sido publicado por la editorial Springer-Nature. 

Referencia:

Aguilar-Ruiz, J.S., Michalak, M. Classification performance assessment for imbalanced multiclass data. Scientific Reports 14, 10759 (2024).

https://doi.org/10.1038/s41598-024-61365-z

Fuente: Unidad Técnica de Comunicación UPO

 



Facebook   Twitter

 NUBE DE TAGS

Accede a la oferta tecnológica de interés para tu empresa desde esta nube de tags.

: Bioinformática Acuicultura aditivos Aeroespacial Agregación Agricultura Agua aguas residuales Alimentación alimentos funcionales almazaras análisis biomecánico anti-inflamatorios antienvejecimiento antiinflamatorio antioxidantes Apoptosis aprendizaje Aprendizaje-Servicio ApS Aromas Arqueología asesoramiento Bebidas Bicicleta Big Data BIO-MS bioadsorción Biocarbon biocidas biodiesel Biodiversidad Bioenergética Bioinformática biomasa algal Biomedicina Biopilas Bioquímica Biotecnología Biotecnología Bioinformática bombas de destoxificación bombas destoxificación C.elegans Cáncer cardiovascular Celdas biocombustibles Celiaquía Células madre celulosa ciudadanía CO2 Coeducación Coenzima Q colecciones biológicas comercio electrónico competencias plurilingües y pluriculturales Composición corporal Compostaje compromiso social compuestos bioactivos Comunicación internacional Comunidad Conservación Construcción Cooperación territorial Cosmética Cultura demográfia densiometría Deporte Derecho desastres naturales desplazamiento Diabetes Dietética Dispositivo de salto Drosophila Ecosistémica Edafología Educación educación. Electricidad emergencias Emociones Emprendimiento Empresas de Base Tecnológica Energía Energías renovables enfermedad cardiovascular enfermedad gaucher enfermedad hígado graso no alcohólica (EHGNA) Enfermedades lisosomales Enfermedades mitocondriales Enfermedades neurodegenerativas Enfermedades raras EnGNet enseñanza activa entorno urbano Entrenamiento deportivo envejecimiento enzimas Escrutineo de Alto Rendimiento especímenes Herbario Estrés Estrés hídrico Estudios Sociales explotación FE-SEM Fenotipaje Fibromialgia Fibrosis hepática Fisiología Formación fotobiorreactores Ganaderia Gestión franquicias Gestión información hábitos de vida Hidrógeno Hidroponía hueso aceituna Idiomas igualdad de género Impacto Cruzado Impacto social Indicadores infancia inflasomas Infraestructuras inmovilización de enzimas inmunotolerancia Inteligencia Artificial Internacionalización investigación social Itinerario jueces gimnasia acrobática Jurídicos lactosa Lenguas Local macroalgas Maldi-Tof Maquinaria uso industrial material didáctico Materiales Medicina de precisión medicina regenerativa medioambientales Metagenoteca métodos activos Métodos Alternativos microalgas microbiota intestinal microscopía Microscopio Minería de Datos Miniería de Datos Miopatías congénitas modelización modelo formativo MOFs NACH nanopartículas Nanotecnología naturales Neurociencia Neurociencias Neurogestión neuroimagen Neuromanagement Nuevas Tecnologías Nuevos Fármacos Nutrición obesidad infantil ocio Optimización Parkinson Participación Patentes patrimonio Pedagogía perfumes Personalidad Resistente pesticidas plaguicidas plataforma Proteómica Proteosoma Química Químicas Raman reactores enzimáticos Recursos Marinos Recursos naturales Rendimiento deportivo residuos resonancia magnética riesgo tóxico Robótica Root Simulators RSC RSE Running Ruralidad SACROAJIR® SACRODRAW® Salud Salud Pública SCT Seguridad Sensor FBRM Series temporales Sexado Aves Simulación Simulación Molecular Síndrome MELAS smart cities Social Media socialización socioeconómicos Sociología Soft Computing Software spin-off Suero lácteo Tecnologías Tercer sector terremotos Tic toxicología Traducción Transporte trata laboral turismo vertidos Videojuegos Zeolitas

Contacto


Si tienes cualquier duda o consulta ponte en contacto con nosotros


Contacto

Otri 2.o


Te invitamos a conocer y participar en las diferentes herramientas basadas en la web social donde se encuentra la OTRI

Leer más ...


Contacto