Minería de Datos en entornos Médicos o cómo dedicar el tiempo a analizar conclusiones y no datos. Los «medichackers».
La Minería de Datos, básicamente, trata de dejar a las máquinas el arduo trabajo de analizar los datos en bruto, buscar correlaciones entre los distintos campos, descubrir qué indicadores tienen correlación unos con otros, y en definitiva, descargar a los expertos de la tarea de realizar análisis manuales (excel, tablas dinámicas, cuadros con sumas y conteos), para centrar dicho tiempo de análisis en algo con mucho más valor añadido: comprender qué es lo que realmente está ocurriendo, y atacarlo.
Aplicadas en entornos industriales de marketing, sociales y bancarios, está tecnología, hiper-madura hoy en día, parece que encaja como un guante en los entornos médicos, principalmente en la optimización de diagnósticos y tratamientos, y sin embargo, está en ciernes en este contexto. Seguramente, una de las razones sea que las empresas TICs se han acercado mucho al mundo médico desde el prisma de la gestión, y poco en el tratamiento más avanzado de la información. Pero la información médica recogida diariamente, aquella que es relevante y transaccional, es usualmente, muy buena y cada vez más elevada.
Los análisis médicos clásicos tienen un fuerte componente causalidad->efecto: lo que se está proponiendo, desde esta nueva visión, es completamente diferente: los datos, por estar registrados en una secuencia temporal, y tener multitud de variables que pueden alterar los resultados, intrínsicamente, tienen una historia que contar, que va desde los resultados hasta los condicionantes, justo al revés que el análisis clásico.
Pongamos un ejemplo. Tenemos un set de datos con los historiales médicos de «n» pacientes, en los que, entre dichos datos, además de los demográficos, tenemos los que inciden en un Estadio concreto de cáncer.
Y lo que nos inetersa saber es qué indicadores son los que influyen en dicho Estadio, y además, cuáles son los comportamientos de dicha influencia. Y podemos hacer dos cosas, coger dichos datos, y todos los indicadores que van por «delante», y empezar a hacer cuadres, tablas dinámicas, conteos, etc… hasta llegar a una tabla más o menos interesante, o podemos aplicar a dichos datos un algoritmos de Minería de Datos, y esperar resultados. Tomamos la segunda opción, que es más cómoda.
Aplicando un simple algoritmo de Minería, (Árboles de Decisión), sobre dichos datos, el sistema, de forma automática, ya nos ofrece dos salidas interesantes:
– Cuáles son los indicadores, de los «n» que hay, que tienen relación con los distintos Estadios mostrados.
– Además, dichos campos, cómo explican la conclusión de un Estadio u otro.
De esta forma, el sistema, sin saber nada de cáncer, es capaz de extraer una tabla de indicadores cuyas reglas evidencian las conclusiones de los distintos resultados.
Podemos observar, en primer lugar, que las variables que más correlación tienen con los ESTADIOS son los indicadores T, M y N, siendo la T la más ponderante (aún sin saber exáctamente qué significan):
y que las reglas de relación, son del tipo:
- Si T = 1 y N = 0 –> Estadio = I
- Si T = 1 y N = 1 –> Estadio = IIA
- ….
¿Qué hacer con esta información? Primeramente, ayudar al experto a analizar qué es lo que está ocurriendo con sus datos, quitándole el peso de análisis, y enfocándolo ya sobre el resultado que le interesa y sus relaciones con otros datos.
Por otro lado, si implementamos las reglas obtenidas, en un simple programa (o en un sistema experto, if T == 1 and N == 0 then $Estadio = I), cuanto un nuevo paciente entre en el sistema con los indicadores con unos determinados datos, el sistema determinará cuál es el Estadio seleccionado, porque hemos conseguido pasar de una situación de descubrimiento (inducción), a un proceso de efecto->consecuencia (deducción).
Necesidad de Datos, y la diferencia entre Evidencias e Indicios.
Sin embargo, la Minería de Datos tiene un pequeño inconveniente: las conclusiones obtenidas se basan, principalmente, en una análisis estádistico de repeticiones de eventos, y por lo tanto, necesitamos muchos datos, o series históricas muy largas, para obtener resultados concluyentes. Y necesitamos tanto volumen de «filas» (historiales), como de indicadores, en realidad, cuantos más, mejor, porque de esta forma, evitaremos mezclar «peras con manzanas». Y nos nos debemos preocupar por el volumen, es el sistema el que selecciona los mejores campos para obtener las conclusiones, y por ende, cada conclusión no tiene por que tener relacionados los mismos indicadores, con lo cuál, el análisis es, matemáticamente, completo.
Otro factor que influye notablemente en el éxito de estos proyectos es el cambio de visión entre evidencias e indicios. En el mundo médico, lo usual es que en los análisis de resultados se busquen siempre «evidencias«, es decir, hechos soportados por los datos cuyas relaciones entre causa y efecto tengan un soporte estadístico muy alto (usualmente, una probabilidad mayor que el 80%). Para ello, debemos tener en cuenta dos conceptos, la sensibilidad y la especificidad.
- La sensibilidad nos indica la capacidad de nuestro estimador para dar como casos positivos los casos realmente enfermos; proporción de enfermos correctamente identificados. Es decir,la sensibilidad caracteriza la capacidad de la prueba para detectar la enfermedad en sujetos enfermos.
- La especificidad nos indica la capacidad de nuestro estimador para dar como casos negativos los casos realmente sanos; proporción de sanos correctamente identificados. Es decir, la especificidad caracteriza la capacidad de la prueba para detectar la ausencia de la enfermedad en sujetos sanos.
En todo clasificador, hay un error (las cosas no son ni blancas ni negras), es decir, no existe una línea clara que separe los indicios de un diagnóstico y concluya la enfermedad de forma unívoca, sino que, aunque dicha regla pueda darse en la mayoría de los casos, puede que un porcentaje mínimo, diagnostiquemos una enfermedad a un sano, o que tiene otra enfermedad diferente con los mismo síntomas. Todo depende del nivel de exigencia que pidamos al clasificador, pero cuanto más exigentes somos, más probabilidades tenemos de que dejemos en el tintero enfermos sin detectar. Dicho punto de corte es lo que se llama «bias» y se suelen utilizar técnicas visuales de corte, como las curvas ROC.
En definitiva, en los diagnósticos clínicos, cuando el valor de especificidad supera el 80%, se considera buena.
- Por regla general, se elige una prueba muy específica cuando se desea asegurar de que un paciente tiene realmente una enfermedad. Por ejemplo, una prueba para detectar una enfermedad que implique una operación, es imprescindible asegurarse de que el paciente está enfermo y necesita la operación, para no operar a un paciente sano: un resultado positivo falso supone un trauma económico y psicológico para el sujeto… En estas situaciones se utiliza una prueba con un valor predictivo positivo alto, que aumenta de valor conforme la prevalencia de la enfermedad es mayor.
- En cambio, se elige una prueba muy sensible cuando se prefiere que el número de enfermos sin detectar sea mínimo, a costa de incluir algún sano en dicho grupo. Por ejemplo, en una epidemia es importante usar una prueba muy sensible, puesto que es necesario aislar a los enfermos y para ello todos deben ser detectados. Se usa en casos en que la enfermedad es grave pero curable, existiendo tratamiento para ella. En estos casos se usan pruebas con valor predictivo negativo alto, cuyo valor aumenta conforme disminuye la prevalencia de la enfermedad.
Por otro lado, existen otros dos conceptos que entran en juego, que son la confianza de la regla y el soporte de la misma.
La confianza de la regla es el porcentaje de que dicha regla se cumpla, cuando se dan los antecedentes, es decir, si tenemos una regla del tipo «(Estornuda y Fiebre) –> Gripe«, y decimos que la confianza es de un 75%, indicamos que cuando se da el conjunto de Estornudar y Fiebre, hay un 75% de posibilidades de que sea Fiebre (es un ejemplo inventado).
Por otro lado, el soporte es el número relativo de veces que aparecen los antecedentes (Estornuda y Fiebre) y en conjunto de todos los datos. Si tenemos un conjunto de historiales clínicos y la combinación de (Estornuda y Fiebre) aparecen 50 veces de 120,el soporte será 50/120= 0,41.
Cuanto más generales son las reglas, más soporte tienen, y menor confianza, y cuanto más «específicas» son, más personalización existirá en las mismas, con mayor confianza y menor soporte. Existe el peligro de que, si llegamos a un nivel muy detallista en las reglas, éstas servirán para modelar un comportamiento puntal de una manera muy efectiva, pero el modelo no sabrá clasificar eventos que no estén categorizados a tanto detalle, con lo que no podremos generalizar. Es lo que se denomina «sobreentrenamiento«, y a veces, puede confundir, Podemos dar unos resultados de un modelo que «aciertan» en un porcentaje muy alto para los datos de muestra, pero luego, cotejándolos con la realidad, no clasifican correctamente por que son demasiado «específicos» para el modelo de entrenamiento.
Bien, lo usual es que, en medicina, se desean conclusiones con una confianza alta (>80%), y un soporte también alto (>0.65), pero cuanto más generalicemos las conclusiones, menos soporte tendremos para las mismas. Y aquí es donde entra el concepto de indicio, que es extraño en este mundo. Por un lado, la Minería de Datos puede aportar conclusiones evidentes soportadas por los datos en cuando a conclusiones que certifican sospechas iniciales sobre el comportamiento, por ejemplo, de ciertos tratamientos, diagnósticos y resultados, con una confianza y un soporte altos.
Pero cuando las confianza es alta, pero el soporte pequeño, la Minería de Datos lo que nos está ofreciendo son indicios de que esas reglas que nos está presentando ocurren en la realidad, pero en casos muy «específicos», que quizás no sean relevantes con respecto al conjunto de datos en su totalidad, pero que están ocurriendo, y que habría que analizarlos.
Un ejemplo de muestra, (los datos son ficticios), puede ser un análisis de los factores que influyen en el alta, o no dentro de los procedimientos de Farmacología Hospitalaria. Si tomamos los datos de los tratamientos, los indicadores de los pacientes, los principios activos que han tomado, el número de veces que lo han tomado, la edad de los pacientes, y el resultado, obtendremos un fichero del tipo:
Podríamos analizar la información con tablas dinámicas, pero tendríamos que hacer una por cada indicador y resultado, y analizar el conjunto:
Y en definitiva, esto mismo, pero en tiempo máquina, es lo que hacen los procesos de Minería de Datos, obteniendo reglas del tipo:
Si lanzamos el análisis sobre dichos datos, para que el sistema nos genere conclusiones sobre las razones de los resultados, y analizamos, por ejemplo, para un principio activo (ENOXAPAR), cualos son los factores que afectan a que se les de no se les de alta los pacientes, obtenemos la siguiente gráfica:
De la gráfica, se desprende que el «Turno 43» es el que menos de alta da a los pacientes, y las razones son, principalmente, los resultados del laboratorio L3, seguido por aquellos paciente cuyo indicador «FRE» es de 24, y seguido por aquellos pacientes que han tomado la medicación menos de 6 veces.
Las reglas internas que gobiernan estás conclusiones son las siguientes:
Es decir, que para el principio activo seleccionado, y para los diagnósticos de «Dolor Torácico», el sistema nos dice que lo relevante es cuando se da una «FRE=24», y si es la primera vez que acude el paciente (cuenta < 1,5), existe un 100% de probabilidades de que no se le de de alta (aunque las filas que soportan dicha afirmación son sólo un 3% del conjunto), mientras que existe un 77% de probabilidad de que no se le de de alta a un paciente si en el mismo caso, las pruebas vienen del Laboratorio L1, su indicador de GPT sea menor que 10,5 con un soporte muy alto, de un 75% de los casos con respecto a la globalidad.
Podemos decir que la primera regla es un indicio de que, por norma, cuando un paciente toma ENOXAPAR, tiene un indicador de FRE = 24 y es la primera vez que acude a consulta, no se le da el alta, en el TURNO 43, aunque son pocos los pacientes con esos indicadores, y que es un hecho (evidencia), que en el mismo turno, si sus valores de GPT son menores que 10,5 , existe una probabilidad alta de que no se le asigne el alta, y además, los casos son muy comunes.
Ahora bien, ¿Por qué el turno 43, cuando recibe muestras del Laboratorio L3, con FRE=24, deniega el alta casi sistemáticamente (en un 77%), siendo un 45% de los casos que se le presentan? Aquí es dónde el experto tendría que revisar qué es lo que está ocurriendo, preguntar, analizar la realidad e intentar solventar la situación.
Trabajo Conjunto.
El tratamiento de los datos y su aplicación sobre procesos de Minería de Datos no es trivial. En este sentido, un proyecto de este tipo opuca casí un 65% en el tratameinto previo de los datos, antes del lanzamiento de la algoritmia, principalmente por las siguientes causas:
Desde I3B estamos andando este camino en proyectos como HOI, Henufood, Acció, mano a mano con los mejores médicos, oncólogos y bionutricionistas del país para avanzar en esta línea.
Entradas recientes
- Sonificación de datos para la supervisión de procesos en tiempo real / 1
- Tratamiento del Lenguaje Natural en Medicina mediante técnicas de IA. Caso de Uso de Hedai.
- El Futuro en Blockchain: IA & Semántica & Blockchain.
- «Semantic Learning» en Salud. Un ejemplo de Minería sobre Estructuras Semánticas
- Ibermática desarrolla un Sistema de Soporte a la Decisión Clínica para pacientes con cáncer de mama