Buscadores semánticos en medicina: Codificación CIE-9 y Medicina Basada en la Evidencia

Jul 5, 2011   //   by wpuser   //   Semántica  //  4 Comments

El apoyo automático a las decisiones, principalmente debido al incremento en el volumen de información, en cualquier sector es vital para el negocio, pero en medicina lo es aún más, ya que se está trabajando con conceptos que afectan a la salud.

En Ibermática existe experiencia en la generación de buscadores de contenidos (con herramientas como Lucene, o Swish-e), en documentación, banca o mantenimiento de incidencias. Sin embargo, son buscadores planos, es decir, indexan la información de alguna manera (normalmente, con el algoritmo stemmer de Porter), reduciendo las miles de palabras de un documento a sus raíces (facturación -> factur, facturé -> factur, facturado -> factur), con lo que ya tenemos un índice por el que, posteriormente, navegaremos de forma inversa para buscar la información. Como apoyo a la indexación, existen tablas públicas de palabras no indexables “stopwords”, y diccionarios para la corrección automática de errores en base al algoritmos de distancias de Levenshtein.

Sin embargo, estos buscadores son “planos”, es decir, la relevancia de orden de los resultados a una búsqueda se basan simplemente en la función de “frecuencia”, asignada a un documento, que, básicamente, es proporcional a la “moda” de aparición de los términos buscados en cada documento, e inversamente proporcional a la aparición de dichos términos tienen en el conjunto de información.

(Por ejemplo, en un entorno de ventas, la palabra “pedido” no tendrá mucha relevancia para la indexación, ya que aparecerá en la mayoría de los documentos, es decir, no es un término que permita clasificar bien la información).

Los buscadores semánticos van un poco  más allá, e intentan, dentro de un dominio concreto, como lo pueda ser en este caso los diagnósticos médicos, seleccionar los mejores resultados en base a una búsqueda no tan lineal, sino dando un peso concreto a cada uno de los índices extraídos en el paso anterior. Para realizar esta asignación de pesos, o bien, utilizamos el conocimiento de un experto, como es el caso de la codificación CIE-9, o bien, nos basamos en estructuras ya definidas por dichos expertos, y que están accesibles en formato RDF. En ambos casos, estamos hablando de ontologías, que no dejan de ser la implantación de un conocimiento en una representación jerárquica.

En este articulo, se muestran dos aproximaciones, una, la generación de un buscador indexando información de una base de datos especializada e interna, y en la segunda parte, la búsqueda de la información de forma “inteligente” en fuentes externas e internet.

CIE-9. Codificación automática de diagnósticos.

Actualmente, cada vez que se produce un ingreso hospitalario, el médico especialista diagnostica la razón de la hospitalización, y esta, por ley, debe ser codificada mediante un sistema de códigos denominado CIE-9. Para ello, todos los hospitales tienen a cierto personal médico que no ejercen como tal,  sino que se dedican a codificar lo que sus compañeros codifican en Lenguaje Natural. En un Hospital, puede haber de media unas 20.000 hospitalizaciones anuales, lo que supone una carga asumible de 2.000 codificaciones a realizar al mes, es decir, 100 al día.

Sin embargo, la codificación automática se quiere ampliar a la atención primaria, en dónde, en un Hospital, puede haber una media de 60.000 consultas y 19.000 urgencias, lo que hace inviable un sistema manual.

Para ello, se está trabajando en la generación de la codificación automática de CIE-9, en base a lenguaje natural.  El médico introduce sus impresiones diagnósticas en un texto libre, y el sistema, centralizado, recoge dicha información, la trata, y en función de un estudio en la relevancia de las respuestas, decide si la codifiación selecionada es válida, con lo que la asigna directamente al diagnósito, o de lo contrario, si el sistema no puede decidirse por una en concreto entre varias, las sugiere al codificador humana, para que seleccione la correcta. El sistema “aprende” de estas acciones, de forma que ante textos similares, en próximas consultas, se seleccionará ya el código correcto.

Se sigue el procedimiento descrito anteriormente, se indexa la base de datos de conocimiento en base a los “lemas” contenidos en las palabras que no estén en la tabla “stopwords”, consiguiendo ya una base para un buscador “plano”. Para incorporar la semántica que permita “comprender” lo que realmente quiere decir el médico, se utilizan dos fuentes externas:

– Las jerarquías de la codificación CIE-9.

– Un diccionario médico de sinónimos y siglas.

En base a esta información, y con la ayuda de un “desambiguador” gramatical, es decir, un sistema que, en base a las frases introducidas (en este caso, a la información de las descripciones CIE-9), se determina la función gramatical de cada palabra, y por ende, de cada lema. Así, en los diagnósticos médicos, habitualmente, es más importante el sujeto, que el adjetivo.

Por ejemplo, en el siguiente texto escrito por un médico: “Dolor torácico prolongado sin alteraciones electrocardiográficas sugestivas de isquemia aguda y marcadores de daño miocárdico repetidamente normales“, en una primera criba, con las palabras en el texto, ya se realiza un filtrado de todas la información de la base de datos. Sin embargo, dentro de todos los posibles diagnósticos que pueden tener relación con este texto (en concreto, 22 diagnósticos), tenemos que seleccionar aquellos que mejor se “adecuen” a lo que, semánticamente, quiere decir el médico. Para ello, no tiene el mismo peso las palabras: normales (peso=30), isquemia (peso=30), torácico (peso=10), miocárdico (peso=10), es decir, isquemia tiene más peso que los adjetivos torácicomiocárdico, pero normal tiene más peso, puesto que puede ser que exista un “marcador anormal“.

Estos pesos permiten romper la “ambiguedad” semántica de los resultados, de forma, que de los 22 posibles códigos a seleccionar, (muestro los tres primeros en la imagen):

Ordenados en función de la moda, la frecuencia inversa, y los pesos semánticos de los lemas, se selecciona el código CIE-9 correcto (78651).

Para la realización del cálculo de la función gramatical, se ha utilizado la plataforma Treetagger, con enlaces al corpus español CRATER, aplicada sobre la jerarquía CIE-9 estándar.

El sistema se complementa con una gestión de sinónimos médicos, en base al diccionario de siglas médicas (Javier Yetano), y traducción automática de siglas a sus “traducciones” médicas.

 

Medicina Basada en la Evidencia.

 

El objetivo de este buscador es la generación de guías médicas que apoyen las decisiones a la hora de generar procedimientos, diagnósticos y pautas de actuación, especialmente, en entornos en donde parte de los médicos que toman las decisiones mas importantes inicialmente son residentes, con limitada experiencia clínica (hasta un 64% en el trabajo deMenéndez y cols.),  un colectivo que además suele mostrar adherencia al empleo de guías clínicas (82% en el mismo trabajo).

Para la confección de dichas guías, se accede a fuente de datos externas, de forma directa (fuentes de investigaciones, bases de datos especializadas, publicaciones de ensayos…), o de forma indirecta (generación de un meta-buscador en base a las respuestas de, por ejemplo, búsquedas en Google o Yahoo, a partir de la herramienta Dapper, entre otras….).

En este caso, la consulta que realiza el especialista también se escribe en lenguaje natural, pero se transforma en una serie de códigos utilizando un ontología muy conocida en el entorno médico, denominada SNOMED. Esta ontologia, por una parte, permite incorporar sinónimos, antónimos y un tesauro añadiendo más “expresividad” a la consulta inicial. Además, por otro lado, permite conocer la relación entre distintas patologías, diagnósticos y procedimientos, con lo que conforma un contexto preciso para realizar las búsquedas. La indexación se realiza con Sphinx, una herramienta que permite incorporar directamente los índices en bases de datos, (en algunas, no en todas), y la resolución de ambiguedades semánticas, en base a la ontología, a través de la Herramienta GATE, que permite tratar ontologías contextuales, y además, incorpora una ontología propia para el tratamiento de lenguaje natural en distintos idiomas.

Una vez obtenidos los textos de dichas fuentes, se ordenan y organizan en función de la misma función de frecuencias inversas, además de un peso dado por el tipo de fuente y su veracidad, y además, las fuentes encontradas se “anotan” para sus posteriores visualizaciones, incluyendo, en función de su contenido, “tags” de forma automática.

Finalmente, la información se presenta en forma guías, según la pirámide de Haynes,  que tiene, en la base, los estudios originales individuales; a partir de estos se construyen los documentos de síntesis que se obtienen de revisiones sistemáticas como las revisiones que se pueden encontrar en Cochrane; a continuación se encuentran las sinopsis en la que se describe de forma breva algunos estudios individuales o revisiones sistemáticas, como las encontradas en las revistas secundarias basadas en la evidencia; los sumarios albergan el siguiente escalón integrando las mejores evidencias disponibles de las capas inferiores para desarrollar guías de práctica clínica o documentos que abarcan una amplia gama de pruebas o evidencias, como por ejemplo, Clinical EvidenceNational Guidelines Clearinghouse; finalmente, en la cima del modelo, están los sistemas, en los que las características individuales del paciente se ligan automáticamente a la mejor y más actualizada evidencia que coincida con las circunstancias específicas del paciente y del médico, y que le proporciona a este los aspectos clave de la gestión del caso, como pueden ser los sistemas informatizados de apoyo a la toma de decisiones.

En definitiva, ambos proyectos consisten en la generación de buscadores en ámbitos diferentes (internos y externos), incluyendo unos pesos que ayuden a ordenar la información en función de un contexto determinado.  En ambos casos, la información contextual del paciente o del evolutivo en estudio, es una información que ayudará a la optimización de las respuestas (es decir, saber el sexo de un enfermo determinado puede ayudar a codificar mejor un diagnóstico, o a seleccionar mejor ciertos ensayos).

 

Por último, los dos proyectos se pueden llegar a complementar, siendo la codificación de un diagnóstico en CIE-9 una entrada más de la MBE, o permitiendo a la MBE incorporar información adicional a el motor de codificación que permita resolver ambiguedades de forma más óptima. El nexo de unión parece que puede ser SNOMED, ya que dicha plataforma contempla las traduccionesa CIE-9 y otros formatos.

 

4 Comments