Browsing articles tagged with " text_mining"

Adquisición de conocimiento para poblar Ontologías

May 18, 2012   //   by oa.usun   //   Semántica  //  1 Comment

El proceso de adquisición de conocimiento para la población de una ontología se descompone en tres etapas separadas y complementarias.

– Recuperación de la Información (IR), que se ocupa de encontrar documentos que satisfagan una determinada información o consulta dentro de una gran base de datos de documentos.

Un sistema típico de minería de texto comienza con una colección de documentos, sin ningún tipo de etiqueta. Los documentos son etiquetados en primer lugar por categorías, o por términos o relaciones extraídos directamente de los documentos. Este proceso se denomina categorización de textos, y divide enormes colecciones de textos en subconjuntos que estén interrelacionados por algún criterio predefinido. Ésta es una subárea de Recuperación de la Información (Information Retrieval o IR). La recuperación de información se ocupa de la representación, almacenamiento, organización y acceso a la información. Dentro de este tipo de búsqueda, existen distintas aproximaciones para recuperar información. Las tres clásicas son el modelo booleano, el vectorial y el probabilístico, sin embargo existen muchas más como las redes Bayesianas, redes neuronales, redes de inferencia, etc.

DocThor – Un auto-catalogador de Documentos automático en función del contenido

– Extracción de la Información Relacionada  (IER), que puede ser considerada un campo de NLP y está centrada en encontrar entidades explícitas y hechos dentro de un texto no estructurado.

Identifica automáticamente las frases que permiten la extracción de relaciones arbitrarias de sentencias, evitando la restricción a un vocabulario especificado anteriormente.

La salida de los sistemas de extracción automática de información (IE) se ha utilizado para apoyar tareas de aprendizaje de preferencias selectivas, la adquisición de conocimiento en razonamiento, y en vinculación de reconocimiento. Además las extracciones obtenidas en procesos de extracción automática de información relacionada (IER) pueden ser incluidas en ontologías.

El futuro del Text Mining se llama T2k (Text to Knowledge)Tucán – Un extractor automático de información relacionada

Cargar la ontología y poblarla con tripletas.

Buscadores semánticos en medicina: Codificación CIE-9 y Medicina Basada en la Evidencia

La integración entre la extracción de lingüística y los conceptos del dominio ontológico se debe realizar en varios pasos:

1) Crear el árbol conceptual derivado del análisis lingüístico.

2) La definición manual de normas de adquisición entre las etiquetas lingüísticas y conceptos ontológicos.

3) Activar las reglas automáticas de adquisición de los textos.

Árbol conceptual resultante del análisis lingüístico

Como se mencionó anteriormente, el IDE crea un árbol conceptual  de cada análisis lingüístico de un informe como este ejemplo sobre decisiones jurídicas (ver fig. 3).

Cada nodo de este árbol es una etiqueta lingüística y el valor del texto del informe, entre paréntesis.

Nuestra solución debe atravesar el árbol con el fin de extraer la información relevante y más cercana a un concepto de la ontología, el segundo es un sujeto, atributo, asociación o papel en la base de conocimientos.

El recorrido del árbol se rige por unos principios básicos:

1) Un árbol necesariamente tiene un padre de raíz, aquí representa el documento o el tema principal.

2) El análisis de árbol se hace para prefijo profunda: a partir de la raíz, el primer algoritmo analiza el hijo de la izquierda antes de cruzar el hijo de la derecha y así sucesivamente de forma recursiva.

3) Dos caminos del árbol se necesitan: una para adquirir el sujeto con sus
atributos, y el segundo para adquirir las asociaciones con diferentes roles
sujetos en ella.
Estos dos caminos son esenciales porque no todos los sujetos están necesariamente involucrados en una asociación.

Definición de las reglas de adquisición o población

Manualmente cada nodo del árbol conceptual debe estar cerca de su concepto de la ontología correspondiente, sea cual sea su tipo (sujeto, atributo, asociación y rol).

Para ello, hay que crear las reglas para la adquisición de conocimientos que dará lugar a la creación de una instancia del concepto ontológico de cada nodo correspondiente del árbol conceptual.

• Una etiqueta es un solo concepto: « /art num » para el atributo « Num

Article ».
• Varias etiquetas corresponden a un mismo concepto: « /Nom lex » y « /Noms

lex » en el tema « Personne ».
• Una etiqueta corresponde a varios conceptos del mismo tipo: « /MEMBRES

COUR » para los sujetos « Personnalité Juridique »  y « Personnalité Politique ».
• Una etiqueta corresponde a diferentes tipos de conceptos:
« /REFERENCE » para el sujeto « Réf Editoriale Législative TNC » y « Réf

Editoriale Législative TNC Article », la asociación « Renvoi simple » y el rol de « Cible lien ».

• Una etiqueta no coincide con ningún concepto de la ontología: « /MOTIF ».
•  Un concepto no tiene etiquetas de equivalencia existentes: el
rol de « Origine Lien ».

En los casos en que una etiqueta pueda instanciar conceptos múltiples, es necesario entonces utilizar los padres nodo de contexto, hijos o hermanos para resolver las ambigüedades.

Por ejemplo, si el nodo « /REFERENCE » tiene un nodo hijo « /article », el
sujeto « Réf Editoriale Législative TNC Article » creará una instancia, de lo contrario será « Réf Editoriale Législative TNC ».

En la primera parte del documento, y por lo tanto, las extracciones lingüísticas, son concernientes a una decisión de la Corte de Casación. Por lo tanto, contiene los atributos del concepto que representan esta decisión, es decir, « Réf Editoriale Jurisprudence » marcado por la etiqueta « /REFERENCE DECISION ». Por consiguiente, es posible relacionar con cada uno de los nodos de la primera parte con los atributos correspondientes, que la etiqueta« /FORMATION »  con « formation » en la figura. 4.

En la segunda parte del documento se recogen otros tipos de instancias de conceptos, incluidas las personas, las partes o personas jurídicas (abogados, presidentes, secretarios, etc.) Y referencias a los textos legales en que se basan los argumentos de las diferentes partes. Estas referencias serán instanciadas de acuerdo a sus conceptos, el texto codificado o no codificado, con sus atributos (fecha, tipo de texto, etc.), a continuación poner en relación con la decisión a través de la asociación « Renvoi simple » y la especificación de su rol « Cible lien », cf. Fig. 5.

Una vez que la correspondencia está definida, cada una de las reglas de adquisición se formalizará y se añade lenguaje XPath (XPath se utiliza durante la fase de población para navegar a través de elementos y atributos en un documento XML) en la ontología del dominio del concepto y se creará una instancia. Por ejemplo, el concepto de  «Réf Editoriale Législative TC Article » en la ontología se asociará con « /REFERENCE DECISION/REFERENCE/ref[ARTICLE and TEXTE] ».

Activación de una regla de adquisición

Después de un análisis lingüístico, el árbol conceptual del documento seleccionado por el usuario es automáticamente cubierto por todas las reglas de adquisición. En cada nodo pertinente, la acción de instanciación de la base de conocimientos, asociada a toda regla de adquisición, se activa. Sin embargo, para evitar la duplicación de la base de conocimientos, se realiza una comprobación antes de la creación del concepto para verificar su existencia en la base de conocimientos. Una vez que el camino del árbol completado, el usuario puede ver todas las nuevas instancias de la base de conocimientos a través de una interfaz de validación. Desde esta interfaz, el usuario puede modificar y / o eliminar una instancia creada, así como añadir nuevas. A través de esta interfaz, el usuario puede controlar la calidad de la base de conocimientos y enriquecerla.

Esta plataforma propone, pues, una solución innovadora para enriquecer la base de conocimientos limitados por la ontología del dominio lingüístico a partir de las extracciones lingüísticas con la definición de las reglas de adquisición.

Referencias:

Juliette Dibie-Barthélemy, Intégration de données guidée par une ontologie. Application au domaine du risque alimentaire. HDR_JDB 2009

Florence AmardeilhPhilippe Laublet, Jean-Luc Minel: Document annotation and ontology population from linguistic extractions. K-CAP 2005: 161-168

Yoan Chabot : Rapport de Stage Enrichissement et peuplement d’ontologies. Le2i – Laboratoire Electronique, Informatique et Image. IQS4B 2009

Oren Etzioni, Anthony FaderJanara ChristensenStephen SoderlandMausam: Open Information Extraction: The Second Generation. IJCAI 2011: 3-10

 

El futuro del Text Mining se llama T2k (Text to Knowledge)Tucán – Un extractor automático de información relacionada

Nov 16, 2011   //   by oa.usun   //   Semántica  //  7 Comments

La información que hay que tratar cada vez es mayor y desde ahora mismo ya no son suficientes  los resultados de una aplicación de recuperación de información(IR) como Doc Thor por lo que hemos dando un paso hacia lo que va a demandarse en el futuro y que consiste en desarrollar una aplicación donde se deduzca, extraiga y relacione lo más importante de la información contenida en los documentos obtenidos y que nos permite además realizar una vigilancia prospectiva sobre un tema tratado. Esta aplicación es T2k (Text to Knowledge) Tucán – Extractor automático de Información.

El procesado automático de textos es un área de investigación formada por diversas disciplinas. Incluyen Recuperación dela Información(IR), que se ocupa de encontrar documentos que satisfagan una determinada información o consulta dentro de una gran base de datos de documentos, como pudiera ser, por ejemplo, Internet; Procesamiento Natural del Lenguaje (NLP), que es una disciplina que abarca todas las técnicas de procesamiento automático tanto de lenguaje escrito como hablado; la Extracción de la Información(IE), que puede ser considerada un campo de NLP y está centrada en encontrar entidades explícitas y hechos dentro de un texto no estructurado. Por ejemplo, encontrar dentro de un texto todas las veces que aparece una determinada proteína. Finalmente, la Minería de Textos es el proceso de analizar el lenguaje natural escrito para descubrir información o conocimientos que son comúnmente difíciles de recuperar.

El proceso actual de extracción de la información es en su gran mayoría manual. Se extrae dicha información de las publicaciones científicas pertinentes y se almacena en grandes bases de datos y/u ontologías que hay repartidas por la red. Dichas bases de información son de gran importancia ya que los resultados de las distintas técnicas experimentales han de ser, en muchos casos, interpretados recurriendo a la información que contienen.

Uno de los temas que más interesa a la comunidad científica es precisamente la de clasificar documentos de acuerdo a los procesos y las funciones que describen. Sabiendo de qué procesos o funciones habla un documento, podremos establecer asociaciones entre las entidades que aparecen en el documento y los tópicos encontrados. Dicho de otra manera, es posible caracterizar entidades a través de sus funciones y del papel que desempeñan en distintos procesos a través del estudio de la literatura y, más en concreto, de la clasificación de documentos.

Minería de Datos

Se define como,”un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos”. Pero lo que en verdad hacela Mineríade Datos es reunir las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo de Datos, principalmente usando como materia prima fuentes de información como las bases de datos o las ontologías.

Las principales fuentes de datos utilizadas son ficheros planos, bases de datos relacionales, base de datos de transacciones, bases de datos objeto relacionales, bases de datos espaciales, series de tiempo, textos, literatura e incluso multimedia (video, audio) o datos en Internet. De ellos se pretende extraer información que abarca desde caracterización de entidades, discriminación, clasificación, agrupamiento, descubrir tendencias, calcular la desviación, detección de datos anómalos, etc. Dentro de la minería de datos, uno de los campos más importantes es la minería de textos. Se trata de un tipo especial de Minería de Datos en el que la información es extraída a partir de textos y/o de literatura.

Text Mining

La Mineríade Textos o Text Mining tiene como objetivo examinar una colección de documentos no estructurados escritos en lenguaje natural y descubrir información no contenida en ningún documento individual de la colección; en otras palabras, trata de obtener información sin haber partido de algo.

Las técnicas de NLP cubren todos los aspectos y etapas necesarias para convertir el lenguaje escrito o hablado en información que pueda ser usada por otros humanos o agentes automatizados.

Las operaciones comunes de procesamiento de texto usadas por los sistemas típicos de Text Mining son tokenización, eliminación de stopwords, lematización, part of speech y análisis sintáctico.

Para más información ver el enlace “Buscadores semánticos en medicina: Codificación CIE-9 y Medicina Basada en la Evidencia“.

Recuperación de Información (IR)

Un sistema típico de minería de texto comienza con una colección de documentos, sin ningún tipo de etiqueta. Los documentos son etiquetados en primer lugar por categorías, o por términos o relaciones extraídos directamente de los documentos. Este proceso se denomina categorización de textos, y divide enormes colecciones de textos en subconjuntos que estén interrelacionados por algún criterio predefinido. Ésta es una subárea de Recuperación de la Información (Information Retrieval o IR). La recuperación de información se ocupa de la representación, almacenamiento, organización y acceso a la información. Dentro de este tipo de búsqueda, existen distintas aproximaciones para recuperar información. Las tres clásicas son el modelo booleano, el vectorial y el probabilístico, sin embargo existen muchas más como las redes Bayesianas, redes neuronales, redes de inferencia, etc.

En Ibermática estos temas los tenemos resueltos con nuestra aplicación DocThor – Un auto-catalogador de Documentos automático en función del contenido

Extracción de Información (IE)

Es el nombre dado a cualquier proceso que recupera información que se encuentren de manera explícita o implícita en uno o más textos. Se trata de una técnica de Text Mining que combinada con herramientas NLP, recursos léxicos y restricciones semánticas, proporciona módulos efectivos para identificar hechos y relaciones en la literatura. Los sistemas de extracción buscan entidades, relaciones entre ellas u otros hechos específicos dentro de los textos. Permite además el etiquetado de los documentos e identifica conceptos explícitos y relaciones dentro de los textos, y asocia partes específicas del documento con algún asunto que sea de interés, es utilizando estas entidades específicas, hechos y eventos encontrados como se puede etiquetar al documento, y no mediante categorías fijadas de antemano.

T2k (Text to Knowledge) Tucán – Extracción de Información Relacionada (IER)

La extracción de información (IE) como hemos leído en el apartado anterior consiste en un proceso que recupera información que se encuentren de manera explícita o implícita en uno o más textos, pero en Ibermática creemos que en un futuro cada vez más próximo lo que se nos va a demandar es conocimiento y este además de la extracción de información (IE) típica es la comprensión de las relaciones existentes en esa información. Para esto hemos desarrollado T2k (Text to Knowledge) Tucán que es un extractor de información relacionada.

Extracción de Información Relacionada (IER) es la identificación automática de frases que permite la extracción de relaciones arbitrarias de sentencias, evitando la restricción a un vocabulario especificado anteriormente.

La salida de los sistemas de extracción automática de información (IE) se ha utilizado para apoyar tareas de aprendizaje de preferencias selectivas, la adquisición de conocimiento en razonamiento, y en vinculación de reconocimiento. Además las extracciones obtenidas en procesos de extracción automática de información relacionada (IER) pueden ser incluidas en ontologías.

Un sistema de extracción automático siguen los siguientes tres pasos:

1. Label: Las oraciones son automáticamente etiquetadas con extracciones usando heurística o supervisión a distancia.

2. Learn: Una frase de relación del extractor aprende utilizando un modelo de secuencia de etiquetado gráfico.

3. Extract: el sistema toma como entrada una frase, identifica una pareja candidata de los argumentos NP (arg1, arg2) de la sentencia, y luego usa la sabiduría del extractor para etiquetar cada palabra entre los dos argumentos como parte de la frase relación o no.

Existen dos limitaciones en frases de relación, una restricción sintáctica y restricción léxica.

La restricción sintáctica sirve para dos propósitos. En primer lugar, eliminar las incoherencias en las extracciones, y en segundo lugar, reducir las extracciones no informativas mediante la captura de frases de relación expresadas por una combinación verbo-sustantivo, incluyendo LCV.

Hay frases que satisfacen la restricción sintáctica, pero no son relacionales. Para superar esta limitación, se introduce una restricción léxica que se utiliza para separar frases de relación válida de frases relación especificada. La restricción se basa en la intuición de que una frase de relación válida debe tener muchos argumentos distintos en un amplio corpus.

Tomamos como entrada un texto etiquetado y fragmentado en sentencia NP
que devuelve un conjunto de (x, r, y) tripletas de extracción.

Dada una frase de entrada s, utiliza el algoritmo de extracción siguiente:

  1. Extracción de relación: Para cada v verbo en s, encontrar la secuencia más larga de rv palabras de tal manera que (1) r comienza en v, (2) r satisface la restricción sintáctica, y (3) r satisface la restricción de léxico.
    Si cualquier par de sentencias son adyacentes o superposición de s, que se funden en una sola sentencia.
  2. Extracción argumento: Para cada frase de relación r  identificados en el punto anterior, encontrar el más cercano sintagma nominal x a la izquierda de r tal que x es s no es un pronombre relativo, el adverbio WHO, o el existencial “THERE”. Encontrar el nombre y la frase más cercana a la derecha de r en s. Si tal par (x, y) podría encontrarse, el retorno (x, r, y) como una extracción.

Comprobamos si una frase relación candidata r satisface la restricción sintáctica, haciendo la coincidir con la expresión regular.

Para determinar si r satisface la restricción léxica, se utiliza un gran diccionario D de frases de relación que se sabe que puede tener muchos argumentos diferentes.

Como ejemplo del algoritmo de extracción en la acción, considerar la entrada siguiente:

Hudson nació en Hampstead, que es un suburbio de Londres.

El paso 1 del algoritmo identifica tres frases relación que satisfacen las restricciones sintácticas y léxicas:

fue, nacido en, y es un suburbio de

La primera de las dos frases que son adyacentes en la sentencia, por lo que se fusionan en una sola frase relación.

El paso 2 encuentra un par de argumentos para cada frase relación.

Para nació en la cercana PN son (Hudson,  Hampstead).

Para es un suburbio, extractora salta por encima de NP que elige el argumento par (Hampstead, Londres).

El resultado final es:

e1: (Hudson, nació en, Hampstead)
e2: (Hampstead, un suburbio de Londres).

Para determinar la confianza de la función  utilizamos un clasificador de regresión logística para asignar un nivel de confianza a cada extracción.

Como ejemplo podemos ver que hemos cargado en T2k (Text to Knowledge) Tucán el siguiente texto:

Peter Stone: A 46-year-old lady was referred to the haematology clinic for evaluation of lymphocytosis in May 1993. She had severe lethargy and intermittent right upper abdominal discomfort without any significant loss in weight. Her past medical history included essential hypertension controlled on atenolol 100 mg once daily and was also on frusemide 40 mg once daily. She had no significant surgical history other than having undergone cholecystectomy in 1972. She had never smoked nor consumed alcohol. Physical examination showed no evidence of lymphadenopathy. Complete blood count showed normal haemoglobin concentration 14.8 g/dl , macrocytosis ( MCV 100.1 ), raised white cell count at 13.4 109/L, lymphocytosis ( absolute number 6.3 109/L ), and normal neutrophil count ( absolute number 5.6 109/L ). Peripheral blood showed numerous Howell-Jolly bodies within erythrocytes. Thyroid function tests, protein electrophoresis, C-reactive protein, immunoglobulin levels and autoimmune screening were normal. Ultrasonography and computed tomography scan of the abdomen and pelvis did not reveal retroperitoneal or mediastinal lymphadenopathy, but the spleen was noted to be very atrophic. Gastroscopy showed multiple gastric erosions and the initial impression was of celiac disease complicated by lymphoma and lymphocytosis.

Y una vez ejecutado el proceso de extracción de información relacionada (IER) hemos obtenido el siguiente resultado en forma de tripletas que posteriormente podemos utilizar para poblar una ontología sobre este tema.

A 46-year-old lady

was referred to

the haematology clinic

——————————-

She

had

severe lethargy

——————————-

Her past medical history

included

essential hypertension

——————————-

atenolol 100 mg

was also on

frusemide 40 mg

——————————-

She

had

no significant surgical history

——————————-

Physical examination

showed no evidence of

lymphadenopathy

——————————-

Complete blood count

showed

normal haemoglobin concentration

——————————-

Peripheral blood

showed

numerous Howell-Jolly bodies

——————————-

Ultrasonography and computed tomography scan of the abdomen and pelvis

did not reveal

retroperitoneal or mediastinal lymphadenopathy

——————————-

Gastroscopy

showed

multiple gastric erosions

——————————-

the initial impression

was of

celiac disease

——————————-