El futuro del Text Mining se llama T2k (Text to Knowledge)Tucán – Un extractor automático de información relacionada

Nov 16, 2011   //   by oa.usun   //   Semántica  //  7 Comments

La información que hay que tratar cada vez es mayor y desde ahora mismo ya no son suficientes  los resultados de una aplicación de recuperación de información(IR) como Doc Thor por lo que hemos dando un paso hacia lo que va a demandarse en el futuro y que consiste en desarrollar una aplicación donde se deduzca, extraiga y relacione lo más importante de la información contenida en los documentos obtenidos y que nos permite además realizar una vigilancia prospectiva sobre un tema tratado. Esta aplicación es T2k (Text to Knowledge) Tucán – Extractor automático de Información.

El procesado automático de textos es un área de investigación formada por diversas disciplinas. Incluyen Recuperación dela Información(IR), que se ocupa de encontrar documentos que satisfagan una determinada información o consulta dentro de una gran base de datos de documentos, como pudiera ser, por ejemplo, Internet; Procesamiento Natural del Lenguaje (NLP), que es una disciplina que abarca todas las técnicas de procesamiento automático tanto de lenguaje escrito como hablado; la Extracción de la Información(IE), que puede ser considerada un campo de NLP y está centrada en encontrar entidades explícitas y hechos dentro de un texto no estructurado. Por ejemplo, encontrar dentro de un texto todas las veces que aparece una determinada proteína. Finalmente, la Minería de Textos es el proceso de analizar el lenguaje natural escrito para descubrir información o conocimientos que son comúnmente difíciles de recuperar.

El proceso actual de extracción de la información es en su gran mayoría manual. Se extrae dicha información de las publicaciones científicas pertinentes y se almacena en grandes bases de datos y/u ontologías que hay repartidas por la red. Dichas bases de información son de gran importancia ya que los resultados de las distintas técnicas experimentales han de ser, en muchos casos, interpretados recurriendo a la información que contienen.

Uno de los temas que más interesa a la comunidad científica es precisamente la de clasificar documentos de acuerdo a los procesos y las funciones que describen. Sabiendo de qué procesos o funciones habla un documento, podremos establecer asociaciones entre las entidades que aparecen en el documento y los tópicos encontrados. Dicho de otra manera, es posible caracterizar entidades a través de sus funciones y del papel que desempeñan en distintos procesos a través del estudio de la literatura y, más en concreto, de la clasificación de documentos.

Minería de Datos

Se define como,”un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos”. Pero lo que en verdad hacela Mineríade Datos es reunir las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo de Datos, principalmente usando como materia prima fuentes de información como las bases de datos o las ontologías.

Las principales fuentes de datos utilizadas son ficheros planos, bases de datos relacionales, base de datos de transacciones, bases de datos objeto relacionales, bases de datos espaciales, series de tiempo, textos, literatura e incluso multimedia (video, audio) o datos en Internet. De ellos se pretende extraer información que abarca desde caracterización de entidades, discriminación, clasificación, agrupamiento, descubrir tendencias, calcular la desviación, detección de datos anómalos, etc. Dentro de la minería de datos, uno de los campos más importantes es la minería de textos. Se trata de un tipo especial de Minería de Datos en el que la información es extraída a partir de textos y/o de literatura.

Text Mining

La Mineríade Textos o Text Mining tiene como objetivo examinar una colección de documentos no estructurados escritos en lenguaje natural y descubrir información no contenida en ningún documento individual de la colección; en otras palabras, trata de obtener información sin haber partido de algo.

Las técnicas de NLP cubren todos los aspectos y etapas necesarias para convertir el lenguaje escrito o hablado en información que pueda ser usada por otros humanos o agentes automatizados.

Las operaciones comunes de procesamiento de texto usadas por los sistemas típicos de Text Mining son tokenización, eliminación de stopwords, lematización, part of speech y análisis sintáctico.

Para más información ver el enlace “Buscadores semánticos en medicina: Codificación CIE-9 y Medicina Basada en la Evidencia“.

Recuperación de Información (IR)

Un sistema típico de minería de texto comienza con una colección de documentos, sin ningún tipo de etiqueta. Los documentos son etiquetados en primer lugar por categorías, o por términos o relaciones extraídos directamente de los documentos. Este proceso se denomina categorización de textos, y divide enormes colecciones de textos en subconjuntos que estén interrelacionados por algún criterio predefinido. Ésta es una subárea de Recuperación de la Información (Information Retrieval o IR). La recuperación de información se ocupa de la representación, almacenamiento, organización y acceso a la información. Dentro de este tipo de búsqueda, existen distintas aproximaciones para recuperar información. Las tres clásicas son el modelo booleano, el vectorial y el probabilístico, sin embargo existen muchas más como las redes Bayesianas, redes neuronales, redes de inferencia, etc.

En Ibermática estos temas los tenemos resueltos con nuestra aplicación DocThor – Un auto-catalogador de Documentos automático en función del contenido

Extracción de Información (IE)

Es el nombre dado a cualquier proceso que recupera información que se encuentren de manera explícita o implícita en uno o más textos. Se trata de una técnica de Text Mining que combinada con herramientas NLP, recursos léxicos y restricciones semánticas, proporciona módulos efectivos para identificar hechos y relaciones en la literatura. Los sistemas de extracción buscan entidades, relaciones entre ellas u otros hechos específicos dentro de los textos. Permite además el etiquetado de los documentos e identifica conceptos explícitos y relaciones dentro de los textos, y asocia partes específicas del documento con algún asunto que sea de interés, es utilizando estas entidades específicas, hechos y eventos encontrados como se puede etiquetar al documento, y no mediante categorías fijadas de antemano.

T2k (Text to Knowledge) Tucán – Extracción de Información Relacionada (IER)

La extracción de información (IE) como hemos leído en el apartado anterior consiste en un proceso que recupera información que se encuentren de manera explícita o implícita en uno o más textos, pero en Ibermática creemos que en un futuro cada vez más próximo lo que se nos va a demandar es conocimiento y este además de la extracción de información (IE) típica es la comprensión de las relaciones existentes en esa información. Para esto hemos desarrollado T2k (Text to Knowledge) Tucán que es un extractor de información relacionada.

Extracción de Información Relacionada (IER) es la identificación automática de frases que permite la extracción de relaciones arbitrarias de sentencias, evitando la restricción a un vocabulario especificado anteriormente.

La salida de los sistemas de extracción automática de información (IE) se ha utilizado para apoyar tareas de aprendizaje de preferencias selectivas, la adquisición de conocimiento en razonamiento, y en vinculación de reconocimiento. Además las extracciones obtenidas en procesos de extracción automática de información relacionada (IER) pueden ser incluidas en ontologías.

Un sistema de extracción automático siguen los siguientes tres pasos:

1. Label: Las oraciones son automáticamente etiquetadas con extracciones usando heurística o supervisión a distancia.

2. Learn: Una frase de relación del extractor aprende utilizando un modelo de secuencia de etiquetado gráfico.

3. Extract: el sistema toma como entrada una frase, identifica una pareja candidata de los argumentos NP (arg1, arg2) de la sentencia, y luego usa la sabiduría del extractor para etiquetar cada palabra entre los dos argumentos como parte de la frase relación o no.

Existen dos limitaciones en frases de relación, una restricción sintáctica y restricción léxica.

La restricción sintáctica sirve para dos propósitos. En primer lugar, eliminar las incoherencias en las extracciones, y en segundo lugar, reducir las extracciones no informativas mediante la captura de frases de relación expresadas por una combinación verbo-sustantivo, incluyendo LCV.

Hay frases que satisfacen la restricción sintáctica, pero no son relacionales. Para superar esta limitación, se introduce una restricción léxica que se utiliza para separar frases de relación válida de frases relación especificada. La restricción se basa en la intuición de que una frase de relación válida debe tener muchos argumentos distintos en un amplio corpus.

Tomamos como entrada un texto etiquetado y fragmentado en sentencia NP
que devuelve un conjunto de (x, r, y) tripletas de extracción.

Dada una frase de entrada s, utiliza el algoritmo de extracción siguiente:

  1. Extracción de relación: Para cada v verbo en s, encontrar la secuencia más larga de rv palabras de tal manera que (1) r comienza en v, (2) r satisface la restricción sintáctica, y (3) r satisface la restricción de léxico.
    Si cualquier par de sentencias son adyacentes o superposición de s, que se funden en una sola sentencia.
  2. Extracción argumento: Para cada frase de relación r  identificados en el punto anterior, encontrar el más cercano sintagma nominal x a la izquierda de r tal que x es s no es un pronombre relativo, el adverbio WHO, o el existencial “THERE”. Encontrar el nombre y la frase más cercana a la derecha de r en s. Si tal par (x, y) podría encontrarse, el retorno (x, r, y) como una extracción.

Comprobamos si una frase relación candidata r satisface la restricción sintáctica, haciendo la coincidir con la expresión regular.

Para determinar si r satisface la restricción léxica, se utiliza un gran diccionario D de frases de relación que se sabe que puede tener muchos argumentos diferentes.

Como ejemplo del algoritmo de extracción en la acción, considerar la entrada siguiente:

Hudson nació en Hampstead, que es un suburbio de Londres.

El paso 1 del algoritmo identifica tres frases relación que satisfacen las restricciones sintácticas y léxicas:

fue, nacido en, y es un suburbio de

La primera de las dos frases que son adyacentes en la sentencia, por lo que se fusionan en una sola frase relación.

El paso 2 encuentra un par de argumentos para cada frase relación.

Para nació en la cercana PN son (Hudson,  Hampstead).

Para es un suburbio, extractora salta por encima de NP que elige el argumento par (Hampstead, Londres).

El resultado final es:

e1: (Hudson, nació en, Hampstead)
e2: (Hampstead, un suburbio de Londres).

Para determinar la confianza de la función  utilizamos un clasificador de regresión logística para asignar un nivel de confianza a cada extracción.

Como ejemplo podemos ver que hemos cargado en T2k (Text to Knowledge) Tucán el siguiente texto:

Peter Stone: A 46-year-old lady was referred to the haematology clinic for evaluation of lymphocytosis in May 1993. She had severe lethargy and intermittent right upper abdominal discomfort without any significant loss in weight. Her past medical history included essential hypertension controlled on atenolol 100 mg once daily and was also on frusemide 40 mg once daily. She had no significant surgical history other than having undergone cholecystectomy in 1972. She had never smoked nor consumed alcohol. Physical examination showed no evidence of lymphadenopathy. Complete blood count showed normal haemoglobin concentration 14.8 g/dl , macrocytosis ( MCV 100.1 ), raised white cell count at 13.4 109/L, lymphocytosis ( absolute number 6.3 109/L ), and normal neutrophil count ( absolute number 5.6 109/L ). Peripheral blood showed numerous Howell-Jolly bodies within erythrocytes. Thyroid function tests, protein electrophoresis, C-reactive protein, immunoglobulin levels and autoimmune screening were normal. Ultrasonography and computed tomography scan of the abdomen and pelvis did not reveal retroperitoneal or mediastinal lymphadenopathy, but the spleen was noted to be very atrophic. Gastroscopy showed multiple gastric erosions and the initial impression was of celiac disease complicated by lymphoma and lymphocytosis.

Y una vez ejecutado el proceso de extracción de información relacionada (IER) hemos obtenido el siguiente resultado en forma de tripletas que posteriormente podemos utilizar para poblar una ontología sobre este tema.

A 46-year-old lady

was referred to

the haematology clinic

——————————-

She

had

severe lethargy

——————————-

Her past medical history

included

essential hypertension

——————————-

atenolol 100 mg

was also on

frusemide 40 mg

——————————-

She

had

no significant surgical history

——————————-

Physical examination

showed no evidence of

lymphadenopathy

——————————-

Complete blood count

showed

normal haemoglobin concentration

——————————-

Peripheral blood

showed

numerous Howell-Jolly bodies

——————————-

Ultrasonography and computed tomography scan of the abdomen and pelvis

did not reveal

retroperitoneal or mediastinal lymphadenopathy

——————————-

Gastroscopy

showed

multiple gastric erosions

——————————-

the initial impression

was of

celiac disease

——————————-

7 Comments

  • Lots of beneficial in a row. I give rise to bookmarked your place.
    My site is Canon EOS 7D Review.

  • great issues altogether, you just received brand new reader. What could you recommend in regards to your post that you just made some days in the past? Any positive?
    Weight Loss Plan.

  • I am not sure where you are getting your information, but good topic. I needs to spend some time learning much more or understanding more. Thanks for fantastic info I was looking for this information for my mission.
    Heart Healthy Diet

  • Wohh just what I was searching for, thanks for putting up. cpanel vps | cheap vps |

  • I wanted to follow up and allow you to know how considerably I valued discovering your blog today. I might consider it a honor to operate at my office and be able to make use of the tips contributed on your web site and also be involved in visitors’ comments like this. Should a position regarding guest writer become available at your end, i highly recommend you let me know.

  • Woh I love your posts , saved to my bookmarks ! . vps hosting | virtual private server |

  • […] y competidores; y en un sentido más amplio para realizar búsquedas más inteligentes (Ver El futuro del Text Mining se llama T2k  (Text to Knowledge) Tucán – Un extractor automático de … y  Programación Neurolingüística (PNL) y los mapas mentales, procesos que cartografían el […]