Browsing articles tagged with " ontologías"

IBERJOUR una plataforma para la generación semiautomática de información y conocimiento

Abr 8, 2013   //   by oa.usun   //   Minería de Datos  //  Comentarios desactivados en IBERJOUR una plataforma para la generación semiautomática de información y conocimiento

 

La plataforma IBERJOUR (Ibermatica for Data Journalism) es una plataforma de periodismo de datos en la que los periodistas escribirán, publicarán, difundirán y recibirán “inputs” sobre sus historias y comentarios periodísticos.

El periodismo de datos representa la convergencia de diferentes campos, los cuales son significantes por sí mismos: desde labores de investigación y estadística hasta diseño y programación. Las acciones necesarias para llegar al periodismo de datos son: encontrar, interrogar, visualizar y relacionar los datos con el propósito de crear una nueva historia.

El periodismo de datos se basa en la unión del periodismo, el diseño y la ciencia computacional para contar y dar sentido a las historias. Por dar sentido entendemos poner en contexto una historia, integrando los datos en dicha historia, estructurando sus partes y por supuesto ofreciendo datos relacionados con ella (personas, lugares, eventos, etc).

Iberjour_1

La liberación de grandes cantidades de datos gubernamentales es un significante paso adelante en el camino de la Web Semántica. El movimiento open data realizado por los estamentos públicos permitirá nuevas formas de reportaje así como una nueva generación de servicios que permitan al público participar en el proceso de confección de las noticias y contenidos.

Open data reduce de forma drástica las barreras de entrada de nuevos actores en el campo periodístico o de la información. De esta forma aparecen iniciativas que buscan, desde las administraciones y promotores de los datos abiertos, su explotación por entidades comerciales, a la vez que se crean tecnologías (herramientas, plataformas, etc) para su aplicación en entornos periodísticos profesionales.

IBERJOUR tiene como objetivo la implantación del periodismo de datos, haciendo uso conjunto de los siguientes puntos:

  1. El movimiento open data iniciado por las instituciones gubernamentales españolas
  2. La capacidad de los periodistas para contar historias, ponerlas en su contexto y relacionarlas
  3. La capacidad tecnológica que Linked Data, el multilingüismo y las nuevas tecnologías de visualización nos brindan para conseguir este objetivo
  4. El desarrollo de herramientas y plataformas a explotar por la industria TIC aunando los conceptos anteriores y replicándolo en otros sectores
  5. La inclusión de soluciones para la seguridad de los datos y los resultados de su utilización.

slide6

En general los Datos Enlazados (Linked Data) son:

  • Abiertos: Los Linked Data son accedidos a través de una variedad ilimitada de aplicaciones porque se expresan mediante formatos abiertos y no propietarios.
  • Modulares: Los Linked Data pueden ser combinados (mashed-up) con cualquier otra pieza de Linked Data.
  • Escalables: Es sencillo añadir más Linked Data a aquellos que ya estén, incluso cuando los términos y definiciones que se utilicen cambien a lo largo del tiempo.

Los beneficios de los Linked Data son:

  • Permitir la publicación de datos a escala web.
  • Todo es un recurso.
  • Todo puede ser anotado.
  • Fácil de extender.
  • Fácil de fusionarse.

Las posibles fuentes de open data son:

  • Gubernamentales.
  • Las organizaciones periodísticas como The Guardian y el New York Times que publican “datablogs” que de forma regular liberan conjuntos de datos producido o adquiridos por las investigaciones.
  • Nodos de la nube existente de Linked Data.

IBERJOUR combina los ecosistemas de open data  expuestos bajo el paradigma Linked Data para dotar al periodismo de datos de una potente y novedosa herramienta. Tomaremos como fuentes los datasets de Open Data Euskadi, Twitter, Facebook y Youtube.  además, IberJour permite analizar “sets” de datos, de una manera sencilla, extrayendo información relevante de hojas de datos Excel, con una herramienta, que, en forma de guiado o “wizard”, nos pregunta qué objetivos estamos buscando dentro de los datos, y nos muestra la correlación del resto de datos con el objetivo, y las reglas que explican el comportamiento de la meta buscada.

Así, este asistente, nos permite

  •  seleccionar los campos del total de lo hoja de datos, que deseemos analizar.

El usuario, una vez haya seleccionado el conjunto de datos de interés, podrá marcar los campos sobre los que quiere realizar la presentación de los mismos, seleccionando aquellos que le resulten de interés.

 Iberjour_3

Posteriormente, se podrá filtrar la información , en base a condiciones sobre los valores de los campos, podrá “filtrar” aquellas filas de los mismos que quiera analizar, por ejemplo, “edad >56”. Los criterios de filtrado podrán ser múltiples. Y finalmente, el sistema nos propone una serie de opciones que, directamente, nos explica qué es lo que los datos nos están “diciendo” sobre su naturaleza, y sobre los objetivos buscados originalmente.  Sobre las selecciones realizadas anteriormente, el sistema generará dos conjuntos de datos:

–          Correlación de indicadores sobre el campo objetivo:

Mostrará el porcentaje de correlación de cada indicador con respecto al objetivo seleccionado.

Iberjour_4

–          Set de reglas que expliquen las relaciones internas entre los indicadores:

El sistema generará un conjunto de reglas en formato “si -> entonces”, que explicará la correlación determinada en el paso anterior, junto con los valores de los umbrales que explican cada comportamiento interno de los datos.

Iberjour_5

Para las fuentes no estructuradas:

  • Herramienta de anotación y agregación de información adicional sobre conceptos relevantes.

Sobre los textos extraídos, existirá una herramienta de anotación que marcará aquellos conceptos más relevantes, indicando la categoría de pertenencia e información adicional sobre ella.

  • Herramienta de “Textmining” sobre Tags relevantes y gestión automática de categorías.

Sobre los textos relacionados, se indicará una estadística de las categorías o grupos de interés que conforman los textos, y dentro de cada grupo de interés, los “Tags” más representativos.

Iberjour_7

  • Herramientas de análisis de comportamientos sobre las categorías seleccionadas, y temáticas emergentes.

Otras entradas relacionadas:

¿Es posible conocer la intención de voto en base a datos abiertos? Un ejemplo de #OpenData + #DataMining = #OpenMining
Aplicación de Minería de Datos a Conjuntos de Textos. Como analizar “twitter” de una manera muy sencilla.

Si eres periodista o estás interesado en ampliar esta información puedes ponerte en contacto con nosotros en el contacto de este blog.

El futuro del Text Mining se llama T2k (Text to Knowledge)Tucán – Un extractor automático de información relacionada

Nov 16, 2011   //   by oa.usun   //   Semántica  //  7 Comments

La información que hay que tratar cada vez es mayor y desde ahora mismo ya no son suficientes  los resultados de una aplicación de recuperación de información(IR) como Doc Thor por lo que hemos dando un paso hacia lo que va a demandarse en el futuro y que consiste en desarrollar una aplicación donde se deduzca, extraiga y relacione lo más importante de la información contenida en los documentos obtenidos y que nos permite además realizar una vigilancia prospectiva sobre un tema tratado. Esta aplicación es T2k (Text to Knowledge) Tucán – Extractor automático de Información.

El procesado automático de textos es un área de investigación formada por diversas disciplinas. Incluyen Recuperación dela Información(IR), que se ocupa de encontrar documentos que satisfagan una determinada información o consulta dentro de una gran base de datos de documentos, como pudiera ser, por ejemplo, Internet; Procesamiento Natural del Lenguaje (NLP), que es una disciplina que abarca todas las técnicas de procesamiento automático tanto de lenguaje escrito como hablado; la Extracción de la Información(IE), que puede ser considerada un campo de NLP y está centrada en encontrar entidades explícitas y hechos dentro de un texto no estructurado. Por ejemplo, encontrar dentro de un texto todas las veces que aparece una determinada proteína. Finalmente, la Minería de Textos es el proceso de analizar el lenguaje natural escrito para descubrir información o conocimientos que son comúnmente difíciles de recuperar.

El proceso actual de extracción de la información es en su gran mayoría manual. Se extrae dicha información de las publicaciones científicas pertinentes y se almacena en grandes bases de datos y/u ontologías que hay repartidas por la red. Dichas bases de información son de gran importancia ya que los resultados de las distintas técnicas experimentales han de ser, en muchos casos, interpretados recurriendo a la información que contienen.

Uno de los temas que más interesa a la comunidad científica es precisamente la de clasificar documentos de acuerdo a los procesos y las funciones que describen. Sabiendo de qué procesos o funciones habla un documento, podremos establecer asociaciones entre las entidades que aparecen en el documento y los tópicos encontrados. Dicho de otra manera, es posible caracterizar entidades a través de sus funciones y del papel que desempeñan en distintos procesos a través del estudio de la literatura y, más en concreto, de la clasificación de documentos.

Minería de Datos

Se define como,”un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos”. Pero lo que en verdad hacela Mineríade Datos es reunir las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo de Datos, principalmente usando como materia prima fuentes de información como las bases de datos o las ontologías.

Las principales fuentes de datos utilizadas son ficheros planos, bases de datos relacionales, base de datos de transacciones, bases de datos objeto relacionales, bases de datos espaciales, series de tiempo, textos, literatura e incluso multimedia (video, audio) o datos en Internet. De ellos se pretende extraer información que abarca desde caracterización de entidades, discriminación, clasificación, agrupamiento, descubrir tendencias, calcular la desviación, detección de datos anómalos, etc. Dentro de la minería de datos, uno de los campos más importantes es la minería de textos. Se trata de un tipo especial de Minería de Datos en el que la información es extraída a partir de textos y/o de literatura.

Text Mining

La Mineríade Textos o Text Mining tiene como objetivo examinar una colección de documentos no estructurados escritos en lenguaje natural y descubrir información no contenida en ningún documento individual de la colección; en otras palabras, trata de obtener información sin haber partido de algo.

Las técnicas de NLP cubren todos los aspectos y etapas necesarias para convertir el lenguaje escrito o hablado en información que pueda ser usada por otros humanos o agentes automatizados.

Las operaciones comunes de procesamiento de texto usadas por los sistemas típicos de Text Mining son tokenización, eliminación de stopwords, lematización, part of speech y análisis sintáctico.

Para más información ver el enlace “Buscadores semánticos en medicina: Codificación CIE-9 y Medicina Basada en la Evidencia“.

Recuperación de Información (IR)

Un sistema típico de minería de texto comienza con una colección de documentos, sin ningún tipo de etiqueta. Los documentos son etiquetados en primer lugar por categorías, o por términos o relaciones extraídos directamente de los documentos. Este proceso se denomina categorización de textos, y divide enormes colecciones de textos en subconjuntos que estén interrelacionados por algún criterio predefinido. Ésta es una subárea de Recuperación de la Información (Information Retrieval o IR). La recuperación de información se ocupa de la representación, almacenamiento, organización y acceso a la información. Dentro de este tipo de búsqueda, existen distintas aproximaciones para recuperar información. Las tres clásicas son el modelo booleano, el vectorial y el probabilístico, sin embargo existen muchas más como las redes Bayesianas, redes neuronales, redes de inferencia, etc.

En Ibermática estos temas los tenemos resueltos con nuestra aplicación DocThor – Un auto-catalogador de Documentos automático en función del contenido

Extracción de Información (IE)

Es el nombre dado a cualquier proceso que recupera información que se encuentren de manera explícita o implícita en uno o más textos. Se trata de una técnica de Text Mining que combinada con herramientas NLP, recursos léxicos y restricciones semánticas, proporciona módulos efectivos para identificar hechos y relaciones en la literatura. Los sistemas de extracción buscan entidades, relaciones entre ellas u otros hechos específicos dentro de los textos. Permite además el etiquetado de los documentos e identifica conceptos explícitos y relaciones dentro de los textos, y asocia partes específicas del documento con algún asunto que sea de interés, es utilizando estas entidades específicas, hechos y eventos encontrados como se puede etiquetar al documento, y no mediante categorías fijadas de antemano.

T2k (Text to Knowledge) Tucán – Extracción de Información Relacionada (IER)

La extracción de información (IE) como hemos leído en el apartado anterior consiste en un proceso que recupera información que se encuentren de manera explícita o implícita en uno o más textos, pero en Ibermática creemos que en un futuro cada vez más próximo lo que se nos va a demandar es conocimiento y este además de la extracción de información (IE) típica es la comprensión de las relaciones existentes en esa información. Para esto hemos desarrollado T2k (Text to Knowledge) Tucán que es un extractor de información relacionada.

Extracción de Información Relacionada (IER) es la identificación automática de frases que permite la extracción de relaciones arbitrarias de sentencias, evitando la restricción a un vocabulario especificado anteriormente.

La salida de los sistemas de extracción automática de información (IE) se ha utilizado para apoyar tareas de aprendizaje de preferencias selectivas, la adquisición de conocimiento en razonamiento, y en vinculación de reconocimiento. Además las extracciones obtenidas en procesos de extracción automática de información relacionada (IER) pueden ser incluidas en ontologías.

Un sistema de extracción automático siguen los siguientes tres pasos:

1. Label: Las oraciones son automáticamente etiquetadas con extracciones usando heurística o supervisión a distancia.

2. Learn: Una frase de relación del extractor aprende utilizando un modelo de secuencia de etiquetado gráfico.

3. Extract: el sistema toma como entrada una frase, identifica una pareja candidata de los argumentos NP (arg1, arg2) de la sentencia, y luego usa la sabiduría del extractor para etiquetar cada palabra entre los dos argumentos como parte de la frase relación o no.

Existen dos limitaciones en frases de relación, una restricción sintáctica y restricción léxica.

La restricción sintáctica sirve para dos propósitos. En primer lugar, eliminar las incoherencias en las extracciones, y en segundo lugar, reducir las extracciones no informativas mediante la captura de frases de relación expresadas por una combinación verbo-sustantivo, incluyendo LCV.

Hay frases que satisfacen la restricción sintáctica, pero no son relacionales. Para superar esta limitación, se introduce una restricción léxica que se utiliza para separar frases de relación válida de frases relación especificada. La restricción se basa en la intuición de que una frase de relación válida debe tener muchos argumentos distintos en un amplio corpus.

Tomamos como entrada un texto etiquetado y fragmentado en sentencia NP
que devuelve un conjunto de (x, r, y) tripletas de extracción.

Dada una frase de entrada s, utiliza el algoritmo de extracción siguiente:

  1. Extracción de relación: Para cada v verbo en s, encontrar la secuencia más larga de rv palabras de tal manera que (1) r comienza en v, (2) r satisface la restricción sintáctica, y (3) r satisface la restricción de léxico.
    Si cualquier par de sentencias son adyacentes o superposición de s, que se funden en una sola sentencia.
  2. Extracción argumento: Para cada frase de relación r  identificados en el punto anterior, encontrar el más cercano sintagma nominal x a la izquierda de r tal que x es s no es un pronombre relativo, el adverbio WHO, o el existencial “THERE”. Encontrar el nombre y la frase más cercana a la derecha de r en s. Si tal par (x, y) podría encontrarse, el retorno (x, r, y) como una extracción.

Comprobamos si una frase relación candidata r satisface la restricción sintáctica, haciendo la coincidir con la expresión regular.

Para determinar si r satisface la restricción léxica, se utiliza un gran diccionario D de frases de relación que se sabe que puede tener muchos argumentos diferentes.

Como ejemplo del algoritmo de extracción en la acción, considerar la entrada siguiente:

Hudson nació en Hampstead, que es un suburbio de Londres.

El paso 1 del algoritmo identifica tres frases relación que satisfacen las restricciones sintácticas y léxicas:

fue, nacido en, y es un suburbio de

La primera de las dos frases que son adyacentes en la sentencia, por lo que se fusionan en una sola frase relación.

El paso 2 encuentra un par de argumentos para cada frase relación.

Para nació en la cercana PN son (Hudson,  Hampstead).

Para es un suburbio, extractora salta por encima de NP que elige el argumento par (Hampstead, Londres).

El resultado final es:

e1: (Hudson, nació en, Hampstead)
e2: (Hampstead, un suburbio de Londres).

Para determinar la confianza de la función  utilizamos un clasificador de regresión logística para asignar un nivel de confianza a cada extracción.

Como ejemplo podemos ver que hemos cargado en T2k (Text to Knowledge) Tucán el siguiente texto:

Peter Stone: A 46-year-old lady was referred to the haematology clinic for evaluation of lymphocytosis in May 1993. She had severe lethargy and intermittent right upper abdominal discomfort without any significant loss in weight. Her past medical history included essential hypertension controlled on atenolol 100 mg once daily and was also on frusemide 40 mg once daily. She had no significant surgical history other than having undergone cholecystectomy in 1972. She had never smoked nor consumed alcohol. Physical examination showed no evidence of lymphadenopathy. Complete blood count showed normal haemoglobin concentration 14.8 g/dl , macrocytosis ( MCV 100.1 ), raised white cell count at 13.4 109/L, lymphocytosis ( absolute number 6.3 109/L ), and normal neutrophil count ( absolute number 5.6 109/L ). Peripheral blood showed numerous Howell-Jolly bodies within erythrocytes. Thyroid function tests, protein electrophoresis, C-reactive protein, immunoglobulin levels and autoimmune screening were normal. Ultrasonography and computed tomography scan of the abdomen and pelvis did not reveal retroperitoneal or mediastinal lymphadenopathy, but the spleen was noted to be very atrophic. Gastroscopy showed multiple gastric erosions and the initial impression was of celiac disease complicated by lymphoma and lymphocytosis.

Y una vez ejecutado el proceso de extracción de información relacionada (IER) hemos obtenido el siguiente resultado en forma de tripletas que posteriormente podemos utilizar para poblar una ontología sobre este tema.

A 46-year-old lady

was referred to

the haematology clinic

——————————-

She

had

severe lethargy

——————————-

Her past medical history

included

essential hypertension

——————————-

atenolol 100 mg

was also on

frusemide 40 mg

——————————-

She

had

no significant surgical history

——————————-

Physical examination

showed no evidence of

lymphadenopathy

——————————-

Complete blood count

showed

normal haemoglobin concentration

——————————-

Peripheral blood

showed

numerous Howell-Jolly bodies

——————————-

Ultrasonography and computed tomography scan of the abdomen and pelvis

did not reveal

retroperitoneal or mediastinal lymphadenopathy

——————————-

Gastroscopy

showed

multiple gastric erosions

——————————-

the initial impression

was of

celiac disease

——————————-

Minería de datos sobre ontologías

Oct 24, 2011   //   by jc.cantera   //   Minería de Datos  //  1 Comment

Las aplicaciones del mundo real están cargadas de gran cantidad de datos e incluyen entidades que evolucionan con el tiempo. Sin embargo, este entorno rico en datos no significa necesariamente que sea rico en información. Debido a la naturaleza dinámica del entorno, los datos deben ser interpretados de manera diferente dependiendo de la situación (el contexto). Por ejemplo, el significado de fiebre alta de un paciente de catarro podría ser diferente de la fiebre de un paciente de neumonía.

El contexto es un concepto potente y de gran influencia. Puede ser útil en la interacción persona-máquina, principalmente a través de contextos explícitos de la comunicación (por ejemplo, entrada de la consulta del usuario). Otros factores implícitos de contexto (por ejemplo, físico, condiciones ambientales, lugar, hora, etc.) suelen ser ignorados por el equipo debido a la ausencia de una base de conocimiento o de un modelo adecuado.

La minería de datos sensible al contexto tiene que ver con la forma en que los atributos deben ser interpretados con criterios específicos de cada solicitud. Los actuales enfoques de la minería no proporcionan el apoyo adecuado para  minería de datos sensible al contexto. La razón principal de esto es la falta de contexto rico que especifica cuándo y cómo una minería de datos se debe aplicar a su contexto.

Para interpretar y mejorar la entrada explícita del usuario podrían utilizarse factores implícitos al contexto, lo que afecta los resultados de minería de datos para ofrecer una predicción de resultados exacta y precisa. Diferentes comportamientos y funcionalidades de minería de datos son muy útiles y necesarios en la generación de información dinámica, incierta, y en entornos distribuidos. Se debe a que tales conductas y capacidades pueden ayudar a aumentar los grados de eficacia y flexibilidad del proceso de minería de datos.

Las ontologías proporcionan un medio para representar la información o el conocimiento procesable por una máquina. Este conocimiento se puede comunicar entre diferentes agentes. El marco representa los factores de contexto en ontologías. Contexto es un término muy subjetivo y depende del dominio en cuestión. Por lo tanto, podemos diferenciar dos partes en la minería sensible al contexto: la representación real del factor de contexto para un dominio en la ontología correspondiente y un marco genérico en el que se puede consultar esta ontología e invocar a los procesos de  minería y coordinarlos de acuerdo con el diseño de la ontología. La representación del conocimiento en la ontología puede ser un bloque de construcción para la minería de datos basados en contexto.

El Descubrimiento de Conocimiento en Bases de Datos es un proceso exploratorio que involucra la aplicación de varios procedimientos algorítmicos para la manipulación de datos, construcción de modelos desde los datos y la manipulación de los mismos. El proceso de Descubrimiento de Conocimiento (KD) es una de las nociones centrales del campo de Descubrimiento de Conocimiento y Data Mining (KDD).

En particular el proyecto de investigación se centraliza en un subconjunto de estados de los procesos de KD (estos estados a su vez tienen múltiples componentes de algoritmos que pueden ser aplicados). A este proceso le denominamos Minería de Datos, distinguido del proceso más extenso de Descubrimiento de Conocimiento en Base de Datos. Hay que poner énfasis en tres procesos de KD: preproceso automático de datos, aplicación de algoritmos de inducción, y post-proceso automático de modelos.

Se selecciona este conjunto de pasos, porque individualmente, se encuentran relativamente bien comprendidos y pueden ser aplicados a una amplia variedad de conjunto de datos.

Proceso KDD

Proceso KDD

En la figura se pueden observar las áreas donde se pueden aplicar las ontologías en el proceso de descubrimiento de conocimiento.

Aplicación de  Minería de datos a Ontologías

Aplicación de Minería de datos a Ontologías

De esta manera, podemos ver a la relación entre Ontologías y Minería de Datos de dos modos:

  • Desde las Ontologías a la Minería de Datos, incorporamos el conocimiento al proceso por el uso de ontologías, es decir, cómo los expertos entienden y realizan las tareas de análisis. Las aplicaciones representativas son ayudantes inteligentes para el proceso de descubrimiento, la interpretación y la validación del conocimiento extraído.
  • Desde la Minería de Datos a Ontologías, incluimos el conocimiento del dominio en la información de entrada o usamos las ontologías para representar los resultados. Por lo tanto el análisis es realizado sobre estas ontologías. Las aplicaciones más representativas están en Medicina, Biología y Datos Espaciales, como: la representación de Genes, Taxonomías, aplicaciones en Geociencias, aplicaciones médicas.

Aplicando el ciclo CRISP-DM de minería sobre una ontología

CRISP-DM es la metodología más extendida para describir los pasos del proceso de KDD.

El ciclo de vida de CRISP-DM en el dominio de la ontología

Ciclo Crisp-DM

Ciclo Crisp-DM

En el modelo CRISP-DM se distinguen seis fases principales de un proceso de KDD: comprensión  del Negocio, la comprensión de datos, preparación de datos, modelado, evaluación e implementación.

  • El papel de las ontologías en la comprensión del negocio no es exclusivo de KDD. Las ontologías de dominio son un importante vehículo para la inspección de un dominio antes de comprometerse con una tarea en particular. Ontologías semi-formales  pueden ayudar a un recién llegado a familiarizarse con los conceptos más importantes y las relaciones, mientras que las ontologías oficiales permiten identificar a los supuestos conflictos que pueden no ser evidentes a primera vista.
  • Para la comprensión de datos mejorada, los elementos de una ontología tienen que ser asignados (es de suponer, manualmente) a los elementos del esquema de datos y viceversa. Normalmente, esto conducirá a la selección de solamente una parte relevante de una ontología (o múltiples ontologías). Los beneficios de este esfuerzo podrían ser, por ejemplo:
    • Identificación de los atributos que faltan que se debe agregar al conjunto de datos
    • La identificación de atributos redundantes (por ejemplo, la medición de la misma cantidad en diferentes unidades) que podrían ser eliminados del conjunto de datos.
  • La fase de preparación de datos ya está conectando con el modelado en la fase posterior. Por lo tanto, el uso concreto de la ontología de dominio depende en parte de la herramienta de minería elegida. Una ontología general, puede ayudar a identificar múltiples  grupos de atributos y/o valores de acuerdo con criterios semánticos.
  • En la fase de modelado, las ontologías pueden ayudar a diseñar las sesiones individuales de minería. En particular, para grandes conjuntos de datos, en los que valdría la pena introducir algún sesgo ontológico, por ejemplo, para pasar el examen cuantitativo de las hipótesis que no tendría sentido desde el punto de vista ontológico, o, por el contrario, de los que evidente en la ontología.
  • En la fase de evaluación, el/los modelos descubierto/s tienen el carácter de conocimiento estructurado en torno a los conceptos (mapeado en los atributos de datos), y por lo tanto puede ser interpretada en términos de la ontología y asociados a conocimientos previos.
  • En la fase de implementación, el conocimiento extraído realimenta el entorno del negocio. Siempre y cuando previamente el modelo del negocio se haya plasmado por mediante una  ontología, la integración de nuevos conocimientos una vez más puede estar mediada por la ontología del negocio. Por otra parte, si los resultados de la minería se distribuyen  través de múltiples organizaciones (por ejemplo, utilizando la infraestructura de la web semántica), la asignación a una ontología compartida es inevitable.

Se han estudiado varias aproximaciones de minería de datos sobre ontologías:

Minería de asociación

Mediante procedimientos  para análisis de datos representados como strings o bits. De esta manera, es posible generar y verificar patrones diferentes de manera eficiente. Algunos de los más usados se basa en el análisis de una tabla de contingencia de cuatro fases. Busca relaciones para 16 tipos de reglas de asociación (RA), incluyendo RA correspondientes a la prueba de hipótesis estadísticas y RA condicionales. Otros procecimientos se usan para los patrones basados en la evaluación de tablas de dos dimensiones de contingencia de dos atributos categóricos. Y alguno más que busca relaciones para las parejas de subconjuntos disjuntos de objetos observados que difieren en alguna propiedad de atributos.

Se obtienen RA de la forma φ ≈ ψ, donde se les llama φ y ψ antecedente y consecuente, respectivamente. El símbolo ≈ se refiere a un cuantificador, es decir, una condición en la tabla de contingencia de cuatro dimensiones de φ y ψ. La tabla de contingencia de cuatro dimensiones de φ y ψ en los datos de la matriz M es un cuádrupla ? a, b, c, d? de números naturales de tal manera que uno es el número de objetos de datos de M que satisfacen tanto φ y ψ, b es el número de objetos de datos de M φ ψ satisfactoria y no satisfactoria, c es la número de objetos de datos de φ M no satisfactoria y ψ satisfactoria, y d es la número de de M de M que no cumplan ni φ ψ.

Este modelo se ha utilizado para un experimento realizado con una ontología de dominio de riesgo cardio-vascular.

KDDONTO

KDDONTO es una ontología para apoyar tanto el descubrimiento de algoritmos adecuados y la composición de la KDD de los procesos de KDD. Con este fin, se utiliza una metodología de construcción de ontologías enfocada a definir ontologías orientadas a objetivos y que satisfagan los requisitos de calidad. Cada paso de esta metodología devuelve como salida una ontología válida representada en un lenguaje diferente. En primer lugar, las condiciones básicas que caracterizan algoritmos KDD se identifican y organizan en un glosario, y después las clases y las relaciones de la ontología se derivan formalmente de ella en forma axiomática. Por último, se obtiene una implementación de OWL-DL de la KDDONTO.

En este sentido  se ha desarrollado el proyecto Knowledge Discovery in Databases Virtual Mart (KDDVM), un proyecto más general para el desarrollo de un proceso abierto y entorno extensible donde los usuarios pueden buscar aplicaciones, sugerencias, evaluaciones, ejemplos de uso de las herramientas implementadas como servicios. En este marco, la KDDONTO es explotada para apoyar tanto el descubrimiento de servicios web como la aplicación de algoritmos de KDD, y su composición para la construcción de procesos de KDD. En particular, el uso de una ontología como garantías para obtener validez, resultados útiles y desconocidas.

Híbrido entre minería de datos y ontología

Para permitir el intercambio de conocimientos con el de aplicaciones exitosas de KDD los procesos y sus datos se almacenan en un meta-modelo llamado M4. Al hacer operativo M4, se apoya no sólo el almacenamiento, la documentación y el intercambio de tales procesos, sino también su desarrollo inicial y la ejecución. M4 se compone de un modelo de datos y un modelo de caso, como se explica a continuación:

  1. Los datos se modelan en dos niveles. En primer lugar, se almacena el esquema de base de datos, que describe las tablas, sus atributos y relaciones entre tablas. Este permite un acceso permanente a esta información en bases de datos. En segundo lugar, un nivel de la ontología se introduce que permite describir los datos en términos más abstractos. Básicamente, el nivel de la ontología utiliza los conceptos con las características y las relaciones, para modelar los datos. Obviamente, la asignación entre los dos niveles es crucial. La principal ventaja de este modelo de datos de dos niveles es que todo el procesamiento de datos se describe en términos de la ontología nivel, que permite volver a utilizar la descripción completa en una nueva base de datos simplemente cambiando la asignación inicial.
  2. Una secuencia completa de operaciones que describe un proceso de KDD se llama caso. El modelo del caso describe las operaciones ejecutadas con los datos, proporcionando un conjunto abierto de los operadores xed que realizan transformaciones básicas de los datos, así como pasos de aprendizaje más sofisticadas (a veces el aprendizaje se aplica durante el preprocesamiento). Aparte de algunos operadores con parámetros opcionales específicos (constantes) todas las entradas y salidas de los operadores se especifican en términos de la ontología de dominio. Las secuencias de salidas de un operador válido se encuentran disponibles como entrada para los pasos posteriores. Tan pronto como las entradas de un operador se han asignado a los objetos de base de datos se convierte en ejecutable. Cada operador tiene una tarea específica que es básicamente para establecer una visión nueva base de datos en los datos de entrada. Este proceso puede ser visto como una transformación en una representación diferente de los datos. El compilador es el sistema M4,  responsable de la ejecución de los operadores de los componentes. Lee la información sobre cómo aplicar los operadores en el presente caso de la M4 y crea puntos de vista basados en el código SQL generado de forma dinámica.

Existen entornos gráficos que permiten: a) creación y edición de objetos en el nivel de la ontología y asignarlos a los objetos de base de datos, y b) crear y editar las cadenas de los operadores. Además, toda la información relacionada con un caso M4 puede ser importada y exportada a ficheros XML, los cuales se pueden intercambiar entre los usuarios.

Las principales ventajas de este enfoque son:

  • Descripción de los datos en términos familiares para el usuario
  • Documentación automática de los datos y pasos de procesamiento
  • La reutilización de las aplicaciones en diferentes bases de datos KDD
  • Intercambiabilidad de conocimiento acerca de aplicaciones exitosas de KDD

Reformulation Query

El uso del conocimiento semántico en sus diversas formas, como meta-modelos, reglas semánticas y restricciones de integridad puede mejorar el procesamiento de consultas capacidades de vínculos mediante la transformación de las consultas del usuario en otros que sean semánticamente equivalentes, que pueden ser contestadas en menos tiempo y/o con menos recursos. A veces, el sistema no necesita escanear la base de datos completa para responder a una consulta y una breve respuesta podría satisfacer las necesidades de los usuarios. Este aspecto de la base de datos emergentes se conoce como optimización de las consultas semánticas. Por otra parte, hay también varios mecanismos de conocimiento de bases de datos que utilizan el conocimiento semántico basado en un conjunto de conocimiento intencional, incluyendo las reglas de deducción, las reglas generales, y jerarquías de conceptos con el fin de ofrecer una “respuesta inteligente” para las consultas. “Respuesta Inteligente ” a una consulta se refiere a proporcionar al usuario respuestas intencionales, además de los datos (hechos). Estas respuestas incluyen alguna generalizada, por vecindad, o información asociada que caracteriza a los resultados de los datos. En la actualidad, se trabaja en la investigación en la integración de la Web Semántica y los datos se centran en el uso de ontologías como soporte semántico para el procesamiento de datos. Las ontologías han demostrado ser útiles para capturar el contenido semántico de las fuentes de datos y para unificar las relaciones semánticas entre las estructuras heterogéneas. De este modo, los usuarios no deben preocuparse por dónde y cómo se organizan los datos en las fuentes. Por esta razón, los sistemas como OBSERVER  y TAMBIS permiten a los usuarios a formular sus consultas a través de una ontología sin acceso directo a las fuentes de datos.

Los datos de una ontología pueden ser explotados de forma efectiva para reformular una consulta de usuario de tal manera que la nueva consulta puede proporcionar resultados más “significativo” de la reunión la intención del usuario. Una consulta puede ser definida por un conjunto de selecciones y proyecciones sobre los objetos de base de datos que satisfagan una serie de condiciones. Estas condiciones son definidas por un conjunto de términos y determinan la respuesta a la consulta. Si un usuario desea recuperar información de una base de datos sobre determinados objetos, se pueden usar términos que no coinciden exactamente con los valores de base de datos (debido a la falta de correspondencia entre la visión del mundo del usuario y la del diseñador de la base de datos). Sin embargo, puede haber valores en la base de datos que son sintácticamente diferentes de los términos de usuario, pero tienen el mismo significado y expresan la misma intención del usuario. Este tema se aborda como un problema semántico en lugar de como un problema de coincidencia de patrones. Como consecuencia de ello, si se considera la semántica en el procesamiento de consultas, el número de resultados para la consulta transformado puede aumentar o disminuir. En ambos casos, el usuario recibe una respuesta que cumple con sus expectativas en comparación con el resultado sin necesidad de utilizar más conocimiento. Comparado con los métodos de optimización de consultas el objetivo no es acelerar el procesamiento de consultas, sino proporcionar respuestas más significativas a los usuarios. Con este fin, se desarrolla un conjunto de reglas de reformulación.

Articulos relacionados

Procesamiento del lenguaje natural y Descubrimiento de conocimiento (KDD)

Procesamiento del lenguaje natural y Descubrimiento de conocimiento (KDD)

Sep 28, 2011   //   by jc.cantera   //   Minería de Datos  //  3 Comments

 

La realización de consultas complejas sobre un conjunto de datos, y el acceso a los métodos de clasificación, predicción y decisión son tareas complejas que se han venido realizando de forma manual.

Actualmente existe una novedosa funcionalidad que consiste en preguntar, a partir de técnicas de lenguaje natural y procesos de Data Mining, directamente a través de reglas de negocio embebidas en el sistema. El Procesamiento de Lenguaje Natural (PLN), en inglés NLP (Natural Language Processing) es una disciplina de la inteligencia artificial y la rama de ingeniería de la lingüística computacional.
El lenguaje natural es el lenguaje hablado o escrito por humanos para propósitos generales de comunicación. Hay que distinguirlo de otros  lenguajes como los de programación o los usados en el estudio de la lógica formal, especialmente la lógica matemática.
El NLP se ocupa de la formulación y búsqueda de mecanismos para el procesamiento automático de la comunicación entre personas o entre personas y máquinas, que usan lenguajes naturales. Para la interpretación del lenguaje natural es fundamental la integración de diccionarios, ontologías y gramáticas de un dominio concreto, previamente creadas, que puedan comprender la mayor parte del vocabulario que se usará para realizar consultas.
El NLP no trata de la comunicación por medio de lenguajes naturales de una manera abstracta, sino que intenta diseñar mecanismos para comunicarse que sean eficaces computacionalmente. Los modelos aplicados se enfocan no sólo a la comprensión del lenguaje, sino a aspectos generales cognitivos humanos y a la organización de la memoria.

El lenguaje natural es inherentemente ambiguo a diferentes niveles. Por ejemplo, a nivel léxico, una misma palabra puede tener varios significados, y la selección del apropiado se ha de deducir a partir del contexto oracional. Muchas investigaciones en el campo del NLP han estudiado métodos de resolver dichas ambigüedades mediante diccionarios, gramáticas, bases de conocimiento y correlaciones estadísticas. La consulta de un usuario normalmente consiste en un conjunto de palabras clave relevantes y/o expresiones regulares que es analizada, y que se identifica con el conjunto de datos indexados como elemento de un fragmento de un texto.

Existe una metodología, “Question Answering” (QA), en la que una tarea automática, a partir de una pregunta expresada en lenguaje natural,  obtiene una respuesta correcta procedente de colecciones de documentos o de la Web indexados.

Existe mucha literatura al respecto de la utilización de algoritmos de Minería de Datos para su aplicación en la comprensión del Lenguaje Natural (redes bayesianas, modelos ocultos de Marcov, Laplace, series de Fourier aplicadas, redes neuronales, reglas… ) pero, sin embargo, pocos estudios han profundizado en la posibilidad de lanzar métodos de extracción de conocimiento a partir de premisas pedidas en base a sistemas “pregunta-respuesta” (QA), sin necesidad de programación, modelado de algoritmos estadísticos, o navegación por los datos, como es habitual en la gestión de las actuales plataformas de DataMining. Esta funcionalidad, denominada por algunos como Knowledge discovery query language (KDQL), permitirá dotar de una potencialidad aún mayor a un sistema que, ya de por sí, contiene un gran sustrato de conocimiento, que no de información.

KDQL en el proceso KDD (Knowledge Data Discovery)

El fondo de KDQL proviene de SQL (Structure Query Language) sobre el que se han propuesto varias extensiones al SQL para que sirva al lenguaje de consulta de minería de datos (DMQL – data mining query language).

El objetivo de descubrimiento de conocimiento (KDD) es obtener un conocimiento útil a partir de grandes colecciones de datos. Este proceso es inherentemente interactivo e iterativo: no se puede esperar para obtener conocimiento útil con la simple introducción de muchos datos a una caja negra. El usuario de un sistema KDD tiene que tener un conocimiento sólido del dominio con el fin de seleccionar correctamente el subconjuntos de datos, las clases adecuadas de patrones, y buenos criterios sobre el interés de los patrones. Así, los sistemas de KDD deben ser visto como herramientas interactivas, como no sistemas de análisis automático. El descubrimiento de conocimiento a partir de bases de datos KDQL por lo tanto, debe ser visto como un proceso que contiene varias pasos:

1. La comprensión del dominio,
2. Preparación del conjunto de datos,
3. Descubrir patrones (DM),
4. Post-procesamiento de los patrones descubiertos, y
5. Poner los resultados en su uso.

El proceso de KDD es necesariamente iterativo: los resultados de un paso DM pueden mostrar que se deben hacer algunos ajustes en la formación de etapas dentro del conjunto de datos, o el post-procesamiento de los patrones puede provocar que el usuario busque algunos tipos ligeramente modificados de los mismos, etc. En el proceso KDD es importante un apoyo eficaz en la iteración.  En este sentido, existen aplicaciones que incluyen prominentes ejemplos de KDD sobre datos de salud, aplicaciones financieras, y datos científicos. En la industria, el éxito de la KDD se debe en parte al aumento de los volúmenes de datos almacenados y análisis on-line (on-line analytical processing – OLAP). Estas estrategias del almacenamiento y tratamiento de la los datos acumulados en una organización se han hecho populares en los últimos años. KDD y DM pueden ser vistos como formas de la realización de algunas de las metas del almacenamiento de los datos y OLAP.

Minería de datos sobre ontologías

Las aplicaciones del mundo real están cargadas de gran cantidad de datos e incluyen entidades que evolucionan con el tiempo. Sin embargo, este entorno rico en datos no significa necesariamente que sea rico en información. Debido a la naturaleza dinámica del entorno, los datos deben ser interpretados de manera diferente dependiendo de la situación (el contexto). Por ejemplo, el significado de fiebre alta de un paciente de catarro podría ser diferente de la fiebre de un paciente de neumonía.

El contexto es un concepto potente y de gran influencia. Puede ser útil en la interacción persona-máquina, principalmente a través de contextos explícitos de la comunicación (por ejemplo, entrada de la consulta del usuario). otros factores implícitos de contexto (por ejemplo, físico, condiciones ambientales, lugar, hora, etc.) suelen ser ignorados por el equipo debido a la ausencia de una base de conocimiento o de un modelo adecuado.

La minería de datos sensible al contexto tiene que ver con la forma en que los atributos deben ser interpretados con criterios específicos de cada solicitud. Los actuales enfoques de la minería no proporcionan el apoyo adecuado para  minería de datos sensible al contexto. La razón principal de esto es la falta de contexto rico que especifica cuándo y cómo una minería de datos se debe aplicar a su contexto.

Para interpretar y mejorar la entrada explícita del usuario podrían utilizarse factores implícitos al contexto, lo que afecta los resultados de minería de datos para ofrecer una predicción de resultados exacta y precisa. Diferentes comportamientos y funcionalidades de minería de datos son muy útiles y necesarios en la generación de información dinámica, incierta, y en entornos distribuidos. Se debe a que tales conductas y capacidades pueden ayudar a aumentar los grados de eficacia y flexibilidad del proceso de minería de datos.

Minería de datos sensible al contexto, Ontología

Las ontologías proporcionan un medio para representar la información o el conocimiento procesable por una máquina. Este conocimiento se puede comunicar entre diferentes agentes. El marco representa los factores de contexto en ontologías. Contexto es un término muy subjetivo y depende del dominio en cuestión. Por lo tanto, podemos diferenciar dos partes en la minería sensible al contexto: la representación real del factor de contexto para un dominio en la ontología correspondiente y un marco genérico en el que se puede consultar esta ontología e invocar a los procesos de  minería y coordinarlos de acuerdo con el diseño de la ontología. La representación del conocimiento en la ontología puede ser un bloque de construcción para la minería de datos basados en contexto.