Browsing articles tagged with " semántica"

Extracción Automática de Conocimiento Sobre Opendata (Openmining/Biganalytics): una perspectiva Juridica Y Social

Abr 18, 2013   //   by wpuser   //   Minería de Datos  //  Comentarios desactivados en Extracción Automática de Conocimiento Sobre Opendata (Openmining/Biganalytics): una perspectiva Juridica Y Social

RESUMEN: Open Data es un nuevo paradigma en el que la tecnología actúa como facilitador en la publicación del conocimiento sito en la Administración Pública y los gobiernos. Así, se está configurando como una herramienta que permite realizar procesos de Extracción, Tratamiento y Carga con múltiples fuentes de datos públicas, para generar informes o cuadros de mandos con un objetivo determinado. Sin embargo, el representar la información “relevante” implica un proceso posterior manual y complicado de filtrado, selección y comprensión de los datos de forma “artesanal”, para dar una salida estática final. Pero estos informes no muestran las “razones” o el “por qué” dichos datos son relevantes. En la actualidad, existen potentes herramientas (BigData), que nos permiten encontrar axiomas de forma automática, que “explican” los patrones inmersos en los datos, y “descubren” relaciones no evidentes entre los mismos, de forma totalmente transparente para el usuario. Por lo tanto, podemos relacionar datos demográficos, políticos, censales, económicos, médicos, culturales, y pedir al sistema, que, en base a unos objetivos determinados, (por ejemplo, el nivel de inversiones, indicadores de salud, o resultados electorales), nos enseñen porqué se están produciendo dichos comportamientos y la propensión de que los mismos patrones se reproduzcan en el futuro.

 La gran sopa de los Datos

1. INTRODUCCIÓN.

 1.1 Las Contradicciones Del “Opendata”: “Open Government”

 La tecnología, en estos tiempos modernos, usualmente, va por delante de la aplicabilidad de la misma en distintos contextos funcionales, principalmente en la Administración Pública. El presente artículo no trata de ahondar en el estado del arte tecnológico, sino de demostrar como ciertas tecnologías, muy maduras en otros ámbitos, (sanitario, bancario, marketing), pueden ser aplicadas al nuevo paradigma de OpenData, o publicación de datos abiertos por Administraciones Públicas, con el objetivo de mejorar la comprensión por parte de los “consumidores” de dicha información de forma directa, sencilla y rápida.

Tal y cómo describe Javier de la Cueva en su artículo “Redefiniendo la isegoría: open data ciudadanos”, OpenData permite que un ciudadano (o administración) publique a coste cero información que otros ciudadanos, pertenecientes a otro lugar del globo, puedan leerla a coste cero.

Sin embargo, para que esta posibilidad sea real, se deben dar las siguientes premisas:

–          La liberación de los datos implica el sometimiento de los datos públicos a estándares abiertos obligatorios.

–          Los datos dispuestos por los gobiernos deben ser lo más completos posibles, publicando toda la información en bruto, con la excepción de los datos relativos a la privacidad.

–          Los datos puestos a disposición pública por los gobiernos deben ser fuentes primarias, y con un sentido de oportunidad, es decir, tan rápidamente como es reunida y recogida.

–          Los datos deben de ser válidos, en un sentido estadístico, es decir, los valores intrínseco a los mismos deben ser evidencias de la realidad, en un porcentaje elevado (por ejemplo, se estima que los datos deben tener una confianza de un 80% en datos médicos).

–          Calidad, veracidad e inmediatez.

La realidad es que, quitando contadas ocasiones, ninguna  de las anteriores premisas se cumple. Por un lado, existe un estándar internacional para la publicación de los datos basado en tecnología semántica denominada “LinkedData”, que tiene cinco niveles de “excelencia”, y que no cumple casi ninguna administración. Por otro lado, los datos “expuestos” no son completos, y es necesario “ahondar” en información adicional, principalmente de otras fuentes, o incluso, manipulándola manualmente, para dar sentido a los datos publicados. Y finalmente, el coste que suponen los procesos de ETL (Extracción, Transformación y Carga) para las administraciones implica una clara pérdida de la oportunidad.

Quizás, el mayor problema en el coste de cumplimiento de estos requisitos es más profundo, y  resida en que no existen objetivos claros sobré que conjuntos de datos publicar, y principalmente, el para qué publicarlos. Se debe realizar un análisis previo, e incluso una consulta a los agentes principales “consumidores” de dicha información, con el objetivo de cuantificar claramente los “data sets” relevantes, priorizar y programar en el tiempo su publicación por orden de importancia, gestionar correctamente la publicidad de dichas publicaciones, medir de forma objetiva y cuantitativa el retorno de la inversión (no siempre en parámetros económicos, sino de reputación e interés social),  e incluso formar a la ciudadanía en las posibilidades de extracción y tratamiento de toda esta información. Sin tener los objetivos claros, y los beneficios cuantificados, a pesar de estar muy avanzada tecnológicamente, la filosofía OpenData no tiene futuro.

open government

Así, se está generando un fenómeno, por el cual, los que realmente están liberando datos en formato “OpenData” son los ciudadanos mediante técnicas de transformación, extractando el conocimiento de forma normalizada, que el Estado ha sido incapaz de realizar en base a los criterios prefijados. Y en parte, la razón de este fenómeno es la contradicción que existe entre la “recomendación” de publicar datos en bruto (Estado), con la necesidad de extraer de dichos datos sólo y sólo aquella información que es relevante para las necesidades de una consulta concreta (Ciudadanos).

Y de esta forma, nace el concepto de Open Government. Open Government se refiere al uso de tecnología para fomentar la transparencia, participación y colaboración con los grupos de interés de la Administración Pública y los gobiernos. Aunque la expresión tiene raíces en el Siglo de las Luces y posteriormente en una declaración de Lincoln en 1863, Obama le dio un nuevo impulso a través de su “Memorandum on Transparency and Open Government” (2009). Para Obama, Open Government debe conducir hacia una Administración Pública y un gobierno más eficientes y efectivos. De alguna manera se trata de reinventar la gestión pública y el gobierno.

Conceptualmente, Open Government es la suma de Government 2.0 y Open Data. Es un nuevo paradigma en el que la tecnología actúa como facilitador de una transformación en la manera de gestionar la Administración Pública y los gobiernos, a través del fomento de la transparencia, la participación y la colaboración con los grupos de interés. Es decir, es la suma de la publicación de datos en bruto, en dónde, los grupos de interés (ciudadanos, empresas, gestores), son capaces de transformar dicha información en conocimiento publicable, recabando un beneficio final, bien renumerado, bien en conceptos de prestigio social. Como consecuencia de dicha aplicación, se obtienen resultados finales en términos de productividad, innovación y reputación/fidelización de dichos grupos de interés (ciudadanía).

Pero para que el “cliente final” pueda recibir, en una aplicación “ad hoc” de forma directa las conclusiones de dicho conocimiento, se deben realizar una serie de pasos sobre la información base, como lo son:

–          La normalización y diferenciación entre lo que son datos constantes, conceptos (denominados “URI”s en semántica), y lo que son los valores asociados a dichos conceptos, y que serán los que se puedan mostrar en base a gráficos o informes. (Por ejemplo, Barcelona tiene una población de  1,621,537 habitantes se transforma en “dbpedia.org/page/Barcelonaàdbpedia-owl:populationTotalà1621537 (xsd:integer)”

–          Los datos deben estar relacionados, de forma que, a partir de ciertos “pasos” precalculados, podamos buscar relaciones, entre distintos conceptos y sus valores. Por la tanto, podremos relacionar el impacto, por ejemplo, de ciertas subvenciones sobre la renta de una determinada región, o sobre su efecto en enfermedades determinadas, si se solicita. Esto implica que hay que “normalizar” la información lo expresado en el punto anterior, pero además, hay que “enlazar” dichos conceptos.

–          Los datos deben ser relevantes, es decir, hay que “luchar” contra la cacofonía del ruido del entorno, y presentar solamente aquella información que tiene relación con la “pregunta” que se quiere responder. Por ejemplo, si estamos buscando si existe relación entre las sentencias judiciales y su efecto, sobre la violencia de género, “intuimos” que la información referente a los datos demográficos puedan ser de interés, pero no así, los datos meteorológicos, aunque igual nos sorprendíamos.

Como se puede intuir, el “navegar” por la ingente cantidad de datos en bruto, para seleccionar los conjuntos de datos, que “a priori” pueda tener relevancia con nuestro objetivo, enlazarlos, filtrarlos, normalizarlos, certificar la validez de los mismos, y presentarlos en un formato “usable”, no es una labor trivial.

Y sin embargo, en el entorno médico, por ejemplo, existen millones de “filas” de información ya extractada en este formato, disponible de forma directa, y accesible en función de las distintas preguntas que deseemos hacer. ¿Cómo es posible? Gracias a tecnología de extracción, análisis y asociación de relaciones basadas en técnicas de Inteligencia Artificial,  conjuntadas en lo que hoy en día se ha dado por denominar “BigData” o “BigAnalytics”. El reto está en proporcionar dichas técnicas a los agentes del “Open Governmet”, para que, de una forma desasistida, los datos en bruto se puedan transformar en conocimiento elaborado con el mínimo esfuerzo `posible.

Big-Data_analytics

2. BIG DATA/BIG ANALYTICS

 2.1 La palabra de  moda: “Big Data”

 Durante los últimos años, en el sector TIC, se ha pasado de la obsesión por “la nube” al foco en el “big data”. No obstante, el término “big data” es relativo. Se emplea (según definición de Gartner) cuando los problemas de gestión y procesamiento de la información “superan en una o varias dimensiones la capacidad de las tecnologías tradicionales de gestión de información para respaldar el uso de este activo”. Es decir, que los datos solo son “big data” cuando no es posible gestionarlos o analizarlos. Durante décadas, las TICs han salvado limitaciones conocidas alojando datos en estructuras definidas o arquitecturas de almacenamiento. Con métodos que se basan en el indexado y los lenguajes primitivos, las bases de datos no tardan en volverse demasiado grandes para ser gestionadas. Pero, ¿qué pasaría si pudiésemos poner una sola matriz de memoria con una fila por resolución judicial?, o ¿crear mil millones de filas, una por cada sentencia, sus datos asociados (niveles de renta de los demandantes/demandados, perfil de los jueces, situación geográfica, información censal) y su conclusión? Sería ideal poder obtener respuestas a cualquier pregunta en segundos a través de una sencilla interfaz gráfica o simplemente a través de una Web accesible. Esta posibilidad es lo que denominamos “big analytics”.

La tecnología de “big analytics”, evolución de la ya clásica “Minería de Datos”, se basa principalmente en la capacidad que tienen las máquinas de analizar correlaciones, relaciones, segmentaciones y procesos estadísticos en tiempo máquina (“sin descanso”), sobre un volumen de información ingente, tanto estructurado como no estructurado. Hay que tener en cuenta que el 80% de la información actual está en formato “textual”, y hacen falta procesos de transformación de dicho lenguaje a un formato “normalizado”. Por lo tanto, “big analytics” aúna técnicas de procesado estadístico con técnicas de procesado de lenguaje natural, que además, “encajan” a la perfección con la salida deseada que hemos comentado en el punto anterior, un formato semántico estructurado según al normativa de LinkedData.

“Big Analytics” se define como el proceso de descubrir los patrones de información interesante y potencialmente útil, inmersos en grandes fuentes de información dispersas con la que se interactúa constantemente. Internamente, es una combinación de procesos como:

–          Extracción de datos.

–          Limpieza de datos.

–          Selección de características principales.

–          Algoritmos de clasificación y predicción.

–          Análisis de resultados.

Estas plataformas exploran una gran cantidad de datos, y mediante su análisis, explican qué indicadores tienen correlación con ciertos objetivos o preguntas realizadas, y además, cuáles son las reglas que modelan dichos comportamientos. Una vez extraídas dichas reglas, es posible predecir posibles tendencias o comportamientos futuros dentro de una entidad, permitiendo al usuario final “comprender” la lógica de lo que los datos “dicen”, y los datos “nunca mienten”, y en base a ello, poder tomar decisiones, en unos casos, o poder publicar noticias basadas en la investigación de los datos (como es el caso del “periodismo de datos”).

La diferencia de estas técnicas con las clásicas estadísticas reside, principalmente, en que las técnicas estadísticas se centran en técnicas confirmatorias, y “big analytics”, en técnicas de descubrimiento. Así, cuando el problema al que pretendemos dar respuesta es refutar o confirmar una hipótesis, podremos utilizar ambas ciencias. Sin embargo, cuando el objetivo es meramente exploratorio (para concretar un problema o definir cuáles son las variables más interesantes es un sistema de información) aumenta la necesidad de delegar parte del conocimiento analítico a técnicas de aprendizaje. Así, “big analytics” se utilizará cuando no partimos de supuestos de inicio y pretendemos buscar algún conocimiento nuevo y susceptible de proporcionar información novedosa en la toma de decisiones.

En el caso de datos públicos, y siguiendo con la premisa de publicación en bruto por parte de la Administración, existe una alta dimensionalidad del problema. Cuantas más variables entren en el problema, más difícil resulta encontrar una hipótesis de partida interesante o, aun cuando se pudiera hacer, el tiempo necesario no justificaría la inversión. En ese caso, utilizar técnicas de minería de datos como árboles de decisión nos permitirán encontrar relaciones inéditas para luego concretar la investigación sobre las variables más interesantes, y al contrario que en la estadística, cuantos más datos tengamos, mejor solucionaremos el problema.

No es el objeto de este artículo ahondar en la algoritmia interna de estas plataformas, pero como un punto general, se puede decir que se trabaja en distintas fases:

–          Clustering: Es un planteamiento que intenta identificar las características distintivas entre los conjuntos de registros y el lugar en grupos o segmentos. Este proceso es a menudo la intensificación de punto de partida para la minería de datos, ya que conduce a la exploración de relación. Este proceso en particular es un candidato obvio para la segmentación de clientes por agrupación de similitudes.

–          Asociación: Aquí se encuentran las reglas que le permiten correlacionar la presencia de un conjunto de elementos con otro conjunto. Este método ha demostrado ser eficaz en el comercio minorista, donde el análisis de cesta de la compra le ayuda a encontrar que algunos artículos son siempre comprado en el mismo tiempo. Si usted puede encontrar los patrones de compra natural de un cliente puede utilizar ese modelo para ayudar a comercializar su producto. El resultado de esta asociación es una lista de afinidad de productos.

–          Asociación secuencial: Patrones relacionados con el tiempo. Este método busca los vínculos que relacionan estas pautas secuenciales. La idea es utilizar los datos asociativos como una cuenta de cheques o de un acontecimiento vital para unir una secuencia de acontecimientos en una serie de tiempo. La vida activa que preceden a sus compras y las compras de precursores se encuentran a menudo a esta metodología. La reducción de grandes cantidades de datos a los resúmenes significativa por el uso de nuevas normas puede extender esto.

2.1 La Curva de Aprendizaje

 Una vez demostradas las capacidades de esta tecnología sobre el tratamiento masivo de datos, el problema es cómo “transferir” dichas capacidades a loas verdaderos agentes de la transformación y reutilización de datos abiertos, es decir, a los ciudadanos o empresas que los modelizan.  Sin embargo, el problema no es tal, ya que existen múltiples plataformas analíticas avanzadas, muchas de software libre y disponible por la “comunidad” para su uso.

Estas plataformas tienen distinto grado de usabilidad y accesibilidad, pero las hay que, desde entornos Web, son capaces de permitir a los usuarios la subida de datos, y la bajada de las reglas que explican dichos datos, en base a reglas, que aclaran de forma visual, porqué un indicador está ocurriendo en determinados casos, y en otros no.  Otro tipo de plataformas (RapidMiner, Knime), tienen una curva de aprendizaje un poco más escarpada, pero es perfectamente viable, que con pocas jornadas de entrenamiento, una persona  no informática sea capaz de generar sus propios modelos para obtener las reglas que modelan sus datos.

Por lo tanto, una vez más, es evidente que la tecnología supera al “negocio” en cuanto a facilidad de uso, pero muchas veces, dicha funcionalidad  no es divulgada, primeramente, por intereses particulares, en los que, determinados nichos de negocio (empresas de marketing, consultorías en analítica avanzada), pretenden “mantener” el conocimiento de estas tecnologías en nichos cerrados para poder seguir operando como “gurús tecnológicos” especializados en “siglas de “tres letras” , aparentemente inaccesibles para el resto de la sociedad, cuando, las plataformas reseñadas anteriormente tienen una filosofía totalmente abierta y accesible. De hecho, la mayoría de las herramientas disponibles utilizan el mismo tipo de algoritmos, uso de la misma base de métodos estadísticos o son variaciones “sutiles” de los métodos generales.

3. BIG ANALYTICS vs OPENDATA

Según Gartner, “BigData nos hace más listos, pero OpenData nos hará más ricos”.  Efectivamente, tal y cómo hemos reseñado, BigData nos permite comprender que hay en nuestros datos, justo aquello que es relevante para nuestras consultas, y sólo aquello relevante, y el porqué está ocurriendo, mientras que OpenData permite a los agentes “publicar” dicha información transformada en conocimiento, para su beneficio propio.

La conjunción de ambas tecnologías, permite, minimizar el coste de análisis, transformación y extracción de la relevancia, aumentando, por lo tanto, el beneficio de la “venta” de dicho conocimiento a terceros. De esta forma, las Administraciones “delegan” su esfuerzo de desarrollo a agentes externos, siendo su única responsabilidad de la publicar datos en bruto.

El flujo del proceso es simple: Publicación de datos en Bruto por parte de la Administración (OpenData), complemento de dicha información con otras fuentes ya publicadas (LinkedData), recogida y análisis de información de forma automática (BigAnalytics),  generación de evidencias contrastadas estadísticamente (BigAnalytics), y publicación de la información relevante en formato semántico (LinekdData), más la presentación de la misma información en cuadros de mando Web (Mashups). Todo ello, conformaría el ciclo en espiral de la gestión del conocimiento en un entorno de  “Open Government”.

bigdatanowwhat

Más información en: http://www.ibermaticajusticia.com/ y http://www.i3b.ibermatica.com/i3b

 

IBERJOUR una plataforma para la generación semiautomática de información y conocimiento

Abr 8, 2013   //   by oa.usun   //   Minería de Datos  //  Comentarios desactivados en IBERJOUR una plataforma para la generación semiautomática de información y conocimiento

 

La plataforma IBERJOUR (Ibermatica for Data Journalism) es una plataforma de periodismo de datos en la que los periodistas escribirán, publicarán, difundirán y recibirán “inputs” sobre sus historias y comentarios periodísticos.

El periodismo de datos representa la convergencia de diferentes campos, los cuales son significantes por sí mismos: desde labores de investigación y estadística hasta diseño y programación. Las acciones necesarias para llegar al periodismo de datos son: encontrar, interrogar, visualizar y relacionar los datos con el propósito de crear una nueva historia.

El periodismo de datos se basa en la unión del periodismo, el diseño y la ciencia computacional para contar y dar sentido a las historias. Por dar sentido entendemos poner en contexto una historia, integrando los datos en dicha historia, estructurando sus partes y por supuesto ofreciendo datos relacionados con ella (personas, lugares, eventos, etc).

Iberjour_1

La liberación de grandes cantidades de datos gubernamentales es un significante paso adelante en el camino de la Web Semántica. El movimiento open data realizado por los estamentos públicos permitirá nuevas formas de reportaje así como una nueva generación de servicios que permitan al público participar en el proceso de confección de las noticias y contenidos.

Open data reduce de forma drástica las barreras de entrada de nuevos actores en el campo periodístico o de la información. De esta forma aparecen iniciativas que buscan, desde las administraciones y promotores de los datos abiertos, su explotación por entidades comerciales, a la vez que se crean tecnologías (herramientas, plataformas, etc) para su aplicación en entornos periodísticos profesionales.

IBERJOUR tiene como objetivo la implantación del periodismo de datos, haciendo uso conjunto de los siguientes puntos:

  1. El movimiento open data iniciado por las instituciones gubernamentales españolas
  2. La capacidad de los periodistas para contar historias, ponerlas en su contexto y relacionarlas
  3. La capacidad tecnológica que Linked Data, el multilingüismo y las nuevas tecnologías de visualización nos brindan para conseguir este objetivo
  4. El desarrollo de herramientas y plataformas a explotar por la industria TIC aunando los conceptos anteriores y replicándolo en otros sectores
  5. La inclusión de soluciones para la seguridad de los datos y los resultados de su utilización.

slide6

En general los Datos Enlazados (Linked Data) son:

  • Abiertos: Los Linked Data son accedidos a través de una variedad ilimitada de aplicaciones porque se expresan mediante formatos abiertos y no propietarios.
  • Modulares: Los Linked Data pueden ser combinados (mashed-up) con cualquier otra pieza de Linked Data.
  • Escalables: Es sencillo añadir más Linked Data a aquellos que ya estén, incluso cuando los términos y definiciones que se utilicen cambien a lo largo del tiempo.

Los beneficios de los Linked Data son:

  • Permitir la publicación de datos a escala web.
  • Todo es un recurso.
  • Todo puede ser anotado.
  • Fácil de extender.
  • Fácil de fusionarse.

Las posibles fuentes de open data son:

  • Gubernamentales.
  • Las organizaciones periodísticas como The Guardian y el New York Times que publican “datablogs” que de forma regular liberan conjuntos de datos producido o adquiridos por las investigaciones.
  • Nodos de la nube existente de Linked Data.

IBERJOUR combina los ecosistemas de open data  expuestos bajo el paradigma Linked Data para dotar al periodismo de datos de una potente y novedosa herramienta. Tomaremos como fuentes los datasets de Open Data Euskadi, Twitter, Facebook y Youtube.  además, IberJour permite analizar “sets” de datos, de una manera sencilla, extrayendo información relevante de hojas de datos Excel, con una herramienta, que, en forma de guiado o “wizard”, nos pregunta qué objetivos estamos buscando dentro de los datos, y nos muestra la correlación del resto de datos con el objetivo, y las reglas que explican el comportamiento de la meta buscada.

Así, este asistente, nos permite

  •  seleccionar los campos del total de lo hoja de datos, que deseemos analizar.

El usuario, una vez haya seleccionado el conjunto de datos de interés, podrá marcar los campos sobre los que quiere realizar la presentación de los mismos, seleccionando aquellos que le resulten de interés.

 Iberjour_3

Posteriormente, se podrá filtrar la información , en base a condiciones sobre los valores de los campos, podrá “filtrar” aquellas filas de los mismos que quiera analizar, por ejemplo, “edad >56”. Los criterios de filtrado podrán ser múltiples. Y finalmente, el sistema nos propone una serie de opciones que, directamente, nos explica qué es lo que los datos nos están “diciendo” sobre su naturaleza, y sobre los objetivos buscados originalmente.  Sobre las selecciones realizadas anteriormente, el sistema generará dos conjuntos de datos:

–          Correlación de indicadores sobre el campo objetivo:

Mostrará el porcentaje de correlación de cada indicador con respecto al objetivo seleccionado.

Iberjour_4

–          Set de reglas que expliquen las relaciones internas entre los indicadores:

El sistema generará un conjunto de reglas en formato “si -> entonces”, que explicará la correlación determinada en el paso anterior, junto con los valores de los umbrales que explican cada comportamiento interno de los datos.

Iberjour_5

Para las fuentes no estructuradas:

  • Herramienta de anotación y agregación de información adicional sobre conceptos relevantes.

Sobre los textos extraídos, existirá una herramienta de anotación que marcará aquellos conceptos más relevantes, indicando la categoría de pertenencia e información adicional sobre ella.

  • Herramienta de “Textmining” sobre Tags relevantes y gestión automática de categorías.

Sobre los textos relacionados, se indicará una estadística de las categorías o grupos de interés que conforman los textos, y dentro de cada grupo de interés, los “Tags” más representativos.

Iberjour_7

  • Herramientas de análisis de comportamientos sobre las categorías seleccionadas, y temáticas emergentes.

Otras entradas relacionadas:

¿Es posible conocer la intención de voto en base a datos abiertos? Un ejemplo de #OpenData + #DataMining = #OpenMining
Aplicación de Minería de Datos a Conjuntos de Textos. Como analizar “twitter” de una manera muy sencilla.

Si eres periodista o estás interesado en ampliar esta información puedes ponerte en contacto con nosotros en el contacto de este blog.

Adquisición de conocimiento para poblar Ontologías

May 18, 2012   //   by oa.usun   //   Semántica  //  1 Comment

El proceso de adquisición de conocimiento para la población de una ontología se descompone en tres etapas separadas y complementarias.

– Recuperación de la Información (IR), que se ocupa de encontrar documentos que satisfagan una determinada información o consulta dentro de una gran base de datos de documentos.

Un sistema típico de minería de texto comienza con una colección de documentos, sin ningún tipo de etiqueta. Los documentos son etiquetados en primer lugar por categorías, o por términos o relaciones extraídos directamente de los documentos. Este proceso se denomina categorización de textos, y divide enormes colecciones de textos en subconjuntos que estén interrelacionados por algún criterio predefinido. Ésta es una subárea de Recuperación de la Información (Information Retrieval o IR). La recuperación de información se ocupa de la representación, almacenamiento, organización y acceso a la información. Dentro de este tipo de búsqueda, existen distintas aproximaciones para recuperar información. Las tres clásicas son el modelo booleano, el vectorial y el probabilístico, sin embargo existen muchas más como las redes Bayesianas, redes neuronales, redes de inferencia, etc.

DocThor – Un auto-catalogador de Documentos automático en función del contenido

– Extracción de la Información Relacionada  (IER), que puede ser considerada un campo de NLP y está centrada en encontrar entidades explícitas y hechos dentro de un texto no estructurado.

Identifica automáticamente las frases que permiten la extracción de relaciones arbitrarias de sentencias, evitando la restricción a un vocabulario especificado anteriormente.

La salida de los sistemas de extracción automática de información (IE) se ha utilizado para apoyar tareas de aprendizaje de preferencias selectivas, la adquisición de conocimiento en razonamiento, y en vinculación de reconocimiento. Además las extracciones obtenidas en procesos de extracción automática de información relacionada (IER) pueden ser incluidas en ontologías.

El futuro del Text Mining se llama T2k (Text to Knowledge)Tucán – Un extractor automático de información relacionada

Cargar la ontología y poblarla con tripletas.

Buscadores semánticos en medicina: Codificación CIE-9 y Medicina Basada en la Evidencia

La integración entre la extracción de lingüística y los conceptos del dominio ontológico se debe realizar en varios pasos:

1) Crear el árbol conceptual derivado del análisis lingüístico.

2) La definición manual de normas de adquisición entre las etiquetas lingüísticas y conceptos ontológicos.

3) Activar las reglas automáticas de adquisición de los textos.

Árbol conceptual resultante del análisis lingüístico

Como se mencionó anteriormente, el IDE crea un árbol conceptual  de cada análisis lingüístico de un informe como este ejemplo sobre decisiones jurídicas (ver fig. 3).

Cada nodo de este árbol es una etiqueta lingüística y el valor del texto del informe, entre paréntesis.

Nuestra solución debe atravesar el árbol con el fin de extraer la información relevante y más cercana a un concepto de la ontología, el segundo es un sujeto, atributo, asociación o papel en la base de conocimientos.

El recorrido del árbol se rige por unos principios básicos:

1) Un árbol necesariamente tiene un padre de raíz, aquí representa el documento o el tema principal.

2) El análisis de árbol se hace para prefijo profunda: a partir de la raíz, el primer algoritmo analiza el hijo de la izquierda antes de cruzar el hijo de la derecha y así sucesivamente de forma recursiva.

3) Dos caminos del árbol se necesitan: una para adquirir el sujeto con sus
atributos, y el segundo para adquirir las asociaciones con diferentes roles
sujetos en ella.
Estos dos caminos son esenciales porque no todos los sujetos están necesariamente involucrados en una asociación.

Definición de las reglas de adquisición o población

Manualmente cada nodo del árbol conceptual debe estar cerca de su concepto de la ontología correspondiente, sea cual sea su tipo (sujeto, atributo, asociación y rol).

Para ello, hay que crear las reglas para la adquisición de conocimientos que dará lugar a la creación de una instancia del concepto ontológico de cada nodo correspondiente del árbol conceptual.

• Una etiqueta es un solo concepto: « /art num » para el atributo « Num

Article ».
• Varias etiquetas corresponden a un mismo concepto: « /Nom lex » y « /Noms

lex » en el tema « Personne ».
• Una etiqueta corresponde a varios conceptos del mismo tipo: « /MEMBRES

COUR » para los sujetos « Personnalité Juridique »  y « Personnalité Politique ».
• Una etiqueta corresponde a diferentes tipos de conceptos:
« /REFERENCE » para el sujeto « Réf Editoriale Législative TNC » y « Réf

Editoriale Législative TNC Article », la asociación « Renvoi simple » y el rol de « Cible lien ».

• Una etiqueta no coincide con ningún concepto de la ontología: « /MOTIF ».
•  Un concepto no tiene etiquetas de equivalencia existentes: el
rol de « Origine Lien ».

En los casos en que una etiqueta pueda instanciar conceptos múltiples, es necesario entonces utilizar los padres nodo de contexto, hijos o hermanos para resolver las ambigüedades.

Por ejemplo, si el nodo « /REFERENCE » tiene un nodo hijo « /article », el
sujeto « Réf Editoriale Législative TNC Article » creará una instancia, de lo contrario será « Réf Editoriale Législative TNC ».

En la primera parte del documento, y por lo tanto, las extracciones lingüísticas, son concernientes a una decisión de la Corte de Casación. Por lo tanto, contiene los atributos del concepto que representan esta decisión, es decir, « Réf Editoriale Jurisprudence » marcado por la etiqueta « /REFERENCE DECISION ». Por consiguiente, es posible relacionar con cada uno de los nodos de la primera parte con los atributos correspondientes, que la etiqueta« /FORMATION »  con « formation » en la figura. 4.

En la segunda parte del documento se recogen otros tipos de instancias de conceptos, incluidas las personas, las partes o personas jurídicas (abogados, presidentes, secretarios, etc.) Y referencias a los textos legales en que se basan los argumentos de las diferentes partes. Estas referencias serán instanciadas de acuerdo a sus conceptos, el texto codificado o no codificado, con sus atributos (fecha, tipo de texto, etc.), a continuación poner en relación con la decisión a través de la asociación « Renvoi simple » y la especificación de su rol « Cible lien », cf. Fig. 5.

Una vez que la correspondencia está definida, cada una de las reglas de adquisición se formalizará y se añade lenguaje XPath (XPath se utiliza durante la fase de población para navegar a través de elementos y atributos en un documento XML) en la ontología del dominio del concepto y se creará una instancia. Por ejemplo, el concepto de  «Réf Editoriale Législative TC Article » en la ontología se asociará con « /REFERENCE DECISION/REFERENCE/ref[ARTICLE and TEXTE] ».

Activación de una regla de adquisición

Después de un análisis lingüístico, el árbol conceptual del documento seleccionado por el usuario es automáticamente cubierto por todas las reglas de adquisición. En cada nodo pertinente, la acción de instanciación de la base de conocimientos, asociada a toda regla de adquisición, se activa. Sin embargo, para evitar la duplicación de la base de conocimientos, se realiza una comprobación antes de la creación del concepto para verificar su existencia en la base de conocimientos. Una vez que el camino del árbol completado, el usuario puede ver todas las nuevas instancias de la base de conocimientos a través de una interfaz de validación. Desde esta interfaz, el usuario puede modificar y / o eliminar una instancia creada, así como añadir nuevas. A través de esta interfaz, el usuario puede controlar la calidad de la base de conocimientos y enriquecerla.

Esta plataforma propone, pues, una solución innovadora para enriquecer la base de conocimientos limitados por la ontología del dominio lingüístico a partir de las extracciones lingüísticas con la definición de las reglas de adquisición.

Referencias:

Juliette Dibie-Barthélemy, Intégration de données guidée par une ontologie. Application au domaine du risque alimentaire. HDR_JDB 2009

Florence AmardeilhPhilippe Laublet, Jean-Luc Minel: Document annotation and ontology population from linguistic extractions. K-CAP 2005: 161-168

Yoan Chabot : Rapport de Stage Enrichissement et peuplement d’ontologies. Le2i – Laboratoire Electronique, Informatique et Image. IQS4B 2009

Oren Etzioni, Anthony FaderJanara ChristensenStephen SoderlandMausam: Open Information Extraction: The Second Generation. IJCAI 2011: 3-10