Adquisición de conocimiento para poblar Ontologías
El proceso de adquisición de conocimiento para la población de una ontología se descompone en tres etapas separadas y complementarias.
– Recuperación de la Información (IR), que se ocupa de encontrar documentos que satisfagan una determinada información o consulta dentro de una gran base de datos de documentos.
Un sistema típico de minería de texto comienza con una colección de documentos, sin ningún tipo de etiqueta. Los documentos son etiquetados en primer lugar por categorías, o por términos o relaciones extraídos directamente de los documentos. Este proceso se denomina categorización de textos, y divide enormes colecciones de textos en subconjuntos que estén interrelacionados por algún criterio predefinido. Ésta es una subárea de Recuperación de la Información (Information Retrieval o IR). La recuperación de información se ocupa de la representación, almacenamiento, organización y acceso a la información. Dentro de este tipo de búsqueda, existen distintas aproximaciones para recuperar información. Las tres clásicas son el modelo booleano, el vectorial y el probabilístico, sin embargo existen muchas más como las redes Bayesianas, redes neuronales, redes de inferencia, etc.
DocThor – Un auto-catalogador de Documentos automático en función del contenido
– Extracción de la Información Relacionada (IER), que puede ser considerada un campo de NLP y está centrada en encontrar entidades explícitas y hechos dentro de un texto no estructurado.
Identifica automáticamente las frases que permiten la extracción de relaciones arbitrarias de sentencias, evitando la restricción a un vocabulario especificado anteriormente.
La salida de los sistemas de extracción automática de información (IE) se ha utilizado para apoyar tareas de aprendizaje de preferencias selectivas, la adquisición de conocimiento en razonamiento, y en vinculación de reconocimiento. Además las extracciones obtenidas en procesos de extracción automática de información relacionada (IER) pueden ser incluidas en ontologías.
– Cargar la ontología y poblarla con tripletas.
Buscadores semánticos en medicina: Codificación CIE-9 y Medicina Basada en la Evidencia
La integración entre la extracción de lingüística y los conceptos del dominio ontológico se debe realizar en varios pasos:
1) Crear el árbol conceptual derivado del análisis lingüístico.
2) La definición manual de normas de adquisición entre las etiquetas lingüísticas y conceptos ontológicos.
3) Activar las reglas automáticas de adquisición de los textos.
Árbol conceptual resultante del análisis lingüístico
Como se mencionó anteriormente, el IDE crea un árbol conceptual de cada análisis lingüístico de un informe como este ejemplo sobre decisiones jurídicas (ver fig. 3).
Cada nodo de este árbol es una etiqueta lingüística y el valor del texto del informe, entre paréntesis.
Nuestra solución debe atravesar el árbol con el fin de extraer la información relevante y más cercana a un concepto de la ontología, el segundo es un sujeto, atributo, asociación o papel en la base de conocimientos.
El recorrido del árbol se rige por unos principios básicos:
1) Un árbol necesariamente tiene un padre de raíz, aquí representa el documento o el tema principal.
2) El análisis de árbol se hace para prefijo profunda: a partir de la raíz, el primer algoritmo analiza el hijo de la izquierda antes de cruzar el hijo de la derecha y así sucesivamente de forma recursiva.
3) Dos caminos del árbol se necesitan: una para adquirir el sujeto con sus
atributos, y el segundo para adquirir las asociaciones con diferentes roles
sujetos en ella.
Estos dos caminos son esenciales porque no todos los sujetos están necesariamente involucrados en una asociación.
Definición de las reglas de adquisición o población
Manualmente cada nodo del árbol conceptual debe estar cerca de su concepto de la ontología correspondiente, sea cual sea su tipo (sujeto, atributo, asociación y rol).
Para ello, hay que crear las reglas para la adquisición de conocimientos que dará lugar a la creación de una instancia del concepto ontológico de cada nodo correspondiente del árbol conceptual.
• Una etiqueta es un solo concepto: « /art num » para el atributo « Num
Article ».
• Varias etiquetas corresponden a un mismo concepto: « /Nom lex » y « /Noms
lex » en el tema « Personne ».
• Una etiqueta corresponde a varios conceptos del mismo tipo: « /MEMBRES
COUR » para los sujetos « Personnalité Juridique » y « Personnalité Politique ».
• Una etiqueta corresponde a diferentes tipos de conceptos:
« /REFERENCE » para el sujeto « Réf Editoriale Législative TNC » y « Réf
Editoriale Législative TNC Article », la asociación « Renvoi simple » y el rol de « Cible lien ».
• Una etiqueta no coincide con ningún concepto de la ontología: « /MOTIF ».
• Un concepto no tiene etiquetas de equivalencia existentes: el
rol de « Origine Lien ».
En los casos en que una etiqueta pueda instanciar conceptos múltiples, es necesario entonces utilizar los padres nodo de contexto, hijos o hermanos para resolver las ambigüedades.
Por ejemplo, si el nodo « /REFERENCE » tiene un nodo hijo « /article », el
sujeto « Réf Editoriale Législative TNC Article » creará una instancia, de lo contrario será « Réf Editoriale Législative TNC ».
En la primera parte del documento, y por lo tanto, las extracciones lingüísticas, son concernientes a una decisión de la Corte de Casación. Por lo tanto, contiene los atributos del concepto que representan esta decisión, es decir, « Réf Editoriale Jurisprudence » marcado por la etiqueta « /REFERENCE DECISION ». Por consiguiente, es posible relacionar con cada uno de los nodos de la primera parte con los atributos correspondientes, que la etiqueta« /FORMATION » con « formation » en la figura. 4.
En la segunda parte del documento se recogen otros tipos de instancias de conceptos, incluidas las personas, las partes o personas jurídicas (abogados, presidentes, secretarios, etc.) Y referencias a los textos legales en que se basan los argumentos de las diferentes partes. Estas referencias serán instanciadas de acuerdo a sus conceptos, el texto codificado o no codificado, con sus atributos (fecha, tipo de texto, etc.), a continuación poner en relación con la decisión a través de la asociación « Renvoi simple » y la especificación de su rol « Cible lien », cf. Fig. 5.
Una vez que la correspondencia está definida, cada una de las reglas de adquisición se formalizará y se añade lenguaje XPath (XPath se utiliza durante la fase de población para navegar a través de elementos y atributos en un documento XML) en la ontología del dominio del concepto y se creará una instancia. Por ejemplo, el concepto de «Réf Editoriale Législative TC Article » en la ontología se asociará con « /REFERENCE DECISION/REFERENCE/ref[ARTICLE and TEXTE] ».
Activación de una regla de adquisición
Después de un análisis lingüístico, el árbol conceptual del documento seleccionado por el usuario es automáticamente cubierto por todas las reglas de adquisición. En cada nodo pertinente, la acción de instanciación de la base de conocimientos, asociada a toda regla de adquisición, se activa. Sin embargo, para evitar la duplicación de la base de conocimientos, se realiza una comprobación antes de la creación del concepto para verificar su existencia en la base de conocimientos. Una vez que el camino del árbol completado, el usuario puede ver todas las nuevas instancias de la base de conocimientos a través de una interfaz de validación. Desde esta interfaz, el usuario puede modificar y / o eliminar una instancia creada, así como añadir nuevas. A través de esta interfaz, el usuario puede controlar la calidad de la base de conocimientos y enriquecerla.
Esta plataforma propone, pues, una solución innovadora para enriquecer la base de conocimientos limitados por la ontología del dominio lingüístico a partir de las extracciones lingüísticas con la definición de las reglas de adquisición.
Referencias:
Juliette Dibie-Barthélemy, Intégration de données guidée par une ontologie. Application au domaine du risque alimentaire. HDR_JDB 2009
Florence Amardeilh, Philippe Laublet, Jean-Luc Minel: Document annotation and ontology population from linguistic extractions. K-CAP 2005: 161-168
Yoan Chabot : Rapport de Stage Enrichissement et peuplement d’ontologies. Le2i – Laboratoire Electronique, Informatique et Image. IQS4B 2009
Oren Etzioni, Anthony Fader, Janara Christensen, Stephen Soderland, Mausam: Open Information Extraction: The Second Generation. IJCAI 2011: 3-10
1 Comment
Entradas recientes
- Sonificación de datos para la supervisión de procesos en tiempo real / 1
- Tratamiento del Lenguaje Natural en Medicina mediante técnicas de IA. Caso de Uso de Hedai.
- El Futuro en Blockchain: IA & Semántica & Blockchain.
- «Semantic Learning» en Salud. Un ejemplo de Minería sobre Estructuras Semánticas
- Ibermática desarrolla un Sistema de Soporte a la Decisión Clínica para pacientes con cáncer de mama
What a very informative site, I have found alot of very useful information here and still have a lot more to read. Thank you very much for the time and effort you have put in….
http://www.KneeNeckBackPain.com/