Browsing articles tagged with " sistemas_expertos"

IBERJOUR una plataforma para la generación semiautomática de información y conocimiento

Abr 8, 2013   //   by oa.usun   //   Minería de Datos  //  Comentarios desactivados en IBERJOUR una plataforma para la generación semiautomática de información y conocimiento

 

La plataforma IBERJOUR (Ibermatica for Data Journalism) es una plataforma de periodismo de datos en la que los periodistas escribirán, publicarán, difundirán y recibirán “inputs” sobre sus historias y comentarios periodísticos.

El periodismo de datos representa la convergencia de diferentes campos, los cuales son significantes por sí mismos: desde labores de investigación y estadística hasta diseño y programación. Las acciones necesarias para llegar al periodismo de datos son: encontrar, interrogar, visualizar y relacionar los datos con el propósito de crear una nueva historia.

El periodismo de datos se basa en la unión del periodismo, el diseño y la ciencia computacional para contar y dar sentido a las historias. Por dar sentido entendemos poner en contexto una historia, integrando los datos en dicha historia, estructurando sus partes y por supuesto ofreciendo datos relacionados con ella (personas, lugares, eventos, etc).

Iberjour_1

La liberación de grandes cantidades de datos gubernamentales es un significante paso adelante en el camino de la Web Semántica. El movimiento open data realizado por los estamentos públicos permitirá nuevas formas de reportaje así como una nueva generación de servicios que permitan al público participar en el proceso de confección de las noticias y contenidos.

Open data reduce de forma drástica las barreras de entrada de nuevos actores en el campo periodístico o de la información. De esta forma aparecen iniciativas que buscan, desde las administraciones y promotores de los datos abiertos, su explotación por entidades comerciales, a la vez que se crean tecnologías (herramientas, plataformas, etc) para su aplicación en entornos periodísticos profesionales.

IBERJOUR tiene como objetivo la implantación del periodismo de datos, haciendo uso conjunto de los siguientes puntos:

  1. El movimiento open data iniciado por las instituciones gubernamentales españolas
  2. La capacidad de los periodistas para contar historias, ponerlas en su contexto y relacionarlas
  3. La capacidad tecnológica que Linked Data, el multilingüismo y las nuevas tecnologías de visualización nos brindan para conseguir este objetivo
  4. El desarrollo de herramientas y plataformas a explotar por la industria TIC aunando los conceptos anteriores y replicándolo en otros sectores
  5. La inclusión de soluciones para la seguridad de los datos y los resultados de su utilización.

slide6

En general los Datos Enlazados (Linked Data) son:

  • Abiertos: Los Linked Data son accedidos a través de una variedad ilimitada de aplicaciones porque se expresan mediante formatos abiertos y no propietarios.
  • Modulares: Los Linked Data pueden ser combinados (mashed-up) con cualquier otra pieza de Linked Data.
  • Escalables: Es sencillo añadir más Linked Data a aquellos que ya estén, incluso cuando los términos y definiciones que se utilicen cambien a lo largo del tiempo.

Los beneficios de los Linked Data son:

  • Permitir la publicación de datos a escala web.
  • Todo es un recurso.
  • Todo puede ser anotado.
  • Fácil de extender.
  • Fácil de fusionarse.

Las posibles fuentes de open data son:

  • Gubernamentales.
  • Las organizaciones periodísticas como The Guardian y el New York Times que publican “datablogs” que de forma regular liberan conjuntos de datos producido o adquiridos por las investigaciones.
  • Nodos de la nube existente de Linked Data.

IBERJOUR combina los ecosistemas de open data  expuestos bajo el paradigma Linked Data para dotar al periodismo de datos de una potente y novedosa herramienta. Tomaremos como fuentes los datasets de Open Data Euskadi, Twitter, Facebook y Youtube.  además, IberJour permite analizar “sets” de datos, de una manera sencilla, extrayendo información relevante de hojas de datos Excel, con una herramienta, que, en forma de guiado o “wizard”, nos pregunta qué objetivos estamos buscando dentro de los datos, y nos muestra la correlación del resto de datos con el objetivo, y las reglas que explican el comportamiento de la meta buscada.

Así, este asistente, nos permite

  •  seleccionar los campos del total de lo hoja de datos, que deseemos analizar.

El usuario, una vez haya seleccionado el conjunto de datos de interés, podrá marcar los campos sobre los que quiere realizar la presentación de los mismos, seleccionando aquellos que le resulten de interés.

 Iberjour_3

Posteriormente, se podrá filtrar la información , en base a condiciones sobre los valores de los campos, podrá “filtrar” aquellas filas de los mismos que quiera analizar, por ejemplo, “edad >56”. Los criterios de filtrado podrán ser múltiples. Y finalmente, el sistema nos propone una serie de opciones que, directamente, nos explica qué es lo que los datos nos están “diciendo” sobre su naturaleza, y sobre los objetivos buscados originalmente.  Sobre las selecciones realizadas anteriormente, el sistema generará dos conjuntos de datos:

–          Correlación de indicadores sobre el campo objetivo:

Mostrará el porcentaje de correlación de cada indicador con respecto al objetivo seleccionado.

Iberjour_4

–          Set de reglas que expliquen las relaciones internas entre los indicadores:

El sistema generará un conjunto de reglas en formato “si -> entonces”, que explicará la correlación determinada en el paso anterior, junto con los valores de los umbrales que explican cada comportamiento interno de los datos.

Iberjour_5

Para las fuentes no estructuradas:

  • Herramienta de anotación y agregación de información adicional sobre conceptos relevantes.

Sobre los textos extraídos, existirá una herramienta de anotación que marcará aquellos conceptos más relevantes, indicando la categoría de pertenencia e información adicional sobre ella.

  • Herramienta de “Textmining” sobre Tags relevantes y gestión automática de categorías.

Sobre los textos relacionados, se indicará una estadística de las categorías o grupos de interés que conforman los textos, y dentro de cada grupo de interés, los “Tags” más representativos.

Iberjour_7

  • Herramientas de análisis de comportamientos sobre las categorías seleccionadas, y temáticas emergentes.

Otras entradas relacionadas:

¿Es posible conocer la intención de voto en base a datos abiertos? Un ejemplo de #OpenData + #DataMining = #OpenMining
Aplicación de Minería de Datos a Conjuntos de Textos. Como analizar “twitter” de una manera muy sencilla.

Si eres periodista o estás interesado en ampliar esta información puedes ponerte en contacto con nosotros en el contacto de este blog.

Proporción Áurea, serie de Fibonacci, fractales y redes neuronales

Oct 20, 2011   //   by oa.usun   //   S.Expertos  //  7 Comments

La proporción Áurea cuenta con una larga tradición en la cultura occidental. También llamada sección áurea, proporción divina o número áureo, en realidad se trata de un principio simple, aunque al mismo tiempo enigmático, que se repite hasta el infinito en la naturaleza, el arte y la ciencia. Podemos observar la proporción áurea en la disposición de las semillas en ciertas plantas, en el árbol genealógico de las abejas, en las pirámides, en catedrales góticas, en obras artísticas del Renacimiento, en el cuerpo humano o en conchas, por mencionar solamente algunos de los casos incontables en que se observa este fenómeno.

Los matemáticos lo llaman, el número de oro, número dorado, sección áurea, razón áurea, razón dorada, media áurea, proporción áurea y divina proporción, representado por la letra griega Φ (phi) (en honor al escultor griego Fidias), es el número irracional 1,6180339 … Su historia se remonta a los cálculos que aparecen en tablillas babilónicas y continúa hoy en los fractales de nuestra era digitalizada. Sin embargo, esto solo permite describir de modo muy superficial la singularidad y belleza de esta proporción que rige la naturaleza y sirve desde hace 2.500 años de hilo conductor estético en el arte y la arquitectura.

Da Vinci hizo las ilustraciones para una disertación publicada por Luca Pacioli en 1509 titulada De Divina Proportione, quizás la referencia más temprana en la literatura a otro de sus nombres, el de “Divina Proporción”. Este libro contiene los dibujos hechos por Leonardo da Vinci de los cinco sólidos platónicos. Es probable que fuera Leonardo quien diera por primera vez el nombre de sectio áurea.

Los artistas de Renacimiento utilizaron la sección áurea en múltiples ocasiones tanto en pintura, escultura como arquitectura para lograr el equilibrio y la belleza. Leonardo da Vinci, por ejemplo, la utilizó para definir todas las proporciones fundamentales en su pintura La última cena, desde las dimensiones de la mesa, hasta la disposición de Cristo y los discípulos sentados, así como las proporciones de las paredes y ventanas al fondo.

Leonardo da Vinci, en su cuadro dela Gioconda(o Mona Lisa) utilizó rectángulos áureos para plasmar el rostro de Mona Lisa. Se pueden localizar muchos detalles de su rostro, empezando porque el mismo rostro se encuadra en un rectángulo áureo.

La sección áurea en el arte:

Relaciones arquitectónicas en las Pirámides de Egipto.

La relación entre las partes, el techo y las columnas del Partenón, en Atenas (s. V a. C.).

En los violines, la ubicación de las efes (los “oídos”, u orificios en la tapa) se relaciona con el número áureo.

El número áureo aparece en las relaciones entre altura y ancho de los objetos y personas que aparecen en las obras de Miguel Ángel, Durero y Da Vinci, entre otros.

Las relaciones entre articulaciones en el hombre de Vitruvio y en otras obras de Leonardo da Vinci.

En las estructuras formales de las sonatas de Mozart, en la Quinta Sinfonía de Beethoven, en obras de Schubert y Debussý (estos compositores probablemente compusieron estas relaciones de manera inconsciente, basándose en equilibrios de masas sonoras).

Arte Póvera, movimiento artístico italiano de los años 1960, muchas de cuyas obras están basadas en esta sucesión de Fibonacci.

En la cinta de Darren Aronofsky Pi, el orden del caos el personaje central, Max Cohen, explica la relación que hay entre los números de Fibonacci y la sección áurea, aunque denominándola incorrectamente como Theta (θ) en vez de phi (Φ).

Si se indaga más en los detalles, y según el propio Leonardo de Pisa Fibonacci, en su Libro de los ábacos, la secuencia puede ayudar a calcular casi perfectamente el número de pares de conejos n meses después de que una primera pareja comienza a reproducirse (suponiendo que los conejos se empiezan a reproducir cuando tienen dos meses de edad).

La relación entre la cantidad de abejas macho y abejas hembra en un panal.

La relación entre la distancia entre las espiras del interior espiralado de cualquier caracol (no sólo del nautilus).

La relación entre los lados de un pentáculo.

La relación entre los lados de un pentágono.

La disposición de los pétalos de las flores (el papel del número áureo en la botánica recibe el nombre de Ley de Ludwig).

La distribución de las hojas en un tallo.

La relación entre las nervaduras de las hojas de los árboles.

La relación entre el grosor de las ramas principales y el tronco, o entre las ramas principales y las secundarias (el grosor de una equivale a Φ tomando como unidad la rama superior).

La distancia entre las espirales de una piña.

Los patrones matemáticos dirigen muchas formas de la naturaleza, hay numerosos ejemplos de sistemas en forma de fractales, sucesiones de Fibonacci, patrones que siguen el número áureo y que dan lugar a formas muy bellas.

En 1654 Pascal y Fermat elaboraron su teoría de la probabilidad y así nació el cálculo de probabilidades como nueva rama de la matemática. Pascal pasó mucho tiempo estudiando el triángulo que ahora se denomina “triangulo de Pascal” y que constituye la base de determinadas propiedades peculiares de la probabilidad. Pascal no era consciente de que en el triangulo aparecen los números de Fibonacci.

A lo largo de los siglos, la ciencia matemática ha creado con los números un sistema destinado a descifrar el caos del mundo y a ordenarlo, captando datos empíricos sobre el universo y la propia humanidad.

La Anatomía de los humanos se basa en una relación Phi exacta, así vemos que:

– La relación entre la altura de un ser humano y la altura de su ombligo.

– La relación entre la distancia del hombro a los dedos y la distancia del codo a los dedos.

– La relación entre la altura de la cadera y la altura de la rodilla.

– La relación entre el primer hueso de los dedos (metacarpiano) y la primera falange, o entre la primera y la segunda, o entre la segunda y la tercera, si dividimos todo es phi.

– La relación entre el diámetro de la boca y el de la nariz.

– Es phi la relación entre el diámetro externo de los ojos y la línea inter-pupilar

– Cuando la tráquea se divide en sus bronquios, si se mide el diámetro de los bronquios por el de la tráquea se obtiene phi, o el de la aorta con sus dos ramas terminales (ilíacas primitivas).

– Está comprobado que la mayor cantidad de números phi en el cuerpo y el rostro hacen que la mayoría de las personas reconozcan a esos individuos como proporcionados y son considerados como canon de belleza.

El siguiente vídeo es muy recomendable: Nature by Numbers

¿Pero que tiene que ver esta serie con la Inteligencia Artificial? 

En principio, parecería que nada, pero ahondando un poco, existen ciertas relaciones. Por ejemplo, en estudios de comportamiento en Bolsa, se utiliza la serie Fibonacci como uno de los pilares en la predicción de patrones de comportamiento humanos y de series temporales en la bolsa.  ¿Cómo se hace? Pues, básicamente, superponiendo a las seres bursátiles una foto de la espiral de fibonacci, y aquellos puntos en los que se cruzan, son puntos sensibles de analizar con la hipótesis que son puntos de inflexión sobre la misma, que los patrones se repiten en dichos puntos.

En los años 30, después de la gran depresión americana, Ralph Nelson Elliott descubrió que la situación anímica de una gran cantidad de operadores afectaba al precio de los valores. Por medio del análisis de patrones llego a la conclusión de que cada patrón era parte de otro patrón o molde superior, el cual estaba dividido en patrones inferiores. En el grafico siguiente vemos en patrón básico de una onda de Elliot.

Como vemos en el gráfico y como postula Elliott en su teoría, los valores se mueven en cinco patrones u ondas en la misma dirección que la tendencia principal, y en tres ondas en la dirección contraria a la tendencia principal. Las primeras ondas se denominan impulsivas, y las segundas correctivas. Este patrón de ocho ondas corresponde a un patrón superior, y cada onda de este patrón contiene a su vez ocho ondas. Para ver mejor este fenómeno observemos el siguiente grafico:

En él se pueden observar como hay dos ondas principales (1 y 2), que a su vez están compuestas por ocho ondas más ((1),(2),(3),(4),(5),(A),(B),(C)). En estas ondas podemos ver el modelo anterior compuesto por 5 ondas impulsivas (alcistas) y tres ondas correctivas (bajistas).En total se subdividen en 34 ondas.

Si intentamos buscar una relación entre los números de Fibonacci comprobaremos que la proporción se acerca a 1,618, o a lo que es lo mismo, su inverso 0,618. Cuanto más alto sean los números más se acercarán a esta proporción. (http://www.negomobile.es/sites/default/files/data/proyectos/GESCAVAL/DOC_Gescaval_IA.pdf)

Pero además, existen otras aplicaciones, como las búsquedas de soluciones. En post anteriores, hamos hablado de Algoritmos Genéticos, que, al final, no son más que algoritmos avanzados de búsquedas con el objetivo de minimizar los reultados engañosos o “mínimos locales”.

La solución a un problema se puede representar como la búsqueda de un cierto punto en un espacio de dos simensiones con muchos puntos, y normalmente, las búsquedas lineales, lo que hacen es recorrer punto por punto hasta encontrar uno adecuado. Pero, y si,  en vez de buscar en base a líneas, ¿buscamos en base a espirales? Pues encontraremos en un menor lapso de tiempo los puntos adecuados, ya que nos movemos por el espacio bidimensional de una forma ordenada pero con patrones extendidos. En técnicas de búsqueda de personas u objetos perdidos, es lo que se denomina búsqueda compacta. ¿Por qué no aplicarlo a las búsqueda de soluciones en entornos digitales?

Pero además, en el departamento de IA de Ibermática, estamos convencidos de que la representación del conocimiento sigue este tipo de patrones, como una parte más de un conjunto universal de estructuras y estamos trabajando en demostrar que sistemas basados en estas métricas mejoran los procedimientos actuales de resolución de procesos en distintos contextos.

Un ejemplo, el cerebro. Podemos relacionar la sucesión de números de Fibonacci con las neuronas cerebrales:

“Si hace 15 años le hubiéramos preguntado a un neurocientífico cómo se comunican las neuronas de nuestro cerebro nos habría respondido: Un impulso eléctrico viaja a lo largo de la neurona, y cuando llega a su final libera señales químicas para comunicarse con la siguiente.  Revolución: añadid las ondas cerebrales como una nueva manera de coordinar a distancia diferentes partes del cerebro.”

(http://lacomunidad.elpais.com/apuntes-cientificos-desde-el-mit/2010/10/16/tus-neuronas-se-comunican-con-senales-electricas-quimicas-y)

Donde la proporción de ondas theta y gamma sigue secuencias de la serie de Fibonacci usada en la proporción áurea.

Pero además, hasta ahora, no se comprendía porqué, el cerebro, y sus estrucuturas naturales, eran capaces de procesar tanta información en tan poco tiempo, con una velocidad bastante inferior a la de los procesadores digitales actuales.  El cerebro es paralelo por completo, con gran cantidad de elementos procesadores (en torno a 10exp12) que están altamente interconectados (hasta 10.000 conexiones por neurona). Sin embargo, el tiempo de procesamiento es lento – de mili segundos. Ademas, existen organismos unicelulares, como el Protozoo Paramecium, que nadan, encuentran comida, se relacionan aprenden y recuerdan sin necesidad de sinapsis. (Sherrington, 1957).

Entonces, ¿cómo es posible que se den razonamientos, y en tan poco tiempo?

Recientemente, se ha descubierto que, además de la sinapsis y las estructuras neuronales,  (las que, por cierto, no pueden ser tan estructuradas con las artificiales, pero de eso hablaré en otro “post”),  existen unas estructuras denominadas “microtubos”, que, al parecer, regulan el comportamiento celular, de los protozoos e incluso de la sinapsis neuronal.  (Hameroff y Watt, 1982; Hameroff, 1987)

Es decir, cada neurona contiene una estructura “microtubular” compuesta por polímeros “autoensamblados”  en base a la proteina tubulina, formando cilindros con celosías hexagonales en las que se cruzan los filamentos emparejados según la serie de Fibonacci, en simetría helicoidal.  Estas estructuras se convierten en “automatas moleculares” , de la siguiente forma:

10 tubulinas en cada neurona oscilando en un rango de  10valores por segundo (por ejemplo, Pokorny 8 MHz) ofrece una capacidad de información en el nivel de los microtúbulos de 1015 operaciones por segundo por cada neurona. Esta capacidad de proceso en una única célula es similar a las estimaciones para el procesamiento de la información a nivel de las neuronas y las sinapsis, pero para todo el cerebro (1011 neuronas, sinapsis por neurona 10, 10transmisiones por sinapsis por segundo =  1016 operaciones por segundo). La capacidad total del cerebro cuando se toman al nivel de los microtúbulos (en 1011 Neuronas) podrían ser potencialmente 1026 operaciones por segundo.

Estas estructuras , dentro de cada neurona,  son capaces de modificar su “mapa interno” en base a los “inputs” de otras neuronas, convirtiendo de repente a cada una de estas neuronas, en un principio, sencillas, en un potente computador cuasi-cuántico, y explicando de esta forma, la rapidez del procesamiento cerebral. Y la estructura que “almacena” cada uno de los n-estados posibles es una jerarquía en forma de hélice de Fibonacci. Interesante…..

A pesar de disponer de herramientas y lenguajes de programación diseñados expresamente para el desarrollo de máquinas inteligentes, existe un enorme problema que limita los resultados que se pueden obtener: estas máquinas se implementan sobre computadoras basadas en la filosofía de Von Neumann, y que se apoyan en una descripción secuencial del proceso de tratamiento de la información. Si bien el desarrollo de estas computadoras es espectacular, no deja de seguir la línea antes expuesta: una máquina que es capaz de realizar tareas mecánicas de forma increíblemente rápida, como por ejemplo cálculo, ordenación o control, pero incapaz de obtener resultados aceptables cuando se trata de tareas como reconocimiento de formas, voz, etc.

Quizás, el futuro de la nuevas máquinas de aprendizaje pasen por imitar a la naturaleza, comenzando por sus propias estructuras físicas….

Oscar Alonso / Aitor Moreno

Sistema inteligente de gestión del conocimiento de laboratorios para procesado de cultivos microbiológicos

Jul 15, 2011   //   by oa.usun   //   Semántica  //  1 Comment

El objetivo general ha sido llevar a cabo una investigación en tecnologías de visión y de inteligencia artificial donde hemos desarrollado un nuevo sistema inteligente de procesado de cultivos microbiológicos.

Se ha resuelto el problema de los cuellos de botella que el procesado de cultivos microbiológicos representa para los laboratorios clínicos.
Los procedimientos manuales tienen un impacto negativo en la eficiencia y productividad del laboratorio, dificultan la integración del diagnóstico con el historial del paciente y alargan el tiempo de espera del paciente.

Los retos principales han sido:
• El diseño de un sistema inteligente que controle de una forma integral las fases de preparación, incubación y diagnóstico de cultivos mediante técnicas de visión artificial y otros.
• La definición de un sistema inteligente de análisis de datos que permita implementar la previsión de epidemias.

Se han estudiado nuevas soluciones para manipular los cultivos, analizar el crecimiento de microorganismos y procesar toda esta información para realizar un diagnóstico rápido y fiable.

En este sentido, el proyecto ha estado orientado a los siguientes objetivos tecnológicos parciales:

• El diseño de un sistema integral de manejo de cultivos.


• La definición de un modelo de reconocimiento de imagen para controlar y analizar el crecimiento de las colonias.


• El diseño de un sistema inteligente de procesado y análisis de datos que permita predecir alarmas sanitarias.

Todas estas mejoras se han traducido principalmente en:

Reducción de errores, aumento de la productividad, aumento de la seguridad, y aumento de la satisfacción laboral.

Los avances científicos y técnicos que han supuesto la consecución de los objetivos del proyecto son los siguientes:

– Nuevos modelos de análisis de imagen para el control y análisis de colonias de bacterias.
– Un sistema inteligente de análisis de datos y detección de alertas sanitarias.

Se han integrado diferentes agentes inteligentes utilizando técnicas de razonamiento y de gestión del conocimiento (web semántica, ontología OWL, minería de datos, sistema experto), de manera que puedan entender el contexto local y compartir esta información para el correcto funcionamiento de aplicaciones e interfaces inteligentes en un laboratorio clínico.

La utilización de la tecnología de ontologías en este proyecto es clave debido a que el conocimiento que un técnico de laboratorio posee sobre un diagnóstico es difícilmente transferible.

Es muy importante disponer en todo momento de los datos sanitarios de un paciente. Gracias a los estándares sanitarios, entre los cuales el HL7 es el más extendido, la información sanitaria de un paciente está disponible en cualquier momento. Es por ello que este proyecto ha contribuido al estudio de estas interfaces en este área de operaciones.

También este proyecto ha permitido avanzar en la investigación de la aplicación de la minería de datos y  en el proceso de extracción de conocimiento KDD, realizando análisis sobre datos históricos y aplicando algoritmos de descubrimiento de conocimiento de forma que han generado un conjunto de patrones sobre los datos.

 

Este proyecto ha permitido la investigación de estas tecnologías en el ámbito de laboratorios de análisis clínicos.