Browsing articles from "julio, 2011"

El problema de la Inducción (nombre técnico del “cisne negro”) o Problema del Conocimiento Inductivo

Jul 26, 2011   //   by oa.usun   //   Minería de Datos  //  1 Comment

Los “cisnes negros” han dado forma a la historia de la tecnología, la ciencia, los negocios y la cultura. Una pequeña cantidad de cisnes negros explica casi todo lo concerniente a nuestro mundo, desde el éxito de las ideas y las religiones, hasta la dinámica de los acontecimientos históricos y los elementos de nuestra propia vida personal. Casi ningún descubrimiento, ninguna tecnología destacable surgieron del diseño y la planificación, no fueron más que cisnes negros.

Los “cisnes negros” son sucesos improbables que tienen estos tres atributos:

1. Es una rareza, algo improbable, nada del pasado apunta de forma convincente a su posibilidad. Impredecibilidad.

2. Produce un impacto tremendo, su incidencia produce un efecto desproporcionadamente grande. Las Consecuencias.

3. Inventamos explicaciones de su existencia después del hecho (a posteriori), con lo que se hace explicable y predecible (predictibilidad retrospectiva). Podemos evaluar las cosas sólo después del hecho, tenemos la ilusión de comprender (pensamos que “lo habíamos visto venir”). Lo extraordinario se vuelve ordinario, los expertos se lamentan de no haberlo predicho. La explicabilidad retrospectriva.

A medida que el mundo es más complejo y está más conectado los cisnes negros tienen mayores consecuencias. El efecto de los cisnes negros ha ido en aumento.

Ejemplos de cisnes negros negativos: La mayoría de guerras, 1ª Guerra Mundial, ascenso de Hitler, Sarajevo, aparición del fundamentalismo islámico, crisis bursátil 1987, atentado terrorista 11 de septiembre de 2001 de las torres gemelas, tsunami en el Pacífico en diciembre de 2004, huracán Katrina, desapariciones y/o fusiones de empresas (Digital, Pan – Am…), crímenes cometidos por personas “normales”, …

Ejemplos de cisnes negros positivos: desaparición del bloque soviético, Internet, ordenador personal, viagra, penicilina, Google, Facebook, rayo láser, Sagas (Harry Potter, Star Wars, Twilight, Millenium… Código Da Vinci), numerosos autores de éxito rechazados en un primer momento por editores, que nos toque la lotería, el Post – it (3M), Descubrimiento de América (Colón)…

Podemos intentar protegernos de los cisnes negros negativos mientras nos beneficiamos de los positivos.

Uno puede dedicarse a buscar cisnes negros de tipo positivo con el método de la serendipidad (hallazgo fortuito ocurrido mientras se va en busca de otra cosa), llevando al máximo nuestra exposición a ellos. La estrategia de los descubridores y emprendedores es confiar menos en la planificación de arriba abajo y centrarse al máximo en reconocer oportunidades cuando se presentan y juguetear con ellas (método del ensayo y error, tratar de reunir tantas oportunidades de cisne negro como se pueda).

La ilusión de la predicción. Nos pasamos gran parte de nuestra vida preocupados por el futuro, tratando de anticipar lo que sucederá, con el fin de proteger a nuestras familias y maximizar nuestras oportunidades. Los expertos analizan los sucesos y noticias en la televisión, y ofrecen sus predicciones. El Gobierno, los sociólogos, los departamentos de estadística, y la industria informática acumulan montañas de datos que luego utilizan para anticipar y predecir los riesgos a los que nos enfrentamos. No somos muy buenos a la hora de predecir los fenómenos realmente importantes. Nuestra capacidad se reduce a las predicciones sencillas en entornos sencillos. Como máximo, somos capaces de anticipar el número de accidentes que va a haber esta semana en nuestras carreteras. 

Las probabilidades de los cisnes negros no son computables, pero sí podemos tener una idea muy clara de sus consecuencias. Esta es una ideafuerza para la gestión de la incertidumbre: para tomar una decisión tenemos que centrarnos en las consecuencias (que podemos conocer) más que en la probabilidad. Estar preparado ante la aparición de los cisnes negros es más importante que dedicarle tiempo y esfuerzo a calcular la probabilidad de su ocurrencia. Resumiendo: para que no nos ocurra lo que al “pavo de Russell” hay que estar preparado para lo inesperado (que a diferencia de los pavos, sí podemos imaginar) pero sin preocuparnos de cuándo ocurrirá.

“Mediocristán” o “Extremistán”

Mediocristán se refiere a los fenómenos que se pueden describir con conceptos estadísticos comunes, como la distribución gaussiana, conocida por todos como la “curva de campana”.

En la provincia utópica de Mediocristán los sucesos particulares no aportan mucho individualmente, sólo de forma colectiva. Cuando la muestra es grande, ningún elemento singular cambiará de forma significativa el total. La observación mayor seguirá siendo impresionante pero, en última instancia, será insignificante respecto a la suma.

Mediocristán: no escalable, los ganadores reciben un pequeño segmento del pastel, el total no está determinado por un solo caso u observación, si se observa durante un rato puede llegar a saber qué pasa, fácil predecir a partir de lo que se ve y de extenderlo a lo que no se ve, los sucesos se distribuyen según la curva de campana.

Extremistán se refiere a los fenómenos en los que un único evento o persona distorsionan radicalmente la distribución. En Extremistán las desigualdades son tales que una única observación puede influir de forma desproporcionada en el total.

Extremistán puede producir Cisnes Negros. En Extremistán tendremos problemas para averiguar la media de una muestra, ya que puede depender muchísimo de una única Observación.

Extremistán: Escalable, efectos el ganador se lo lleva todo (desigualdad), vulnerable al cisne negro, el total estará determinado por un pequeño número de sucesos extremos, lleva mucho tiempo saber qué pasa, difícil predecir a partir de información pasada, la distribución de la probabilidad es como cisnes grises mandelbrotianos (científicamente tratables) o como cisnes negros completamente intratables.

El error de la confirmación. Nos centramos en segmentos preseleccionados de lo visto, y a partir de ahí generalizamos en lo no visto. Puede ser un error peligroso. La afirmación de que no hay ninguna prueba sobre la posibilidad de los cisnes negros, no debe confundirse con la afirmación de que existen pruebas de no posibles cisnes negros.

El problema de la Inducción o los “cisnes negros” en Ibermática.

Tras esta extensa introducción vamos a explicar brevemente  cómo utilizamos la incertidumbre en los proyectos de I3B, relacionados con los Sistemas Expertos para el Apoyo a la Decisión en Tiempo Real.

En principio, lo que se intenta modelizar, en cualquier contexto, ya sea médico, mantenimiento predictivo en industria, detección de anomalías y fraudes en redes de agua (consorcios) o sociales, e incluso, en la vigilancia competitiva, es el caos. Y para modelizar dicho caos, lo que se utilizan son históricos que explican el comportamiento de los negocios, en su vertiente más general, aplicando algoritmia estadística o de aprendizaje sobre dichos datos. Es lo que en el post anterior se denomina “La ilusión de la predicción”.

Podemos predecir lo que va a ocurrir en base a lo ocurrido en el pasado, con un nivel de confianza determinado, que viene dado por la probabilidad de ocurrencia con respecto a número de casos diferentes observados en el pasado. Por ejemplo, si en el pasado, el 1 de agosto ha habido mucho tráfico en cierta carretera, lo probable es que el próximo 1 de agosto, ocurra lo mismo. Para ello, ciertos algoritmos de Minería de Datos son capaces de extraer cientos de reglas de los históricos de forma automática, y lanzarlas sobre los datos presentes para clasificar el futuro. Cada regla es una pequeña porción de la realidad, y el conjunto de todas, ejecutadas en sistemas expertos en paralelo, modelan un sistema caótico. Hemos resuelto el problema de la incertidumbre.

Pero es cierto que lo normal es que estas predicciones no superen un 95% de confianza, en los mejores casos. Siempre  queda un 5% (dependiendo del entorno, estos porcentajes varían), que los sistemas de predicción (unos mejores que otros, por eso es bueno generar sistemas híbridos), no son capaces de predecir, y en algunos casos, ni de detectar.  Y aquí es dónde los sistemas de decisión en tiempo real “se la juegan”. Lo fácil es saber cuál es la normalidad, (la campana “grande” de Gauss), pero, ¿qué decidir en los extremos? ¿Cuál es el umbral de confianza a partir del cuál defino mis acciones y discrimino falsos postivos de verdaderos negativos?

Para la gestión de esta “incertidumbre residual“, Ibermática, en sus modelos predictivos para las aplicaciones de decisión, han incorporado lo que denominan una “Lógica Proposicional Negativa“, es decir, el proceso de creación de reglas es el general, aplicando Minería de Datos, y se realizan dos acciones:

– Por un lado, se seleccionan aquellas reglas que modelan la normalidad (> umbral de confianza).

– Por otro lado, se seleccionan aquellas reglas residuales (normalidad < umbral de confianza), y cuando en el futuro, un evento ejecuta dicha regla, se genera una alerta para ser evaluada.

– Finalmente, se aplica la “lógica proposicional negativa” a las reglas del primer punto, de forma que todo aquello que se “salga” de la normalidad, es susceptible de generar alerta.

Con estas fases, estamos cumpliendo con la tesis del cisne negro, detectar aquellos eventos que se salen de la normalidad, o cuya confianza es tan pequeña, que cuando ocurren, son susceptibles de análisis.

Por último, aplicando algoritmos semánticos a los procesos de Minería estáticos, la conjunción de ambas tecnologías ofrecen la posibilidad de inferencia de nuevo conocimiento sobre el extractado, pero de una forma que permite extraer relaciones no evidentes entre los datos. Por ejemplo, que el nivel de aceite de un motor baje no implica en un modelo automático de deducción que genere una predicción de incidencia, y que la vibración de los rodamientos de otra pieza de un equipo, tampoco, pero la conjunción de ambas, incide directamente en que el equipo se estropee en un umbral de tres semanas. Y la inferencia de esta relación es extraída automáticamente del sistema de históricos gracias a la tecnología aplicada en nuestros modelos (GuideS).

Efectivamente, la distorsión de las pruebas silenciosas, es decir, la falta de información sobre todas las variables que pueden entrar a “jugar” dentro de los modelos, es un problema típico.  Si en un análisis de comportamientos de ventas, sólo nos fijamos en los registros de ventas, tendremos ciertas conclusiones, pero si además, agregamos una segmentación demográfica por barrios, y el tiempo atmosférico de cuándo se realizaron dichas ventas, podremos obtener conclusiones como que cuando llueve, es principio de mes, y a partir de las 6 de la tarde, ciertos centros comerciales cercanos a colegios disparan sus ventas.

Pero, ¿cómo encontramos y relacionamos dicha información no relevante a “a priori”. Tenemos una oportunidad única: la aplicación de minería de datos a los datos distribuidos en la red semántica bajo el paraguas de Linkeddata. Por primera vez, podemos unir los razonadores semánticos a sistemas expertos basados en reglas obtenidas a partir del análisis masivo de “tripletas” semánticas públicas. Y los resultados que estamos obteniendo son, como poco, increíbles. Por fin, podemos ofrecer a nuestros clientes un valor añadido a su información interna, descubriendo conclusiones no evidentes entre, aparentemente, desconexos. Las posibilidades de plataformas como GuideS aplicadas a los negocios de nuestros clientes están abriendo una nueva posibilidad de análisis, aquel que aprovecha “los cisnes negros positivos”.

GuiDes en Fraude Social

Jul 19, 2011   //   by wpuser   //   S.Expertos  //  Comentarios desactivados en GuiDes en Fraude Social

GuiDes es una plataforma de Apoyo a la Decisión en Tiempo Real, que integra las más novedosas técnicas en tratamiento de información para extraer conocimiento inferido, de forma que permita predecir comportamientos a futuro, y en base a estas clasificaciones, segmentaciones y prospectivas, “alertar” a los usuarios expertos sobre en qué parte del total de la información tienen que “enfocar” los esfuerzos de análisis avanzado. De esta forma, se cambia el paradigma de utilizar el 80% del tiempo en revisar el 100% de la información sin conocer “a priori”, dónde esta información es válida, y obteniendo un ROI de la extracción de tan sólo el 20% de las alerta importantes, autilizar el 20% del tiempo en analizar el 80% del las alertas realmente relevantes.

En el contexto del Fraude Social, Ibermática se ha unido a SAS y a Deneb para desarrollar una plataforma global de ayuda a la gestión de aquellos posibles “círculos” de riesgo en políticas sociales, en base a la integración de los sistemas actuales de las Administraciones Públicas y Empresas que deseen conocer cuál es su estado actual con respecto al Fraude interno y externo, así como suministrarles una Herramienta Global que satisfaga las necesidades de detección precoz del fraude, así como de integración del conocimiento experto disperso en la Organización en un repositorio único, común y compartido.

 

 

Los objetivos de GuiDes Fraude Social son los siguientes:

•Ayuda a los técnicos en la instrumentación de reglas para el seguimiento y control de la concesión de ayudas sociales.
•Detección de anomalías en las pautas de comportamiento.
•Sistema de alertas sobre casos inciertos.
•Sistema de representación gráfica de zonas con probabilidad alta de fraude.
•Plataforma de integración de información y seguimiento de la correcta utilización de las ayudas.
•Aprendizaje automático ante nuevos casos de fraude.
GuiDes Fraude Social está configurado con los siguiente módulos:
  • Integración de fuentes de información (ETL).
  • Modelo automático de detección de fraude
  • Control de Padrón.
  • Detección de anomalías en las pautas de comportamiento.
  • Sistema de alertas sobre casos inciertos.
  • Sistema de representación gráfica de zonas con probabilidad alta de fraude.
  • Aprendizaje automático ante nuevos casos de fraude.
  • Análisis de Redes Sociales
  • Módulo de aprobación de reglas e introducción de conocimiento técnico en el sistema.
  • Motor de reglas y ejecución de los controles.
  • Representación gráfica de la información y gestión de alertas

Estado del Arte.

En la década de los 80, las soluciones tecnológicas al respecto de la detección y control del fraude se basaban en la implementación de reglas programadas y técnicas de gestión de alertas que identificaban patrones específicos buscados.

En la década de los 90, se comenzaron aplicar nuevas tecnologías, tales como las búsquedas den bases de datos, la combinación de los datos, informes que reportaban eventos que superaban umbrales determinados de alertas, y básicamente, la consulta reactiva “a posteriori” en grandes volúmenes de datos con el objetivo de encontrar discrepancias (anomalías) sobre la normalidad.

Hoy en día, los rápidos avances en la tecnología, permiten construir modelos predictivos basados en comparativas estadísticas de patrones de actuación, así como el análisis de redes sociales que muestran, de forma gráfica y geoposicionada, vínculos entre agentes y su posible estado fraudulento. Además, los sistemas tienen una gran capacidad de aprendizaje sobre las actuaciones generadas en base a las alertas detectadas.

 

 

 

Integración de fuentes de información

•Acceso a cualquier tipo de información tanto estructurada como no estructurada. Aplicación de técnicas de calidad de datos

 •Asociatividad, “matching” de valores “similares”, completitud de registros…

•Posibilidad de integrar información de reglas de fraude de otros sistemas de fraude ya existentes

•Minería de Textos y Web

 

 

Cuadro de Mando de Alertas

 

•Alertas ordenadas por severidad / probabilidad de fraude

•Generadas en tiempo real mediante reglas, detección analítica de valores anómalos y modelos predictivos

•Alertas para personas, empresas y redes de empresas

•Asignación de alertas a personas

Gestión de Reglas

Espacio Colaborativo de Conocimiento Experto

•Plataforma del conocimiento de técnicos e inspectores.

•Una fuente de datos única y fiable

•Entorno colaborativo entre técnicos

Modelos predictivos

•Situaciones anómalas

•Relaciones no evidentes

•Comportamientos sospechosos.

•Minería de datos.

Detección de Patrones y Correlación de Eventos de Forma Efectiva

 •Clasifican la información en grados de pertenencia o no a un determinado patrón de riesgo de fraude.

A partir de un grupo de hechos conocidos (eventos) se genera un grupo de reglas (axiomas)

•Empresas o individuos que se desvían de los comportamientos de su segmento, en cuanto a horas extras declaradas, número de empleados dados de alta, incrementos injustificados de bases de cotización

•Búsqueda de variables ocultas que han determinado comportamientos fraudulentos en el pasado: altas-bajas de trabajadores, ceses de actividad, falsos autónomos, fraude en prestaciones por desempleo…

 

Representación de la información

•Acceso integrado desde la alerta al detalle de los casos sospechosos

 •Visión conjunta de indicadores de fraude detectados automáticamente

•Monitorización de métricas, a través de un cuadro de mando, para determinar la efectividad y eficiencia de las medidas antifraude

 

 

Detección de fraudes del padrón

Por posicionamiento de direcciones en la cartografía catastral de los ayuntamientos.

 

Análisis de Relaciones – Sugerencia de Plan de inspección (Personas -> Empresas -> Contactos)

 

 

En definitiva, Guides Fraude Social, es una herramienta completa que permite la gestión avanzada en la detección de fraude social, basándose en las últimas tecnologías de analítica, movilidad, redes sociales y geoposición, integrando los sistemas propietarios de los clientes en un sistema de decisión en tiempo real automático.

 

 

Resumen:

 Detección y generación de alertas gracias a una aplicación combinada de métodos.

Gestión e integración de datos procedentes de múltiples fuentes, tanto externas como internas.

Análisis de redes sociales para poder ir más allá del análisis de entidades aisladas.

La gestión de casos integrada proporciona un entorno unificado de investigación.

Sistema inteligente de gestión del conocimiento de laboratorios para procesado de cultivos microbiológicos

Jul 15, 2011   //   by oa.usun   //   Semántica  //  1 Comment

El objetivo general ha sido llevar a cabo una investigación en tecnologías de visión y de inteligencia artificial donde hemos desarrollado un nuevo sistema inteligente de procesado de cultivos microbiológicos.

Se ha resuelto el problema de los cuellos de botella que el procesado de cultivos microbiológicos representa para los laboratorios clínicos.
Los procedimientos manuales tienen un impacto negativo en la eficiencia y productividad del laboratorio, dificultan la integración del diagnóstico con el historial del paciente y alargan el tiempo de espera del paciente.

Los retos principales han sido:
• El diseño de un sistema inteligente que controle de una forma integral las fases de preparación, incubación y diagnóstico de cultivos mediante técnicas de visión artificial y otros.
• La definición de un sistema inteligente de análisis de datos que permita implementar la previsión de epidemias.

Se han estudiado nuevas soluciones para manipular los cultivos, analizar el crecimiento de microorganismos y procesar toda esta información para realizar un diagnóstico rápido y fiable.

En este sentido, el proyecto ha estado orientado a los siguientes objetivos tecnológicos parciales:

• El diseño de un sistema integral de manejo de cultivos.


• La definición de un modelo de reconocimiento de imagen para controlar y analizar el crecimiento de las colonias.


• El diseño de un sistema inteligente de procesado y análisis de datos que permita predecir alarmas sanitarias.

Todas estas mejoras se han traducido principalmente en:

Reducción de errores, aumento de la productividad, aumento de la seguridad, y aumento de la satisfacción laboral.

Los avances científicos y técnicos que han supuesto la consecución de los objetivos del proyecto son los siguientes:

– Nuevos modelos de análisis de imagen para el control y análisis de colonias de bacterias.
– Un sistema inteligente de análisis de datos y detección de alertas sanitarias.

Se han integrado diferentes agentes inteligentes utilizando técnicas de razonamiento y de gestión del conocimiento (web semántica, ontología OWL, minería de datos, sistema experto), de manera que puedan entender el contexto local y compartir esta información para el correcto funcionamiento de aplicaciones e interfaces inteligentes en un laboratorio clínico.

La utilización de la tecnología de ontologías en este proyecto es clave debido a que el conocimiento que un técnico de laboratorio posee sobre un diagnóstico es difícilmente transferible.

Es muy importante disponer en todo momento de los datos sanitarios de un paciente. Gracias a los estándares sanitarios, entre los cuales el HL7 es el más extendido, la información sanitaria de un paciente está disponible en cualquier momento. Es por ello que este proyecto ha contribuido al estudio de estas interfaces en este área de operaciones.

También este proyecto ha permitido avanzar en la investigación de la aplicación de la minería de datos y  en el proceso de extracción de conocimiento KDD, realizando análisis sobre datos históricos y aplicando algoritmos de descubrimiento de conocimiento de forma que han generado un conjunto de patrones sobre los datos.

 

Este proyecto ha permitido la investigación de estas tecnologías en el ámbito de laboratorios de análisis clínicos.

Mantenimiento Predictivo en Procesos Industriales. Solución vertical Ibermática – SAS

Jul 11, 2011   //   by wpuser   //   S.Expertos  //  1 Comment

El Mantenimiento Predictivo, a diferencia del Preventivo, que asume que los equipos, máquinas e instalaciones siguen cierta clase de comportamiento estadístico, verifica muy de cerca la operación de cada máquina en su entorno real. Esto implica un seguimiento del desgaste de piezas o componentes de equipos críticos a través del análisis de síntomas y evaluación estadística extrapolando ese comportamiento al futuro para determinar el punto exacto de cambio. Con los resultados de inspecciones, medidas y controles del nivel de condición de los equipos, y cotejando esta información con un histórico de incidencias, es posible anticipar averías y evitar roturas y paradas de producción. Ambos tipos de mantenimiento se complementan a la perfección, pues el Predictivo permite decidir cuándo hacer el Preventivo.

El Mantenimiento Predictivo es, por tanto, un sistema de control inteligente que permite advertir la tendencia a entrar en riesgo de un bien mediante el monitoreo de condición, esto es, la elección, medición y seguimiento de los parámetros relevantes que representan el buen funcionamiento de la máquina, su contexto, los históricos de incidencias, la ubicación, la época del año, y todas aquellas variables, que, de forma automática, el sistema detecta como “influyentes” con una posible incidencia futura, sin tener que realizar estudios previos al respecto.

 

Ibermática, junto a SAS, ha desarrollado un sistema vertical de Mantenimiento Predictivo integrando nuestro conocimiento de los procesos de mantenimiento de SAP con el motor de inteligencia estadística y predictiva de SAS. Esta colaboración nos permite ofrecerle la más avanzada solución integral para el tratamiento de los procesos de Mantenimiento Industrial. Si desea conocer las ventajas que aporta esta tecnología, contáctenos.

Análisis y predicción de lluvias basado en el vapor de agua gps

Jul 8, 2011   //   by jc.cantera   //   Minería de Datos  //  7 Comments

La lluvia es uno de los procesos fundamentales del ciclo hidrológico tanto desde el punto de vista ambiental como humano. La lluvia es la fuente de agua de la vegetación natural, así como de los cultivos. También es el origen de la mayoría del agua de consumo humano, tanto doméstico como en la industria, servicios, etc.

Por último, cabe citar a la lluvia como origen de riesgos naturales, tanto por la ausencia de la misma como por la ocurrencia de fenómenos torrenciales. En las zonas de clima mediterráneo esta situación es especialmente evidente: se trata de zonas en general deficitarias en agua, con precipitaciones escasas e irregulares y donde se dan más o menos frecuentes episodios torrenciales, que causan daños en el medio y grandes pérdidas económicas y humanas.

Por todo ello es fundamental avanzar en el conocimiento de la lluvia como proceso natural, herramienta para la gestión de este valioso recurso y para la predicción de riesgos asociados a eventos extremos.

Una de las variables clave en la ocurrencia de precipitaciones es el contenido en vapor de agua atmosférico. Múltiples estudios han establecido la existencia de niveles altos de vapor de agua en la atmósfera previos a la ocurrencia de precipitaciones intensas en la zona mediterránea. Sin embargo aspectos como el tiempo entre el pico de vapor de agua atmosférico y la ocurrencia de la lluvia o su intensidad no se encuentran en la actualidad satisfactoriamente resueltos, debido en parte a la complejidad del proceso y en parte a la dificultad de determinar el contenido en vapor de agua atmosférico. El GPS durante esta última década se ha convertido en un instrumento de gran interés en meteorología. Esto es debido a su probada eficacia para la estimación del contenido en vapor de agua de la atmósfera.

Este artículo presenta un análisis experimental que establece la relación entre las variaciones del contenido en vapor de agua y de la presión atmosférica, con las lluvias observadas en el periodo 2005-2010, en Pamplona.

Para tratar de predecir el momento y cantidad de precipitaciones, especialmente las copiosas, en Ibermática hemos realizado un estudio de minería de datos con los datos de Fecha, Presión atmosférica, Vapor de agua estimado por GPS y Precipitación.

Buscando correlaciones entre pares de atributos, se observa que en ningún caso llega al 30%. Aún así, se inicia un proceso de estudio de minería de datos, elaborando un modelo de clasificación con resultados, que predice y acierta un alto porcentaje de casos, pero siempre que las precipitaciones sean bajas o nulas.

 

La escasez de correlación directa entre datos se ve en la mezcla aparentemente azarosa de los colores que representan valores de los parámetros en los siguientes gráficos y en la escasa agrupación que presentan (excepto en precipitaciones muy bajas, que no son significativas):

 

Como se trata de determinar más precisamente las precipitaciones mayores, especialmente las más intensas, se analizan los datos desde el punto de vista temporal tratándolos como una serie, de forma que se tenga en cuenta la evolución de los parámetros. Para detectar los casos de precipitaciones mayores, se eliminan del análisis los datos con precipitaciones nulas o muy bajas (Precipitación < 1).

El estudio se hace teniendo en cuenta los datos de 24 registros anteriores (24h) y un horizonte de previsión de N horas. Como método de aprendizaje y predicción el modelo incluye una red neuronal.

La red neuronal generada como resultado no predice con precisión la cantidad exacta de precipitación. Sin embargo, comparando la serie de datos reales con la predicción obtenida, se observa una gran similitud en la gráfica de precipitaciones, especialmente en los picos de precipitación, tanto en el tiempo, como en magnitud, obteniéndose una correlación en torno al 83% en el mejor de los casos.

Acostumbrados como estamos a ver siempre en los mapas del tiempo las isobaras, sorprende que los mejores resultados se dan cuando se excluye la presión del conjunto de datos.

De esta forma, se concluye que tratando los datos como serie temporal, considerando la evolución de los parámetros en el tiempo, y desechando los datos no significativos en los que la precipitación es nula, se pueden anticipar los momentos de fuerte precipitación, en un grado muy aproximado en cuanto a magnitud.

DocThor – Un auto-catalogador de Documentos automático en función del contenido

Jul 5, 2011   //   by wpuser   //   Semántica  //  3 Comments

 

Desde el departamento de IA,  hemos creado un pequeño aplicativo, que con técnicas de Minería de Textos y Algoritmos de Clasificación Aplicados, permite catalogar documentos en función de su contenido, en tres modos de trabajo:

– Manual

– Aprendizaje Supervisado.

– Aprendizaje No Supervisado.

 

 

 

 

 

 

 

La filosofía del aplicativo es sencilla. Tenemos un conjunto de categorías, y dentro de las mismas, un conjunto de Tags asignados. Un Tag puede estar más de una categoría. Según el modo de trabajo, las categorías son introducidas por los usuarios expertos (modo Manual), o son definidas de forma automática por el sistema, de dos maneras:

– Aprendizaje Supervisado:

Existen ya documentos catalogados con anterioridad (histórico), y el sistema, en base al contenido de dicha catalogación, extrae de los “tags” más representativos de cada categoría (se realiza la clasificación a partir de un árbol de decisión), y crea un modelo de clasificación que se evalua contra el resto de documentos no categorizados.

 

 


 

 

-Aprendizaje No Supervisado.

En este caso, no existe ningún documento categorizado, y el sistema, por similitud de contenido entre los documentos, los clasifica en “clusters” de conocimiento (segmentación de la información), en base a redes neuronales autoasociativas (SOM), que además, como veremos a continuación, permiten crear un mapa “GIS” que representa dicho conocimiento.

Una vez que los documentos ya están segmentados, se sigue el mismo proceso que en el Aprendizaje Supervisado, para la extracción de los “tags” representativos asignados a la categorías. En este caso, las categorías tendrán nombres genéricos (CategoriaA, B, …), y tendrá que ser el usuario experto, “a posteriori”, el que les de nombres en función del contenido.

 

 

 

 

 

 

“Vectorización de los documentos”

Hemos comentado que la clasificación se hace en función del contenido del documento. Efectivamente, gracias a una técnica de Minería de Textos, denominada “vectorización”, seleccionamos las palabras del documentos, las “lematizamos” (tomamos su raíz), y después, generamos un vector que contiene tantas columnas como palabras tenga el conjunto de documentos, y tantas filas como documentos. El valor de cada columna es la frecuencia relativa inversa de la palabra con respecto al documento, es decir, lo relevante que es para el documento (cuantas más veces se repita, más relevante), e inversamente proporcional a lo repetida que sea en el resto de documentos (si en todos los documentos, en un entorno de contabilidad, por ejemplo, aparece “cuenta”, dicho término no es relevante en general, para clasificar los documentos…).

En la siguiente imagen se muestra un ejemplo de los documentos “vectorizados” del ejemplo anterior:

 

 

 

 

En este caso (ejemplo de las noticias de la intranet de Ibermática), el árbol de decisión utilizado para categorizar generado de forma automática es el siguiente (árbol de decisión generado por el sistema):

 

Por último, como los documentos están “vectorizados”, por comparación de vectores, y otras técnicas (SOM), se puede generar un mapa conceptual en dónde los documentos más cercanos en un mapa serán los que estén en los mismo “valles”, mientras que las montañas indicarán ausencia de documentos, y separación entre segmentaciones “temáticas”:

Los documentos pueden ser de cualquier tipo (word, excel, pdf, http, xml, …), y estar ubicados en directorios concretos, bases de datos, gestor de contenidos  o en Web.

DataMining – El futuro inmediato del DatawareHouse

Jul 5, 2011   //   by wpuser   //   Minería de Datos  //  2 Comments

Estamos en un momento en el que las empresas cada vez demandan más control y conocimiento sobre toda la información que les compete, sobre todo aquella que está en formato no estructurado (actas, correos, documentación, webs, etc…), y que cada vez, debido a sus volúmenes, es más intratable.

Sin embargo, en los ambientes académicos y universitarios (así como en las administraciones anglosajonas, entornos económicos, militares y de seguridad), las herramientas que permiten tratar dicha información ha alcanzado una edad muy madura. Está ocurriendo algo similar que recuerda a la evolución del Business Intelligence en las empresas. No hace demasiados años, mientras en el mundo de la información en general se destinaban ingentes esfuerzos en obtener informes estáticos que cambiaban cada pocos días en función de las necesidades del cliente (¿quién no lo ha vivido?), se empezaba a hablar de cubos, dimensiones, medidas, DatawareHouse, cosas que sonaban más o menos a chino. Y aquellos que supieron estar atentos, (leáse Cognos), fueron los que se llevaron el gato al agua. Hoy en día, ¿qué empresa que presuma de tener un buen sistema de gestión prescinde de sus cubitos? Pues lo mismo está empezando a ocurrir con el DataMining y las búsquedas semánticas.

Y los primeros indicadores ya está ahí, Oracle publicita su producto OracleDataMining, para detectar relaciones entre sus datos y análisis de predicción, SAP ha comprado a BusinessObject Enterprise para liderar este movimiento, Microsoft incorpora Datamining en SQL Server, IBM ha comprado a SPSS Clementine para lo mismo, Google ha desarrollado sus propias herramientas para detectar quién sabe qué en la red, y no sigo contando. Es decir, que auguro que dentro de cinco años, aquel que no tenga algo de Datamining en su sistema, (que no deja de ser una explotación inteligente del DatawareHouse, pero automática), no será nadie en sistemas de gestión.

En Ibermática llevamos años trabajando con sistemas que analizan automáticamente grandes volúmenes de información, en base a algoritmos estadísticos y de Minería de Datos, (aprendizaje supervisado y no supervisado),  que de forma automática extraen las “reglas del negocio” inherentes en los datos, permitiéndonos integrar dichas reglas en sistemas expertos, que “a posteriori”, con nuevos datos de entrada, discriminan en tiempo real el conocimiento relevante de los mismos, permitiendo:

– Detectar anomalías en los datos de forma automática

– Segmentar la información en diferentes conjuntos de atributos, perfilando agentes de negocio de forma desasistida

– Descubrir relaciones no evidentes entre los datos, que expliquen el porqué de ciertos comportamientos no habituales

– Predecir lo que puede ocurrir, con un grado de fiabilidad, en función de los datos presentes y los históricos analizados por el sistema.

Estas herramientas se pueden aplicar a cualquier contexto empresarial, como en industria – mantenimientos predictivos, medicina ( los humanos en el fondo somos máquinas con un mantenimiento complejo), banca, seguros, marketing, etc…

Minería de Datos

Minería de Datos

La Inteligencia Artificial (IA) se está imponiendo en diversas disciplinas tecnológicas y forma parte del software, la minería de datos o los asistentes virtuales, sin que tenga una visibilidad clara para el usuario. De ahí reside la necesidad de conectar el mundo de la investigación y la universidad con el de la empresa, como postula Ibermática. Su relevancia en el mundo corporativo es crucial como elemento integrado en áreas como el marketing, la gestión de la información o la prospección de redes sociales.

El estado actual de la Inteligencia Artificial (IA) y su aplicación en el negocio fueron los ejes centrales del encuentro organizado por Computing, en colaboración con Ibermática, y en la que participaron expertos en la materia tanto del entorno empresarial como universitario y de I+D. La IA es una materia que se puede definir como una rama de la Computación dedicada al desarrollo de agentes racionales no vivos que buscan emular el comportamiento humano a través de algoritmos capaces de obtener respuesta de datos de cualquier procedencia. Una ciencia por tanto que para el común de los mortales parece vivir en el plano de la ciencia ficción y alejada del mundo real, pero que sin embargo está más incorporada al entorno cotidiano de lo que puede parecer. Así lo constata Aitor Moreno de Leceta, responsable de Sistemas Inteligentes de Control y Gestión de Ibermática, “la IA se está imponiendo en casi todas las disciplinas informáticas. Las grandes empresas están integrando en sus paquetes minería de datos, reconocimiento de voz, asistentes virtuales, algoritmos genéticos para racionalizar procesos, reconocimiento de caracteres…”. Y es que aunque el usuario no lo ve, según Moreno, “utiliza buscadores, reconocimiento de matrículas, radares, agentes virtuales, semántica en redes virtuales, voz para acceso de minusvalías”, lo cual indica que se va imponiendo de forma silenciosa.

Desde Ibermática también se aprecia que existen muchas aplicaciones interesantes desarrolladas en centros y universidades pero que son difíciles de conectar con el tejido empresarial, “bien porque el mercado tiene las demandas pero no conoce estas soluciones, bien porque el ámbito universitario está más preocupado por publicar y tener sus índices de referencias, por lo que no se avanza más allá de la investigación básica y no llegan a la parte industrial”.

 

 

La Inteligencia Artificial se ha convertido en un componente básico en los procesos de negocio

Jul 5, 2011   //   by wpuser   //   S.Expertos  //  1 Comment

Estamos en un momento en el que las empresas cada vez demandan más control y conocimiento sobre toda la información que les compete, sobre todo aquella que está en formato no estructurado (actas, correos, documentación, webs, etc…), y que cada vez, debido a sus volúmenes, es más intratable. Sin embargo, en los ambientes académicos y universitarios (así como en las administraciones anglosajonas, entornos económicos, militares y de seguridad), las herramientas que permiten tratar dicha información ha alcanzado una edad muy madura. Está ocurriendo algo similar que recuerda a la evolución del Business Intelligence en las empresas. No hace demasiados años, mientras en el mundo de la información en general se destinaban ingentes esfuerzos en obtener informes estáticos que cambiaban cada pocos días en función de las necesidades del cliente (¿quién no lo ha vivido?), se empezaba a hablar de cubos, dimensiones, medidas, DatawareHouse, cosas que sonaban más o menos a chino. Y aquellos que supieron estar atentos, (leáse Cognos), fueron los que se llevaron el gato al agua. Hoy en día, ¿qué empresa que presuma de tener un buen sistema de gestión prescinde de sus cubitos? Pues lo mismo está empezando a ocurrir con el DataMining y las búsquedas semánticas. Y los primeros indicadores ya está ahí, Oracle publicita su producto OracleDataMining, para detectar relaciones entre sus datos y análisis de predicción, SAP ha comprado a BusinessObject Enterprise para liderar este movimiento, Microsoft incorpora Datamining en SQL Server, IBM ha comprado a SPSS Clementine para lo mismo, Google ha desarrollado sus propias herramientas para detectar quién sabe qué en la red, y no sigo contando. Es decir, que auguro que dentro de cinco años, aquel que no tenga algo de Datamining en su sistema, (que no deja de ser una explotación inteligente del DatawareHouse, pero automática), no será nadie en sistemas de gestión.

En Ibermática llevamos años tratando grandes volúmenes de datos de forma automatizada en base a algoritmos estadísticos, de aprendizaje supervisado y no supervisado, de forma que las “reglas de negocio” extraidas en base a estos estudios automatizados, se integran con sitemas expertos que son capaces de analizar en tiempo real nuevos volúmenes de información, detectando:

– Anomalías sobre la información

– Relaciones no evidentes entre los datos

– Perfiles de agrupamientos de atributos que defininen “de forma autónoma” agentes dentro del negocio.

– Predicciones sobre lo que va a ocurrir en el futuro, en base a los datos actuales y los históricos tratados.

Estas funcionalidades se pueden aplicar en todos los contextos empresariales, en industria para optimizar las planificacione sy los mantenimientos (mantenimientos predictivos), en medicina (los humanos somos máquinas complejas), en banca, seguros, y todo lo que se nos demande.

Red Neuronal

Red Neuronal

La Inteligencia Artificial (IA) se está imponiendo en diversas disciplinas tecnológicas y forma parte del software, la minería de datos o los asistentes virtuales, sin que tenga una visibilidad clara para el usuario. De ahí reside la necesidad de conectar el mundo de la investigación y la universidad con el de la empresa, como postula Ibermática. Su relevancia en el mundo corporativo es crucial como elemento integrado en áreas como el marketing, la gestión de la información o la prospección de redes sociales.

El estado actual de la Inteligencia Artificial (IA) y su aplicación en el negocio fueron los ejes centrales del encuentro organizado por Computing, en colaboración con Ibermática, y en la que participaron expertos en la materia tanto del entorno empresarial como universitario y de I+D. La IA es una materia que se puede definir como una rama de la Computación dedicada al desarrollo de agentes racionales no vivos que buscan emular el comportamiento humano a través de algoritmos capaces de obtener respuesta de datos de cualquier procedencia. Una ciencia por tanto que para el común de los mortales parece vivir en el plano de la ciencia ficción y alejada del mundo real, pero que sin embargo está más incorporada al entorno cotidiano de lo que puede parecer. Así lo constata Aitor Moreno de Leceta, responsable de Sistemas Inteligentes de Control y Gestión de Ibermática, “la IA se está imponiendo en casi todas las disciplinas informáticas. Las grandes empresas están integrando en sus paquetes minería de datos, reconocimiento de voz, asistentes virtuales, algoritmos genéticos para racionalizar procesos, reconocimiento de caracteres…”. Y es que aunque el usuario no lo ve, según Moreno, “utiliza buscadores, reconocimiento de matrículas, radares, agentes virtuales, semántica en redes virtuales, voz para acceso de minusvalías”, lo cual indica que se va imponiendo de forma silenciosa.

Desde Ibermática también se aprecia que existen muchas aplicaciones interesantes desarrolladas en centros y universidades pero que son difíciles de conectar con el tejido empresarial, “bien porque el mercado tiene las demandas pero no conoce estas soluciones, bien porque el ámbito universitario está más preocupado por publicar y tener sus índices de referencias, por lo que no se avanza más allá de la investigación básica y no llegan a la parte industrial”.

Buscadores semánticos en medicina: Codificación CIE-9 y Medicina Basada en la Evidencia

Jul 5, 2011   //   by wpuser   //   Semántica  //  4 Comments

El apoyo automático a las decisiones, principalmente debido al incremento en el volumen de información, en cualquier sector es vital para el negocio, pero en medicina lo es aún más, ya que se está trabajando con conceptos que afectan a la salud.

En Ibermática existe experiencia en la generación de buscadores de contenidos (con herramientas como Lucene, o Swish-e), en documentación, banca o mantenimiento de incidencias. Sin embargo, son buscadores planos, es decir, indexan la información de alguna manera (normalmente, con el algoritmo stemmer de Porter), reduciendo las miles de palabras de un documento a sus raíces (facturación -> factur, facturé -> factur, facturado -> factur), con lo que ya tenemos un índice por el que, posteriormente, navegaremos de forma inversa para buscar la información. Como apoyo a la indexación, existen tablas públicas de palabras no indexables “stopwords”, y diccionarios para la corrección automática de errores en base al algoritmos de distancias de Levenshtein.

Sin embargo, estos buscadores son “planos”, es decir, la relevancia de orden de los resultados a una búsqueda se basan simplemente en la función de “frecuencia”, asignada a un documento, que, básicamente, es proporcional a la “moda” de aparición de los términos buscados en cada documento, e inversamente proporcional a la aparición de dichos términos tienen en el conjunto de información.

(Por ejemplo, en un entorno de ventas, la palabra “pedido” no tendrá mucha relevancia para la indexación, ya que aparecerá en la mayoría de los documentos, es decir, no es un término que permita clasificar bien la información).

Los buscadores semánticos van un poco  más allá, e intentan, dentro de un dominio concreto, como lo pueda ser en este caso los diagnósticos médicos, seleccionar los mejores resultados en base a una búsqueda no tan lineal, sino dando un peso concreto a cada uno de los índices extraídos en el paso anterior. Para realizar esta asignación de pesos, o bien, utilizamos el conocimiento de un experto, como es el caso de la codificación CIE-9, o bien, nos basamos en estructuras ya definidas por dichos expertos, y que están accesibles en formato RDF. En ambos casos, estamos hablando de ontologías, que no dejan de ser la implantación de un conocimiento en una representación jerárquica.

En este articulo, se muestran dos aproximaciones, una, la generación de un buscador indexando información de una base de datos especializada e interna, y en la segunda parte, la búsqueda de la información de forma “inteligente” en fuentes externas e internet.

CIE-9. Codificación automática de diagnósticos.

Actualmente, cada vez que se produce un ingreso hospitalario, el médico especialista diagnostica la razón de la hospitalización, y esta, por ley, debe ser codificada mediante un sistema de códigos denominado CIE-9. Para ello, todos los hospitales tienen a cierto personal médico que no ejercen como tal,  sino que se dedican a codificar lo que sus compañeros codifican en Lenguaje Natural. En un Hospital, puede haber de media unas 20.000 hospitalizaciones anuales, lo que supone una carga asumible de 2.000 codificaciones a realizar al mes, es decir, 100 al día.

Sin embargo, la codificación automática se quiere ampliar a la atención primaria, en dónde, en un Hospital, puede haber una media de 60.000 consultas y 19.000 urgencias, lo que hace inviable un sistema manual.

Para ello, se está trabajando en la generación de la codificación automática de CIE-9, en base a lenguaje natural.  El médico introduce sus impresiones diagnósticas en un texto libre, y el sistema, centralizado, recoge dicha información, la trata, y en función de un estudio en la relevancia de las respuestas, decide si la codifiación selecionada es válida, con lo que la asigna directamente al diagnósito, o de lo contrario, si el sistema no puede decidirse por una en concreto entre varias, las sugiere al codificador humana, para que seleccione la correcta. El sistema “aprende” de estas acciones, de forma que ante textos similares, en próximas consultas, se seleccionará ya el código correcto.

Se sigue el procedimiento descrito anteriormente, se indexa la base de datos de conocimiento en base a los “lemas” contenidos en las palabras que no estén en la tabla “stopwords”, consiguiendo ya una base para un buscador “plano”. Para incorporar la semántica que permita “comprender” lo que realmente quiere decir el médico, se utilizan dos fuentes externas:

– Las jerarquías de la codificación CIE-9.

– Un diccionario médico de sinónimos y siglas.

En base a esta información, y con la ayuda de un “desambiguador” gramatical, es decir, un sistema que, en base a las frases introducidas (en este caso, a la información de las descripciones CIE-9), se determina la función gramatical de cada palabra, y por ende, de cada lema. Así, en los diagnósticos médicos, habitualmente, es más importante el sujeto, que el adjetivo.

Por ejemplo, en el siguiente texto escrito por un médico: “Dolor torácico prolongado sin alteraciones electrocardiográficas sugestivas de isquemia aguda y marcadores de daño miocárdico repetidamente normales“, en una primera criba, con las palabras en el texto, ya se realiza un filtrado de todas la información de la base de datos. Sin embargo, dentro de todos los posibles diagnósticos que pueden tener relación con este texto (en concreto, 22 diagnósticos), tenemos que seleccionar aquellos que mejor se “adecuen” a lo que, semánticamente, quiere decir el médico. Para ello, no tiene el mismo peso las palabras: normales (peso=30), isquemia (peso=30), torácico (peso=10), miocárdico (peso=10), es decir, isquemia tiene más peso que los adjetivos torácicomiocárdico, pero normal tiene más peso, puesto que puede ser que exista un “marcador anormal“.

Estos pesos permiten romper la “ambiguedad” semántica de los resultados, de forma, que de los 22 posibles códigos a seleccionar, (muestro los tres primeros en la imagen):

Ordenados en función de la moda, la frecuencia inversa, y los pesos semánticos de los lemas, se selecciona el código CIE-9 correcto (78651).

Para la realización del cálculo de la función gramatical, se ha utilizado la plataforma Treetagger, con enlaces al corpus español CRATER, aplicada sobre la jerarquía CIE-9 estándar.

El sistema se complementa con una gestión de sinónimos médicos, en base al diccionario de siglas médicas (Javier Yetano), y traducción automática de siglas a sus “traducciones” médicas.

 

Medicina Basada en la Evidencia.

 

El objetivo de este buscador es la generación de guías médicas que apoyen las decisiones a la hora de generar procedimientos, diagnósticos y pautas de actuación, especialmente, en entornos en donde parte de los médicos que toman las decisiones mas importantes inicialmente son residentes, con limitada experiencia clínica (hasta un 64% en el trabajo deMenéndez y cols.),  un colectivo que además suele mostrar adherencia al empleo de guías clínicas (82% en el mismo trabajo).

Para la confección de dichas guías, se accede a fuente de datos externas, de forma directa (fuentes de investigaciones, bases de datos especializadas, publicaciones de ensayos…), o de forma indirecta (generación de un meta-buscador en base a las respuestas de, por ejemplo, búsquedas en Google o Yahoo, a partir de la herramienta Dapper, entre otras….).

En este caso, la consulta que realiza el especialista también se escribe en lenguaje natural, pero se transforma en una serie de códigos utilizando un ontología muy conocida en el entorno médico, denominada SNOMED. Esta ontologia, por una parte, permite incorporar sinónimos, antónimos y un tesauro añadiendo más “expresividad” a la consulta inicial. Además, por otro lado, permite conocer la relación entre distintas patologías, diagnósticos y procedimientos, con lo que conforma un contexto preciso para realizar las búsquedas. La indexación se realiza con Sphinx, una herramienta que permite incorporar directamente los índices en bases de datos, (en algunas, no en todas), y la resolución de ambiguedades semánticas, en base a la ontología, a través de la Herramienta GATE, que permite tratar ontologías contextuales, y además, incorpora una ontología propia para el tratamiento de lenguaje natural en distintos idiomas.

Una vez obtenidos los textos de dichas fuentes, se ordenan y organizan en función de la misma función de frecuencias inversas, además de un peso dado por el tipo de fuente y su veracidad, y además, las fuentes encontradas se “anotan” para sus posteriores visualizaciones, incluyendo, en función de su contenido, “tags” de forma automática.

Finalmente, la información se presenta en forma guías, según la pirámide de Haynes,  que tiene, en la base, los estudios originales individuales; a partir de estos se construyen los documentos de síntesis que se obtienen de revisiones sistemáticas como las revisiones que se pueden encontrar en Cochrane; a continuación se encuentran las sinopsis en la que se describe de forma breva algunos estudios individuales o revisiones sistemáticas, como las encontradas en las revistas secundarias basadas en la evidencia; los sumarios albergan el siguiente escalón integrando las mejores evidencias disponibles de las capas inferiores para desarrollar guías de práctica clínica o documentos que abarcan una amplia gama de pruebas o evidencias, como por ejemplo, Clinical EvidenceNational Guidelines Clearinghouse; finalmente, en la cima del modelo, están los sistemas, en los que las características individuales del paciente se ligan automáticamente a la mejor y más actualizada evidencia que coincida con las circunstancias específicas del paciente y del médico, y que le proporciona a este los aspectos clave de la gestión del caso, como pueden ser los sistemas informatizados de apoyo a la toma de decisiones.

En definitiva, ambos proyectos consisten en la generación de buscadores en ámbitos diferentes (internos y externos), incluyendo unos pesos que ayuden a ordenar la información en función de un contexto determinado.  En ambos casos, la información contextual del paciente o del evolutivo en estudio, es una información que ayudará a la optimización de las respuestas (es decir, saber el sexo de un enfermo determinado puede ayudar a codificar mejor un diagnóstico, o a seleccionar mejor ciertos ensayos).

 

Por último, los dos proyectos se pueden llegar a complementar, siendo la codificación de un diagnóstico en CIE-9 una entrada más de la MBE, o permitiendo a la MBE incorporar información adicional a el motor de codificación que permita resolver ambiguedades de forma más óptima. El nexo de unión parece que puede ser SNOMED, ya que dicha plataforma contempla las traduccionesa CIE-9 y otros formatos.

 

Object Mining – Reconocimiento de objetos en entornos multimedia

Jul 4, 2011   //   by wpuser   //   Interacción  //  1 Comment

Desde Ibermática,  la unidad de Sistemas Inteligentes de Control y Gestión, a partir de librería gráficas y técnicas de I.A, ha ofertado un nuevo producto cuya funcionalidad consiste en la posibilidad de detectar objetos (indivíduos, automóviles, edificios) en fotografía y vídeos, de forma que sirva como ayuda a la documentación de soportes multimedia. Además de identificar los objetos en las imágenes, también permite identificar (si existe una base de datos entrenada) personas dentro de los soportes, o de qué edificio se está hablando.

Se basan en tres tipos de clasificadores, cada uno aporta una carcaterística especial, en función de la rapidez de aprendizaje, ratio de acierto y extracción de carcaterísticas principales. Los métodos son redes neuronales backpropagation, redes neuronales con un flitro PCA aplicado anteriormente (EigenVectores), Knn cercanos y SVM. La media de los cuatro métodos identifican la certeza de la identificación del objeto.

En el futuro, y debido a los cambios legales (LOPD) que suponen que los usuarios puedan demandar la identificación e incluso el borrado de aquellos archivos y vídeos en los que aparezcan sin su consentimiento, este tipo de aplicaciones será cada vez más demandado.

 

 

 

 

 

 

 

 

 

 

 

 

 

En este sentido, la aplicación utiliza, para la detección de personas, reconocimiento facial. Los métodos de control de acceso biométricos están actualmente en auge debido al incremento del control de seguridad en los distintos ámbitos empresariales y organizativos. Pertenecen a este ámbito aplicaciones basadas en huellas dactilares e iris de los ojos, entro otros. Sin embargo, a pesar de que existen múltiples trabajos relacionados con el reconocimiento facial, es difícil aplicar dicho reconocimiento a aplicaciones en el mundo real debido a los problemas de variación en la iluminación, posición y cambio de expresiones y aspecto. Además, los sistemas propuestos en laboratorio usualmente no contienen un volumen amplio de muestras ni de variaciones en las mismas que puedan utilizarse en aplicaciones dentro de entornos reales. Los trabajos realizados se enmarcan en el problema del reconocimiento del individuo, pero no en la autorización de accesos basada únicamente en el control facial, a pesar de que existen aplicaciones que combinan tarjetas con reconocimiento facial, centrándose más en la verificación que en la identificación. En este trabajo se propone un sistema robusto de clasificación en base a una red neuronal multicapa, cuya entrada serán fotografías de muestras faciales con distintas variaciones de iluminación, posición, e incluso de individuos con muestras tomadas en épocas diferentes, con un volumen de muestras que simula un entorno real. La salida no es el reconocimiento del individuo, sino la pertenencia de éste a la clase de autorizados o no autorizados. A través de estos experimentos, se demostrará que esta estructura relativamente sencilla es suficiente a la hora de seleccionar las características principales de los individuos, que posteriormente, y en el mismo proceso, permitirá a la red clasificar a los individuos correctamente ante la entrada en un control de accesos.

Se ha realizado un aplicativo que en base a redes neuronales, es capaz de identificar la “huella” facial de un usuario, y comparalar con el resto del “mundo”, para determinar la autorización o no del acceso di dicho usuario.

Para leer más:
http://www.springerlink.com/content/w034n675236665xl

Vídeos de  ejemplos en aplicaciones reales:

Detección Facial:

Entornos Multimedia:

 

 

Páginas:12»