Browsing articles in "Minería de Datos"

El problema de la Inducción (nombre técnico del “cisne negro”) o Problema del Conocimiento Inductivo

Jul 26, 2011   //   by oa.usun   //   Minería de Datos  //  1 Comment

Los “cisnes negros” han dado forma a la historia de la tecnología, la ciencia, los negocios y la cultura. Una pequeña cantidad de cisnes negros explica casi todo lo concerniente a nuestro mundo, desde el éxito de las ideas y las religiones, hasta la dinámica de los acontecimientos históricos y los elementos de nuestra propia vida personal. Casi ningún descubrimiento, ninguna tecnología destacable surgieron del diseño y la planificación, no fueron más que cisnes negros.

Los “cisnes negros” son sucesos improbables que tienen estos tres atributos:

1. Es una rareza, algo improbable, nada del pasado apunta de forma convincente a su posibilidad. Impredecibilidad.

2. Produce un impacto tremendo, su incidencia produce un efecto desproporcionadamente grande. Las Consecuencias.

3. Inventamos explicaciones de su existencia después del hecho (a posteriori), con lo que se hace explicable y predecible (predictibilidad retrospectiva). Podemos evaluar las cosas sólo después del hecho, tenemos la ilusión de comprender (pensamos que “lo habíamos visto venir”). Lo extraordinario se vuelve ordinario, los expertos se lamentan de no haberlo predicho. La explicabilidad retrospectriva.

A medida que el mundo es más complejo y está más conectado los cisnes negros tienen mayores consecuencias. El efecto de los cisnes negros ha ido en aumento.

Ejemplos de cisnes negros negativos: La mayoría de guerras, 1ª Guerra Mundial, ascenso de Hitler, Sarajevo, aparición del fundamentalismo islámico, crisis bursátil 1987, atentado terrorista 11 de septiembre de 2001 de las torres gemelas, tsunami en el Pacífico en diciembre de 2004, huracán Katrina, desapariciones y/o fusiones de empresas (Digital, Pan – Am…), crímenes cometidos por personas “normales”, …

Ejemplos de cisnes negros positivos: desaparición del bloque soviético, Internet, ordenador personal, viagra, penicilina, Google, Facebook, rayo láser, Sagas (Harry Potter, Star Wars, Twilight, Millenium… Código Da Vinci), numerosos autores de éxito rechazados en un primer momento por editores, que nos toque la lotería, el Post – it (3M), Descubrimiento de América (Colón)…

Podemos intentar protegernos de los cisnes negros negativos mientras nos beneficiamos de los positivos.

Uno puede dedicarse a buscar cisnes negros de tipo positivo con el método de la serendipidad (hallazgo fortuito ocurrido mientras se va en busca de otra cosa), llevando al máximo nuestra exposición a ellos. La estrategia de los descubridores y emprendedores es confiar menos en la planificación de arriba abajo y centrarse al máximo en reconocer oportunidades cuando se presentan y juguetear con ellas (método del ensayo y error, tratar de reunir tantas oportunidades de cisne negro como se pueda).

La ilusión de la predicción. Nos pasamos gran parte de nuestra vida preocupados por el futuro, tratando de anticipar lo que sucederá, con el fin de proteger a nuestras familias y maximizar nuestras oportunidades. Los expertos analizan los sucesos y noticias en la televisión, y ofrecen sus predicciones. El Gobierno, los sociólogos, los departamentos de estadística, y la industria informática acumulan montañas de datos que luego utilizan para anticipar y predecir los riesgos a los que nos enfrentamos. No somos muy buenos a la hora de predecir los fenómenos realmente importantes. Nuestra capacidad se reduce a las predicciones sencillas en entornos sencillos. Como máximo, somos capaces de anticipar el número de accidentes que va a haber esta semana en nuestras carreteras. 

Las probabilidades de los cisnes negros no son computables, pero sí podemos tener una idea muy clara de sus consecuencias. Esta es una ideafuerza para la gestión de la incertidumbre: para tomar una decisión tenemos que centrarnos en las consecuencias (que podemos conocer) más que en la probabilidad. Estar preparado ante la aparición de los cisnes negros es más importante que dedicarle tiempo y esfuerzo a calcular la probabilidad de su ocurrencia. Resumiendo: para que no nos ocurra lo que al “pavo de Russell” hay que estar preparado para lo inesperado (que a diferencia de los pavos, sí podemos imaginar) pero sin preocuparnos de cuándo ocurrirá.

“Mediocristán” o “Extremistán”

Mediocristán se refiere a los fenómenos que se pueden describir con conceptos estadísticos comunes, como la distribución gaussiana, conocida por todos como la “curva de campana”.

En la provincia utópica de Mediocristán los sucesos particulares no aportan mucho individualmente, sólo de forma colectiva. Cuando la muestra es grande, ningún elemento singular cambiará de forma significativa el total. La observación mayor seguirá siendo impresionante pero, en última instancia, será insignificante respecto a la suma.

Mediocristán: no escalable, los ganadores reciben un pequeño segmento del pastel, el total no está determinado por un solo caso u observación, si se observa durante un rato puede llegar a saber qué pasa, fácil predecir a partir de lo que se ve y de extenderlo a lo que no se ve, los sucesos se distribuyen según la curva de campana.

Extremistán se refiere a los fenómenos en los que un único evento o persona distorsionan radicalmente la distribución. En Extremistán las desigualdades son tales que una única observación puede influir de forma desproporcionada en el total.

Extremistán puede producir Cisnes Negros. En Extremistán tendremos problemas para averiguar la media de una muestra, ya que puede depender muchísimo de una única Observación.

Extremistán: Escalable, efectos el ganador se lo lleva todo (desigualdad), vulnerable al cisne negro, el total estará determinado por un pequeño número de sucesos extremos, lleva mucho tiempo saber qué pasa, difícil predecir a partir de información pasada, la distribución de la probabilidad es como cisnes grises mandelbrotianos (científicamente tratables) o como cisnes negros completamente intratables.

El error de la confirmación. Nos centramos en segmentos preseleccionados de lo visto, y a partir de ahí generalizamos en lo no visto. Puede ser un error peligroso. La afirmación de que no hay ninguna prueba sobre la posibilidad de los cisnes negros, no debe confundirse con la afirmación de que existen pruebas de no posibles cisnes negros.

El problema de la Inducción o los “cisnes negros” en Ibermática.

Tras esta extensa introducción vamos a explicar brevemente  cómo utilizamos la incertidumbre en los proyectos de I3B, relacionados con los Sistemas Expertos para el Apoyo a la Decisión en Tiempo Real.

En principio, lo que se intenta modelizar, en cualquier contexto, ya sea médico, mantenimiento predictivo en industria, detección de anomalías y fraudes en redes de agua (consorcios) o sociales, e incluso, en la vigilancia competitiva, es el caos. Y para modelizar dicho caos, lo que se utilizan son históricos que explican el comportamiento de los negocios, en su vertiente más general, aplicando algoritmia estadística o de aprendizaje sobre dichos datos. Es lo que en el post anterior se denomina “La ilusión de la predicción”.

Podemos predecir lo que va a ocurrir en base a lo ocurrido en el pasado, con un nivel de confianza determinado, que viene dado por la probabilidad de ocurrencia con respecto a número de casos diferentes observados en el pasado. Por ejemplo, si en el pasado, el 1 de agosto ha habido mucho tráfico en cierta carretera, lo probable es que el próximo 1 de agosto, ocurra lo mismo. Para ello, ciertos algoritmos de Minería de Datos son capaces de extraer cientos de reglas de los históricos de forma automática, y lanzarlas sobre los datos presentes para clasificar el futuro. Cada regla es una pequeña porción de la realidad, y el conjunto de todas, ejecutadas en sistemas expertos en paralelo, modelan un sistema caótico. Hemos resuelto el problema de la incertidumbre.

Pero es cierto que lo normal es que estas predicciones no superen un 95% de confianza, en los mejores casos. Siempre  queda un 5% (dependiendo del entorno, estos porcentajes varían), que los sistemas de predicción (unos mejores que otros, por eso es bueno generar sistemas híbridos), no son capaces de predecir, y en algunos casos, ni de detectar.  Y aquí es dónde los sistemas de decisión en tiempo real “se la juegan”. Lo fácil es saber cuál es la normalidad, (la campana “grande” de Gauss), pero, ¿qué decidir en los extremos? ¿Cuál es el umbral de confianza a partir del cuál defino mis acciones y discrimino falsos postivos de verdaderos negativos?

Para la gestión de esta “incertidumbre residual“, Ibermática, en sus modelos predictivos para las aplicaciones de decisión, han incorporado lo que denominan una “Lógica Proposicional Negativa“, es decir, el proceso de creación de reglas es el general, aplicando Minería de Datos, y se realizan dos acciones:

– Por un lado, se seleccionan aquellas reglas que modelan la normalidad (> umbral de confianza).

– Por otro lado, se seleccionan aquellas reglas residuales (normalidad < umbral de confianza), y cuando en el futuro, un evento ejecuta dicha regla, se genera una alerta para ser evaluada.

– Finalmente, se aplica la “lógica proposicional negativa” a las reglas del primer punto, de forma que todo aquello que se “salga” de la normalidad, es susceptible de generar alerta.

Con estas fases, estamos cumpliendo con la tesis del cisne negro, detectar aquellos eventos que se salen de la normalidad, o cuya confianza es tan pequeña, que cuando ocurren, son susceptibles de análisis.

Por último, aplicando algoritmos semánticos a los procesos de Minería estáticos, la conjunción de ambas tecnologías ofrecen la posibilidad de inferencia de nuevo conocimiento sobre el extractado, pero de una forma que permite extraer relaciones no evidentes entre los datos. Por ejemplo, que el nivel de aceite de un motor baje no implica en un modelo automático de deducción que genere una predicción de incidencia, y que la vibración de los rodamientos de otra pieza de un equipo, tampoco, pero la conjunción de ambas, incide directamente en que el equipo se estropee en un umbral de tres semanas. Y la inferencia de esta relación es extraída automáticamente del sistema de históricos gracias a la tecnología aplicada en nuestros modelos (GuideS).

Efectivamente, la distorsión de las pruebas silenciosas, es decir, la falta de información sobre todas las variables que pueden entrar a “jugar” dentro de los modelos, es un problema típico.  Si en un análisis de comportamientos de ventas, sólo nos fijamos en los registros de ventas, tendremos ciertas conclusiones, pero si además, agregamos una segmentación demográfica por barrios, y el tiempo atmosférico de cuándo se realizaron dichas ventas, podremos obtener conclusiones como que cuando llueve, es principio de mes, y a partir de las 6 de la tarde, ciertos centros comerciales cercanos a colegios disparan sus ventas.

Pero, ¿cómo encontramos y relacionamos dicha información no relevante a “a priori”. Tenemos una oportunidad única: la aplicación de minería de datos a los datos distribuidos en la red semántica bajo el paraguas de Linkeddata. Por primera vez, podemos unir los razonadores semánticos a sistemas expertos basados en reglas obtenidas a partir del análisis masivo de “tripletas” semánticas públicas. Y los resultados que estamos obteniendo son, como poco, increíbles. Por fin, podemos ofrecer a nuestros clientes un valor añadido a su información interna, descubriendo conclusiones no evidentes entre, aparentemente, desconexos. Las posibilidades de plataformas como GuideS aplicadas a los negocios de nuestros clientes están abriendo una nueva posibilidad de análisis, aquel que aprovecha “los cisnes negros positivos”.

Análisis y predicción de lluvias basado en el vapor de agua gps

Jul 8, 2011   //   by jc.cantera   //   Minería de Datos  //  7 Comments

La lluvia es uno de los procesos fundamentales del ciclo hidrológico tanto desde el punto de vista ambiental como humano. La lluvia es la fuente de agua de la vegetación natural, así como de los cultivos. También es el origen de la mayoría del agua de consumo humano, tanto doméstico como en la industria, servicios, etc.

Por último, cabe citar a la lluvia como origen de riesgos naturales, tanto por la ausencia de la misma como por la ocurrencia de fenómenos torrenciales. En las zonas de clima mediterráneo esta situación es especialmente evidente: se trata de zonas en general deficitarias en agua, con precipitaciones escasas e irregulares y donde se dan más o menos frecuentes episodios torrenciales, que causan daños en el medio y grandes pérdidas económicas y humanas.

Por todo ello es fundamental avanzar en el conocimiento de la lluvia como proceso natural, herramienta para la gestión de este valioso recurso y para la predicción de riesgos asociados a eventos extremos.

Una de las variables clave en la ocurrencia de precipitaciones es el contenido en vapor de agua atmosférico. Múltiples estudios han establecido la existencia de niveles altos de vapor de agua en la atmósfera previos a la ocurrencia de precipitaciones intensas en la zona mediterránea. Sin embargo aspectos como el tiempo entre el pico de vapor de agua atmosférico y la ocurrencia de la lluvia o su intensidad no se encuentran en la actualidad satisfactoriamente resueltos, debido en parte a la complejidad del proceso y en parte a la dificultad de determinar el contenido en vapor de agua atmosférico. El GPS durante esta última década se ha convertido en un instrumento de gran interés en meteorología. Esto es debido a su probada eficacia para la estimación del contenido en vapor de agua de la atmósfera.

Este artículo presenta un análisis experimental que establece la relación entre las variaciones del contenido en vapor de agua y de la presión atmosférica, con las lluvias observadas en el periodo 2005-2010, en Pamplona.

Para tratar de predecir el momento y cantidad de precipitaciones, especialmente las copiosas, en Ibermática hemos realizado un estudio de minería de datos con los datos de Fecha, Presión atmosférica, Vapor de agua estimado por GPS y Precipitación.

Buscando correlaciones entre pares de atributos, se observa que en ningún caso llega al 30%. Aún así, se inicia un proceso de estudio de minería de datos, elaborando un modelo de clasificación con resultados, que predice y acierta un alto porcentaje de casos, pero siempre que las precipitaciones sean bajas o nulas.

 

La escasez de correlación directa entre datos se ve en la mezcla aparentemente azarosa de los colores que representan valores de los parámetros en los siguientes gráficos y en la escasa agrupación que presentan (excepto en precipitaciones muy bajas, que no son significativas):

 

Como se trata de determinar más precisamente las precipitaciones mayores, especialmente las más intensas, se analizan los datos desde el punto de vista temporal tratándolos como una serie, de forma que se tenga en cuenta la evolución de los parámetros. Para detectar los casos de precipitaciones mayores, se eliminan del análisis los datos con precipitaciones nulas o muy bajas (Precipitación < 1).

El estudio se hace teniendo en cuenta los datos de 24 registros anteriores (24h) y un horizonte de previsión de N horas. Como método de aprendizaje y predicción el modelo incluye una red neuronal.

La red neuronal generada como resultado no predice con precisión la cantidad exacta de precipitación. Sin embargo, comparando la serie de datos reales con la predicción obtenida, se observa una gran similitud en la gráfica de precipitaciones, especialmente en los picos de precipitación, tanto en el tiempo, como en magnitud, obteniéndose una correlación en torno al 83% en el mejor de los casos.

Acostumbrados como estamos a ver siempre en los mapas del tiempo las isobaras, sorprende que los mejores resultados se dan cuando se excluye la presión del conjunto de datos.

De esta forma, se concluye que tratando los datos como serie temporal, considerando la evolución de los parámetros en el tiempo, y desechando los datos no significativos en los que la precipitación es nula, se pueden anticipar los momentos de fuerte precipitación, en un grado muy aproximado en cuanto a magnitud.

DataMining – El futuro inmediato del DatawareHouse

Jul 5, 2011   //   by wpuser   //   Minería de Datos  //  2 Comments

Estamos en un momento en el que las empresas cada vez demandan más control y conocimiento sobre toda la información que les compete, sobre todo aquella que está en formato no estructurado (actas, correos, documentación, webs, etc…), y que cada vez, debido a sus volúmenes, es más intratable.

Sin embargo, en los ambientes académicos y universitarios (así como en las administraciones anglosajonas, entornos económicos, militares y de seguridad), las herramientas que permiten tratar dicha información ha alcanzado una edad muy madura. Está ocurriendo algo similar que recuerda a la evolución del Business Intelligence en las empresas. No hace demasiados años, mientras en el mundo de la información en general se destinaban ingentes esfuerzos en obtener informes estáticos que cambiaban cada pocos días en función de las necesidades del cliente (¿quién no lo ha vivido?), se empezaba a hablar de cubos, dimensiones, medidas, DatawareHouse, cosas que sonaban más o menos a chino. Y aquellos que supieron estar atentos, (leáse Cognos), fueron los que se llevaron el gato al agua. Hoy en día, ¿qué empresa que presuma de tener un buen sistema de gestión prescinde de sus cubitos? Pues lo mismo está empezando a ocurrir con el DataMining y las búsquedas semánticas.

Y los primeros indicadores ya está ahí, Oracle publicita su producto OracleDataMining, para detectar relaciones entre sus datos y análisis de predicción, SAP ha comprado a BusinessObject Enterprise para liderar este movimiento, Microsoft incorpora Datamining en SQL Server, IBM ha comprado a SPSS Clementine para lo mismo, Google ha desarrollado sus propias herramientas para detectar quién sabe qué en la red, y no sigo contando. Es decir, que auguro que dentro de cinco años, aquel que no tenga algo de Datamining en su sistema, (que no deja de ser una explotación inteligente del DatawareHouse, pero automática), no será nadie en sistemas de gestión.

En Ibermática llevamos años trabajando con sistemas que analizan automáticamente grandes volúmenes de información, en base a algoritmos estadísticos y de Minería de Datos, (aprendizaje supervisado y no supervisado),  que de forma automática extraen las “reglas del negocio” inherentes en los datos, permitiéndonos integrar dichas reglas en sistemas expertos, que “a posteriori”, con nuevos datos de entrada, discriminan en tiempo real el conocimiento relevante de los mismos, permitiendo:

– Detectar anomalías en los datos de forma automática

– Segmentar la información en diferentes conjuntos de atributos, perfilando agentes de negocio de forma desasistida

– Descubrir relaciones no evidentes entre los datos, que expliquen el porqué de ciertos comportamientos no habituales

– Predecir lo que puede ocurrir, con un grado de fiabilidad, en función de los datos presentes y los históricos analizados por el sistema.

Estas herramientas se pueden aplicar a cualquier contexto empresarial, como en industria – mantenimientos predictivos, medicina ( los humanos en el fondo somos máquinas con un mantenimiento complejo), banca, seguros, marketing, etc…

Minería de Datos

Minería de Datos

La Inteligencia Artificial (IA) se está imponiendo en diversas disciplinas tecnológicas y forma parte del software, la minería de datos o los asistentes virtuales, sin que tenga una visibilidad clara para el usuario. De ahí reside la necesidad de conectar el mundo de la investigación y la universidad con el de la empresa, como postula Ibermática. Su relevancia en el mundo corporativo es crucial como elemento integrado en áreas como el marketing, la gestión de la información o la prospección de redes sociales.

El estado actual de la Inteligencia Artificial (IA) y su aplicación en el negocio fueron los ejes centrales del encuentro organizado por Computing, en colaboración con Ibermática, y en la que participaron expertos en la materia tanto del entorno empresarial como universitario y de I+D. La IA es una materia que se puede definir como una rama de la Computación dedicada al desarrollo de agentes racionales no vivos que buscan emular el comportamiento humano a través de algoritmos capaces de obtener respuesta de datos de cualquier procedencia. Una ciencia por tanto que para el común de los mortales parece vivir en el plano de la ciencia ficción y alejada del mundo real, pero que sin embargo está más incorporada al entorno cotidiano de lo que puede parecer. Así lo constata Aitor Moreno de Leceta, responsable de Sistemas Inteligentes de Control y Gestión de Ibermática, “la IA se está imponiendo en casi todas las disciplinas informáticas. Las grandes empresas están integrando en sus paquetes minería de datos, reconocimiento de voz, asistentes virtuales, algoritmos genéticos para racionalizar procesos, reconocimiento de caracteres…”. Y es que aunque el usuario no lo ve, según Moreno, “utiliza buscadores, reconocimiento de matrículas, radares, agentes virtuales, semántica en redes virtuales, voz para acceso de minusvalías”, lo cual indica que se va imponiendo de forma silenciosa.

Desde Ibermática también se aprecia que existen muchas aplicaciones interesantes desarrolladas en centros y universidades pero que son difíciles de conectar con el tejido empresarial, “bien porque el mercado tiene las demandas pero no conoce estas soluciones, bien porque el ámbito universitario está más preocupado por publicar y tener sus índices de referencias, por lo que no se avanza más allá de la investigación básica y no llegan a la parte industrial”.

 

 

Páginas:«123