Browsing articles tagged with " Minería de Datos"

¿Cómo determinar una campaña de encuestas con Análisis de Datos?

Jun 5, 2014   //   by wpuser   //   Minería de Datos  //  Comentarios desactivados en ¿Cómo determinar una campaña de encuestas con Análisis de Datos?

Usualmente, antes de realizar un estudio de mercado, o de aplicar campañas de ventas, introducción de nuevos productos en el mercado, o simplemente, la idea de realizar una encuesta a nuestros clientes para valorar ciertos indicadores, siempre tenemos  una primera incógnita: ¿A quiénes de mis clientes debo realizar la encuesta, para que esta sea fiable?

Si tenemos pocos clientes (no deseable), y los conocemos en profundidad, es relativamente sencillo seleccionar una muestra de los mismos para realizar la encuesta o el sondeo de opinión, pero cuando tenemos cientos o miles de clientes, de todo tipo de tamaño y “pelaje”, ¿Cómo puedo asegurarme de que recojo en una muestra sencilla la mayoría de los perfiles posibles que me den una representación veraz de la información? Es en este caso, cuando herramientas analíticas de Minería de Datos, de una forma automatizada y sencilla, nos puede dar la respuesta.

Y la respuesta está en la propia pregunta:  hay que perfilar los clientes. Dado que existen algoritmos muy maduros de segmentación y clasificación, con este tipo de herramientas, modelándolas un poco, seremos capaces de seleccionar de forma óptima y elegante la muestra perfecta para nuestro estudio.

  • Pero, ¿Cómo se hace?  Lo primero y evidente, (a veces no tanto),  es introducir los datos que podamos de nuestros clientes y, por ejemplo, sus ventas,  en el sistema, (cuantos más, mejor).  Después, lanzamos un análisis de correlación para identificar qué variables o indicadores son los que tienen mayor relevancia en el modelo de datos de origen, de esta forma, anulamos las variables que se repiten muchas veces, que son poco representativas (tienen muchos valores únicos), aquellas que tienen datos nulos, y dejamos el “set” de datos listo para el proceso de clasificación.

indicadores_relevantes

  •  Una vez filtrados los indicadores “interesantes”, dados por el sistema, generamos una segmentación automática, que nos indica, sin que el sistema sepa “nada a prirori”, cómo los datos se distribuyen en “perfiles” homogéneos en base a sus datos.

Dependiendo de qué tipo de datos estamos utilizando (más numéricos que alfanuméricos, o mixto), podremos utilizar un tipo de algoritmos u otros.

cluster_automatico

  • El secreto está en determinar cuál es el número óptimo de perfiles a dividir el conjunto completo de los datos. Para ello, se pueden aplicar clasificadores que “evalúen” lo bueno o malo que es el distinto conjunto de datos a la hora de predecir a qué segmento pertenecen.

x-validacion_cluster

Además, podemos generar un “mapa de perfiles” que nos permita analizar de un “vistazo”cuál es el “prototipo” o “centroide” de cada segmento, y así, identificar cada segmento con sus datos principales, e incluso, poder ponerles nombre, si lo deseamos, a cada distribución de datos (esto, aún, las máquinas no saben hacerlo bien):

Perfiles_tipo_Segmentación

Finalmente, cuando ya tenemos los segmentos debidamente clasificados, sólo tenemos que ver qué proporción sobre el universo general le corresponde a cada segmento, y en base a esta proporción, seleccionar un número de individuos representativo. Es decir, si queremos tomar 100 individuos, y el cluster1 supone un 30% del universo, cogeremos 30 individuos de este cluster.

  • ¿Cómo podemos seleccionar los individuos de cada cluster? Existen dos opciones.. La primera y más sencilla, al azar… Le decimos al sistema que tome al azar un porcentaje de cada perfil en base a su distribución general,  y listo.

perfiles_en_mapa

Otra forma más “inteligente” es decidir, dentro de cada perfil, que estrato seleccionamos. Por cada grupo, habrá clientes que estén más cerca del “prototipo” principal de dicho grupo, y otros que estén más lejos, es decir, que pertenecen a ese grupo, pero están cerca de pasarse a otro (imagínense que un grupo es el de los clientes fieles, y otro el de los desertores: habrá individuos que estén “lejos” del centro de los “fieles“, que aunque son “fieles“, están cerca de “desertar“). De esta forma, este análisis no sólo sirve para realizar la encuesta, sino también para detectar anomalías entre los clientes de cada grupo.

perfiles_en_mapa_centroides_vs_desertores

Así, de los 30 individuos que tenemos que tomar del perfil1, por ejemplo, podemos tomar 10 clientes cerca del “centro” del cluster, 5 en el extremo superior, y 5 en el extremo inferior, permitiendo al sistema seleccionar, de entre los clientes del tipo de perfil 1, una distribución importante de los “centrales“, pero también poder recabar la información de los extremos, que posiblemente puedan ser los descontentos.

Con esta selección automática, nos aseguramos de tener la información de la opinión de los distintos tipos de clientes, sin olvidarnos de ninguno.

individuos_seleccionados_para_encuesta

Finalmente, la interpretación de las encuestas, en base a los perfiles, se puede agilizar con un clasificador en base a los contenidos de las mismas, de forma que podamos “triangular” automáticamente los perfiles de las respuestas, en un proceso similar al explicado, pero con los datos de las respuestas agregados a los datos iniciales tomados en la investigación.

Ya saben, cualquier consulta adicional al respecto, dudas, o ayuda en este tipo de procesos, no duden en contactar con nosotros.

Minería de Datos en entornos de Análisis de Datos en Planta. ¿Qué ocurre en la producción?

Ago 21, 2013   //   by Ansgar   //   Minería de Datos  //  1 Comment

Es habitual hoy en día, en cualquier planta de producción, tener cientos o miles de registros donde se guarda la información de la actividad diaria: ¿ Cuántas piezas se han producido, a qué hora, quién ha sido el operario, si ha habido algún problema…?

Big (Small) Data en Planta

Big (Small) Data en Planta

Esta masa de datos, habitualmente, se analiza en base a cuadros de mando, en los que se agrupa la información por equipo, operario, planta, incidencias, obteniéndose resultados sobre el total de incidencias por máquina, centro, operario, que de forma gráfica, nos ubica en el estado de nuestro negocio.

Sin embargo, actualmente, este información se queda “corta” en dos sentidos:

  • Explican que ha ocurrido en el pasado, pero agrupando los datos, con lo que perdemos las razones de porqué han ocurrido ciertas incidencias, por ejemplo, en momentos puntuales. Para llegar a esta información, debemos hacer análisis manuales, agrupando por fines de semana, vacaciones, turnos, siempre de una forma deductiva, en base al “olfato” de los expertos, y con la pérdida que conlleva el análisis de numerosos datos multiplicados por las numerosas posibles variables que puede “explicar”  el comportamiento de la producción.
  • Por otro lado, al perder la “granularidad” temporal de lo ocurrido, podemos ver lo que ha ocurrido en el pasado, pero no podemos inferirlo al futuro inmediato, ya que no tenemos toda la información “agrupada” en el cubo que estamos analizando.
  • Finalmente, el sistema no es capaz de explicarnos el porqué de dichos comportamientos: tenemos que realizar, de nuevo, un estudio seleccionando el subconjunto de datos afectados, para intentar indagar cuáles son las variables que forman parte del problema.  La experiencia puede guiar el análisis de los datos hacia relaciones lógicas, como la disminución de la producción en una máquina antigua. ¿Pero qué sucede con aquéllos factores que no nos habíamos planteado?

La minería de datos, como su propio nombre indica, se encarga de coger el pico y la pala, y explorar esa inmensa mina de datos buscando las relaciones entre los diferentes factores. Así, podemos descubrir que una pieza complicada tarda más en ser fabricada en el turno de tarde, o que la máquina X muestra un rendimiento manifiestamente superior cuando la maneja el operario Pepe durante los primeros seis meses del año.

Minería de Datos

Minería de Datos

La gran ventaja de esta aproximación es que es el propio sistema, el que, con la totalidad de los datos, (e incluso, si pudiésemos, con más, por ejemplo, la temperatura ambiente en las zonas de producción), el que determina cuáles son los indicadores que forman parte del problema, y entre que valores dichos indicadores son críticos. Y todo ello, con sólo darle a un botón…

De esta forma, las reuniones semanales en las que los responsables de producción en las plantas, se reúnen para analizar qué es lo que ha pasado, por qué, y cuáles son las acciones correctivas, en vez de utilizar una gran parte de su tiempo para “descubrir” y analizar lo que ha pasado, tendrían ya esa información encima de la mesa, y directamente, analizarían lo que realmente a pasado, por qué se ha producido los desfases semanales (que variables han afectado a cada una de las máquinas, turnos, o procesos), realizar decisiones de mejora sobre dichos datos, e incluso, con esas modificaciones, simular qué es lo que va a ocurrir en las semana siguiente.

I3B, desde su Unidad de Análisis Predictivo, proporciona a nuestros clientes las herramientas necesarias, para que, dándole a un botón, puedan saber exactamente que es lo que ha ocurrido en su planta, las razones principales de los ocurrido, de una forma gráfica, usable y fácilmente comprensible.

El índice OEE

El OEE (Overall Equipment Effectiveness o Eficiencia General de los Equipos), tal y como podemos leer en la Wikipedia,  es una razón porcentual que sirve para medir la eficiencia productiva de la maquinaria industrial. La ventaja del OEE frente a otras razones es que mide, en un único indicador, todos los parámetros fundamentales en la producción industrial: la disponibilidad, la eficiencia y la calidad.

La fórmula para calcular el valor OEE es la siguiente:

OEE = Disponibilidad * Rendimiento* Calidad

Disponibilidad = DuracionTrabajoTotal / DuracionDisponible

Rendimiento = ProduccionTotal/ProduccionPrevista

Calidad= PiezasBuenasTotal/ProduccionTotal

El resultado de este indicador se puede dividir en distintos niveles, a nivel académico:

  • OEE < 65% Inaceptable. Se producen importantes pérdidas económicas. Muy baja competitividad.
  • 65% < OEE < 75% Regular. Aceptable sólo si se está en proceso de mejora. Pérdidas económicas. Baja competitividad.
  • 75% < OEE < 85% Aceptable. Continuar la mejora para superar el 85 % y avanzar hacia la World Class. Ligeras pérdidas económicas. Competitividad ligeramente baja.
  • 85% < OEE < 95% Buena. Entra en Valores World Class. Buena competitividad.
  • OEE > 95% Excelencia. Valores World Class. Excelente competitividad

Sin embargo, no todos los procesos productivos, empresas o fábricas se comportan del mismo modo… De esta forma, el sistema propuesto es capaz, en base a todos los datos históricos, de balancear automáticamente este valor, y sugerir la mejor distribución de OEE con respecto al resto del resto de distribuciones de los datos que tienen correlación con el OEE (incidencias, operarios, producción, temperatura ambiente, etc…)

Es importante detallar que el OEE, lógicamente, tendrá relación directa con los datos que lo producen, (Disponibilidad, Rendimiento, Calidad), pero si quitamos dichos datos de la “coctelera”, el sistema nos comienza a dar la correlación de otros indicadores directamente no relacionados con las fórmulas, con el resultado OEE (día de la semana, turno, hora, operario, etc..), que, en un principio, no están descritas en las fórmulas anteriores.

Así, si tenemos un conjunto de datos de entrada, con distintos indicadores, como el descrito en la Figura siguiente:

 

Datos Brutos en Planta
Datos Brutos en Planta

 

El propio sistema nos sugiere la mejor distribución de OEE para dichos datos, en forma de la siguiente tabla:

OEE Distribución Automática

OEE Distribución Automática

Como se puede observar, el nivel “Inaceptable” teórico, en este caso, se divide en dos, en un nivel “crítico” (< 31%), y en otro “Inaceptable” (=>31% y < 63%).

 Basándose en esta división esta es la distribución del mismo valor, se muestra además que la distribución normal (línea roja) indica que la mayoría de valores está en 0,2 y 0,5, con lo que ya, de un primer vistazo, podemos deducir que la mayoría de las producciones de esta planta están en un entorno  teóricamente “Inaceptable” ¿Por qué?

Explicando las Razones de los “OEE” Inaceptables.

No sabemos qué es lo que está ocurriendo para los indicadores OEE inaceptables. Le pedimos al sistema que nos muestre cuáles son aquellos campos que inciden de forma directa sobre el resultado OEE, y de forma automática, nos devuelve la siguiente gráfica:

Indicadores relacionados con OEE

Indicadores relacionados con OEE

Es decir, que el buen o mal resultado de un OEE viene dado, en primer lugar, por la máquina en la que se está trabajando, pero en segundo lugar, por el día de la semana que se trabaje, la Fase del trabajo, el operario y el turno que se le asigna.

Curiosamente, el día de la semana afecta al rendimiento en la producción, por máquina, pero necesitamos más detalle, que el sistema nos suministra de la siguiente manera:

Reglas_explicativas_OEE

Reglas explicativas OEE

De esta manera, podemos “entender” qué es lo que está pasando en nuestra planta. Por ejemplo, la máquina 145 tiene resultados Inaceptables los martes, mientras que los sabados y domingos, su rendimiento es “Regular”. Por otro lado, la máquina 155, tiene un rendimiento “Bueno” o “Aceptable” en general, excepto los miércoles, que en los turnos de mañana y noche, es “Inaceptable”.

Estos datos tienen una confianza de veracidad de un 94%, es decir, que son reales. Ahora, tocaría al jefe de planta, “indagar” porqué los miércoles a la mañana o a la tarde, en general, la máquina 155 tiene un rendimiento tan malo. Pero hemos logrado minimizar el tiempo de análisis de dicho gestor para detectar estos comportamientos a un simple “click” de ratón, para que pueda dedicar el resto de su jornada a mejorar los rendimientos anómalos, como este.

Visualización.

La navegación por las reglas no es evidente, si se genera un informe en papel, o semigráfico. Por ello, I3B permite incorporar las reglas resultantes (que ya incluyen los indicadores que modelan las explicaciones y sólo ellos), dentro de la plataforma analítica de cualquier cliente. Esto permite que las dimensiones y los atributos que afectan a un indicador ya están “filtrados” en cantidad (sólo aquellos indicadores relevantes), y en calidad (con los valores que afectan a los resultados).

Por lo tanto, la visualización y navegación de las reglas se hace más intuitiva, en base a cuadros como el que se muestra a continuación:

OEE_BI

OEE_BI

En estos cuadros, dinámicos,  se observa qué máquinas tienen un “OEE” más inaceptable (como en cualquier otro cubo), pero además, si navegamos por ellas, y pasamos de la primera condición a las siguientes  datos, vemos que para unas máquinas, su OEE se ve afectado por el operador que las trabaja, mientras que para otras, su rendimiento depende del turno de trabajo, independientemente del operador. Y todo ello, sin necesidad de cruzar ninguna dimensión con ningún atributo, ya están cruzados de antemano:

Diferencias de patrones en función de las máquinas

Diferencias de patrones en función de las máquinas

De esta forma, podemos navegar por las reglas de una forma intuitiva, entrando desde las generalidades de los OEE inaceptables, hasta sus particularidades, y llegando a conclusiones sobre su comportamiento analizando sólo 4 o 5 indicadores, que sabemos, “a priori”, que son los responsables de dicho comportamiento, junto con los umbrales (operario, fecha, turno, etc…) que los provocan, y por supuesto, la veracidad de dichas reglas. (En este caso, un 94% de acierto).

No sólo se puede analizar el OEE, sino todo aquel indicador de nuestra base de datos que queramos. Por ejemplo, otro indicador importante para analizar, además del OEE, son las incidencias. ¿Por qué se producen ciertas incidencias en nuestra planta de producción, dónde se producen, y cuándo?

Siguiendo la misma filosofía de trabajo, podemos generar el mismo cuadro de control sobre nuestras incidencias, y navegar por los indicadores que reproducen los motivos de porqué se dan las mismas, con un solo informe gráfico

Inciencias_BI

Inciencias BI

Y analizar, por ejemplo, porqué la mayoria de incidencias se producen en ciertas máquinas (y con ciertos operadores),

Incidencias por turnos en fabricación

Incidencias por turnos en fabricación

Y descubrir que tienen que ver con una fase de fabricación determinada, en unos turno muy concretos de la planificación.

Como conclusión, las herramientas automáticas de análisis de comportamientos no sólo son aplicables a grandes sectores como el marketing, banca u otros, sino que el denominado “BiogData” también es aplicable a los procesos de trabajo en fábricas y plantas de producción, de cualquier tamaño, evitando que el 80% del tiempo de análisis se convierte en un 80% de tiempo en mejoras¡, conociendo de antemano las razones concretas que modelan las fases productivas.

¿Es posible conocer la intención de voto en base a datos abiertos? Un ejemplo de #OpenData + #DataMining = #OpenMining

Sep 24, 2012   //   by wpuser   //   Minería de Datos  //  2 Comments


Gis Geopolítico

Se acercan las elecciones en varias Comunidades Autónomas, y desde I3B, se ha desarrollado una plataforma de análisis de resultados, (GIS Geopolítico), apoyado en herramientas de análisis avanzada sobre datos históricos (Datamining).

Pero, ¿qué es lo que buscamos? Básicamente, conocer el por qué de los resultados electorales, y no quedarnos simplemente en lo que ha ocurrido (pasado estadístico), sino intentar comprender las razones generales de dichos resultados, y poder aplicar dicho descubrimiento al futuro.

Comenzamos tomamos los resultados electorales de una provincia, por ejemplo, Bizkaia, y para ello, recogemos los datos de los resultados Elecciones Municipales del 2007, tomados de los datos publicados por OpenDataEuskadi, tendremos una relación de datos con el siguiente formato:

Datos OpenData Euskadi

Estos son los datos clásicos de los resultados electorales, y con ellos, podemos presentar cientos de estadísticas, a nivel de Municipio, Distrito y Sección Censal, incluso a nivel de mesa electoral, del numero de votantes, los votos nulos, los válidos, los partidos ganadores por dichas secciones, etc… como muy bien muestra en su blog Juan Carlos Sierra, del que muestro algunos ejemplos:

Mapa Político 2º Ganador

Mapa político por Sección Censal

Ahora bien, esta información es meramente descriptiva, y la pregunta es, ¿Existirá algún patrón de comportamiento que explique la intencionalidad del voto, en base a algún indicador adicional? 

  • Por ejemplo, podemos analizar el caso de Bermeo. La estadística de resultados finales es la siguiente:

Bermeo Municipales 2007

Es decir, los dos partidos más votados, EAJ_PNV y EA, están empatados en cuanto a Secciones Censales (EAJ_PNV gana en 6 Secciones, y EA en otras 6), siendo los resultados muy parejos. ¿Es posible explicar la diferencia del comportamiento del voto en unas zonas o secciones, con respecto a las otras? ¿Cuáles son los factores, si los hay, que determinan estas actuaciones? 

Y lo más importante, ¿existen algunas reglas generales que modelen los comportamientos de la intención del voto?

Vamos a ver que así es….

Enlazando Datos

Intuitivamente, los datos demográficos asociados a las Secciones Censales (partición del término municipal caracterizada por estar preferentemente definida mediante límites fácilmente identificables, tales como accidentes naturales del terreno, construcciones de carácter permanente y viales y tener un tamaño entre 1.000 y 2.500 residentes, excepto en el caso que el municipio completo tenga una población inferior), pueden explicar comportamientos relativos a los movimientos de masas sociales en los Municipios estudiados. Es decir, una Sección Censal, agrupa grupos poblacionales, en teoría, más o menos homogéneos a nivel cultural, educacional, y económico.

Además, por Sección Censal, y gracias al Instituto Nacional de Estadística, tenemos datos sobre los valores de población por sexo en intervalos de edad en dicha Sección, además de los totales de personas nacidas en la misma Comunidad Autónoma o distinta, incluso los que siendo de la misma Comunidad Autónoma son de la misma Provincia o diferente, incluso  nacidos en el mismo Municipio o distinto, dentro de la misma Provincia, separados por sexo.

En cuanto a los datos relacionados con los Municipios, tenemos información sobre el número del desempleo registrado, tanto por hombres como por mujeres, así como los datos acumulados de sus poblaciones, diferenciadas por sexo.

Al final, tenemos una única tabla enlazada de 126 indicadores, que incluyen toda la información acumulada por Sección Censal y Municipio.

El descubrimiento.

Una vez enlazados todos estos datos, sólo queda un paso más: introducirlos en la máquina de Minería de Datos, definir un objetivo, y ejecutar el proceso de modelado. El objetivo está claro, queremos conocer, si existen, que pautas se siguen para determinar cuál es el partido más votado, es decir, el objetivo sería el campo “Partido GANADOR”, independientemente de cuál sea en cada Sección Censal.

Es importante anotar que no estamos realizando un estudio concreto de  un Municipio (como podría ser, por ejemplo, el estudio concreto de Bilbao), sino de toda la Provincia Vizcaína. Estamos buscando reglas generales de comportamiento, que afecten a todos los indicadores, sin realizar un filtro previo por Municipio. Si hay correlaciones, y no estamos mezclando peras con manzanas,  el sistema las extraerá, si no, no será capaz de concluir ninguna regla o ningún modelo con una confianza lo suficientemente segura como para dar por válido el modelo.

Lo primero que hacemos, es ejecutar un proceso de correlación, que nos indique qué campos son los más relevantes con respecto a nuestro indicador objetivo, es decir, al “Partido Ganador”.

Correlación entre Indicadores

Según la lista, lo que más relevancia tiene a la hora de determinar el partido ganador, no es la Sección Censal, sino el Municipio (NOMBRE), seguido directamente, pero con muy poca correlación,  por la relevancia de la población nacida en Gipuzkoa y Álava y que vota en Vizcaya , y por los datos del paro.

Es importante recalcar que los datos del Paro registrado son a nivel de Municipio, mientras que los datos demográficos (Hombres o Mujeres nacidos en la Provincia, fuera, etc…), son a nivel de Sección Censal.  Los datos referentes a la población nacida en Álava o Gipuzkoa, son a nivel Municipal.

Pero esta información, tampoco nos dice demasiado, puesto que lo que queremos son los valores concretos que hacen que en una determinada mesa electoral se vote a un partido u a otro. Y para ello, procesamos sobre los mismos datos un algoritmo de Árboles de Decisión, transformando las ramas del árbol a reglas completas,  (que son muy buenos para explicar las conclusiones), y analizamos el resultado obtenido.

 La Intención de Voto.

Una vez lanzado el proceso de obtención de reglas, el sistema nos genera el árbol que se muestra a continuación: (El formato es leerlo Si…  y  ….  entonces….)

 Árbol de Decisión

  • Conclusiones “a priori”:
    • El paro registrado en las mujeres (a nivel municipal), es un indicador clave en el comportamiento de la intención del voto.
    • Los comportamientos son particulares prácticamente para cada Municipio, excepto cuando el paro por Municipio es menor que 423 personas.
    • Los efectos de las personas nacidas fuera de la comunidad autónoma (dato a nivel de Sección Censal), afecta a la intención de voto en dichas Secciones Censales.
  •  Si tomamos el primer caso, por ejemplo:

Si Paro registrado, Mujeres > 423

y  NOMBRE = Amorebieta-Etxano

y   además MujNacDistComAut (Mujeres Nacidas en Distinta Comunidad Autónoma) > 179,5 entonces –> PSE_EE_PSOE

si no, si    MujNacDistComAut <= 179,500 entonces –>  EAJ_PNV

Nos está indicando claramente, que en Amorebieta, si en una Sección Censal, hay más de 179 mujeres votantes cuya procedencia es de fuera de la Comunidad Autónoma, en las mesas de dicha Sección, se votará al PSE_EE_PSOE, y en caso contrario, a EAJ_PNV. 

Cada una de estas reglas podemos aplicarlas a un mapa, de forma que obtendríamos una representación de los distintos patrones de comportamiento a nivel de la geografía. Como se ve en la figura siguiente, se conformaría un mapa con distintos colores seg-ún patrones de intencionalidad  (reglas), y en el caso de Amorebieta, se indicaría además, en qué Sección Censal se da cada una de las distintas reglas:

Mapa de Comportamientos

Mapa de Amorebieta

  •  Si analizamos el caso inicial de Bermeo, las reglas son diferentes:

si   NOMBRE = Bermeo

y     Muj_25-29 > 45, entonces –> EAJ_PNV

pero si    Muj_25-29 <= 45 entonces –>  EA

 En este caso, la diferencia de comportamiento viene dado por la edad de las mujeres que votan, dato que también está incorporado a nivel de Sección Censal. Es decir, si en Bermeo, en una Mesa Electoral, hay más de 45 mujeres entre 25 y 29 años, entonces, en esa mesa saldrá elegido el partido EAJ_PNV, pero si hay menos de 45 mujeres en ese ratio de edad, ganará EA.

Por otro lado, si EA quiere mejorar sus resultados, debería enfocar su campaña en Bermeo a las mujeres entre 25 y 29 años, puesto que no parece que ese “perfil” poblacional en Bermeo sea de sus siglas, y si consigue captar ese foco de atención, teniendo en cuenta que el margen de diferencia en votos es muy pequeño, es posible que gane en las próximas elecciones en dichas mesas electorales.

Viéndolo en el mapa, incluso sabemos en que zonas de Bermeo habría que realizar esta acción:

Mapa Bermeo

  •  Lo contrario le pasaría al EAJ-PNV, por ejemplo, en Getxo. Resulta, que según el patrón encontrado:

|   NOMBRE = Getxo

|   |   P_NULOS > 5,372 –> EAJ_PNV

|   |   P_NULOS <= 5,372 -> PP

Si hay, por mesa electoral, más de 5 votos nulos, saldría como ganador en dicha mesa el EAJ_PNV, pero si el número de NULOS es   menor, saldría ganador en dicha mesa el PP. Y esta regla se cumple para todas las mesas de Getxo, así que el EAJ_PNV tiene que “provocar” un mayor número a NULOS en su convocatoria, mientras que el PP necesita que haya masa de votantes sin papeleta nula.  

Mapa Getxo

Si miramos la confianza de este sistema en cuanto a predicción, vemos que el modelo es estable con una confianza de un 79,4%, es decir, que el sistema es capaz de acertar con las reglas expuestas anteriormente, en un 79% de los casos, como se muestra en la matriz siguiente:

Matriz de x-Validación

Como conclusión, el análisis automático de la unión de datos demográficos con los resultados electorales, provee a los gestores de campañas de una información adicional y enriquecida sobre las causas de dichos resultados, pudiendo a futuro, predecir, comprender, e intentar canalizar esfuerzos en aquellos segmentos de la población a los que realmente debe influenciar para mejorar sus resultados en próximas campañas.

Todo este proceso de análisis automático, representación, salida e interpretación gráfica de las reglas está embebido en el producto “GIS Geopolítico” que Ibermática oferta a sus clientes. 

Mantenimiento Proactivo: Previniendo las incidencias del futuro en base al análisis del pasado.

Sep 3, 2012   //   by wpuser   //   Minería de Datos  //  Comentarios desactivados en Mantenimiento Proactivo: Previniendo las incidencias del futuro en base al análisis del pasado.

¿Es el mantenimiento una función destacada en su empresa? ¿Dedica importantes recursos a solucionar incidencias importantes? ¿Y si le dijéramos que es posible anticiparlas fiablemente?

Seguro que le resulta fácil imaginar las ventajas de la predicción de incidencias críticas de mantenimiento: optimización de procesos y servicios, de la producción, de recursos asignados, minimización de costes… Pero, ¿cómo lograrlo? Para ello resulta fundamental la aplicación de las nuevas tecnologías, cuya evolución permite el tratamiento masivo de datos en tiempo real, combinándolo con el análisis estadístico y predictivo y la información registrada en históricos.

De este modo en Ibermática, junto a SAS, hemos desarrollado nuestro Mantenimiento Proactivo, fruto de la combinación de nuestro conocimiento con el motor de inteligencia estadística y predictiva más avanzado. Un sistema capaz de determinar de forma autónoma cuando se va a producir un evento crítico y de explicar sus razones y las medidas a tomar con antelación suficiente para garantizar su eficacia. Y, además, integrable con cualquier ERP.

La presentación está muy enfocada a entornos industriales, pero puede ser aplicada a distintos contextos diferentes. Si cambiamos los conceptos de “máquina” por “usuario”, “asegurado”, “paciente”, “cliente”; el concepto de “órdenes” por “partes”, “historial”, “llamadas” o el de “incidencias” por “quejas”, “ANS”, “enfermedad” u “objetivos”, la solución sirve para “predecir” los comportamientos futuros, y poder tomar decisiones anticipadas a los eventos futuros no deseados.

Vea el vídeo demostrativo dela solución, en el siguiente enlace:

 

Para cualquier duda, sugerencia o consulta, contacte con nosotros:

Aitor MorenoFernández de Leceta

ai.moreno@ibermatica.com

Tlf.: (34) 945 165 100

Móvil: 618974065

www.ibermatica.com/ai.moreno

Blog: rtdibermatica.com

 

Minería de Datos en entornos Médicos o cómo dedicar el tiempo a analizar conclusiones y no datos. Los “medichackers”.

Ago 29, 2012   //   by wpuser   //   Minería de Datos  //  Comentarios desactivados en Minería de Datos en entornos Médicos o cómo dedicar el tiempo a analizar conclusiones y no datos. Los “medichackers”.

La Minería de Datos, básicamente, trata de dejar a las máquinas el arduo trabajo de analizar los datos en bruto, buscar correlaciones entre los distintos campos, descubrir qué indicadores tienen correlación unos con otros, y en definitiva, descargar a los expertos de la tarea de realizar análisis manuales (excel, tablas dinámicas, cuadros con sumas y conteos), para centrar dicho tiempo de análisis en algo con mucho más valor añadido:  comprender qué es lo que realmente está ocurriendo, y atacarlo.

Aplicadas en entornos industriales de marketing, sociales y bancarios, está tecnología, hiper-madura hoy en día, parece que encaja como un guante en los entornos médicos, principalmente en la optimización de diagnósticos y tratamientos, y sin embargo, está en ciernes en este contexto. Seguramente, una de las razones sea que las empresas TICs se han acercado mucho al mundo médico desde el prisma de la gestión, y poco en el tratamiento más avanzado de la información. Pero la información médica recogida diariamente, aquella que es relevante y transaccional, es usualmente, muy buena y cada vez más elevada.

Los análisis médicos clásicos tienen un fuerte componente causalidad->efecto: lo que se está proponiendo, desde esta nueva visión, es completamente diferente:  los datos, por estar registrados en una secuencia temporal, y tener multitud de variables que pueden alterar los resultados, intrínsicamente, tienen una historia que contar, que va desde los resultados hasta los condicionantes, justo al revés que el análisis clásico.

Pongamos un ejemplo. Tenemos un set de datos con los historiales médicos de “n” pacientes, en los que, entre dichos datos, además de los demográficos, tenemos los que inciden en un Estadio concreto de cáncer.

 

Y lo que nos inetersa saber es qué indicadores son los que influyen en dicho Estadio, y además, cuáles son los comportamientos de dicha influencia. Y podemos hacer dos cosas, coger dichos datos, y todos los indicadores que van por “delante”, y empezar a hacer cuadres, tablas dinámicas, conteos, etc… hasta llegar a una tabla más o menos interesante, o  podemos aplicar a dichos datos un algoritmos de Minería de Datos, y esperar resultados. Tomamos la segunda opción, que es más cómoda.

Aplicando un simple algoritmo de Minería, (Árboles de Decisión), sobre dichos datos, el sistema, de forma automática, ya nos ofrece dos salidas interesantes:

– Cuáles son los indicadores, de los “n” que hay, que tienen relación con los distintos Estadios mostrados.

– Además, dichos campos, cómo explican la conclusión de un Estadio u otro.

De esta forma, el sistema, sin saber nada de cáncer, es capaz de extraer una tabla de indicadores cuyas reglas evidencian las conclusiones de los distintos resultados.

Podemos observar, en primer lugar, que las variables que más correlación tienen con los ESTADIOS son los indicadores T, M y N, siendo la T la más ponderante (aún sin saber exáctamente qué significan):

y que las reglas de relación, son del tipo:

  • Si T = 1 y N = 0 –> Estadio = I
  • Si T = 1 y N = 1 –> Estadio = IIA
  • ….

¿Qué hacer con esta información? Primeramente, ayudar al experto a analizar qué es lo que está ocurriendo con sus datos, quitándole el peso de análisis, y enfocándolo ya sobre el resultado que le interesa y sus relaciones con otros datos.

Por otro lado, si implementamos las reglas obtenidas, en un simple programa (o en un sistema experto, if T == 1 and N == 0 then $Estadio = I), cuanto un nuevo paciente entre en el sistema con los indicadores con unos determinados datos, el sistema determinará cuál es el Estadio seleccionado, porque hemos conseguido pasar de una situación de descubrimiento (inducción), a un proceso de efecto->consecuencia (deducción).

 Necesidad de Datos, y la diferencia entre Evidencias e Indicios.

Sin embargo, la Minería de Datos tiene un pequeño inconveniente: las conclusiones obtenidas se basan, principalmente, en una análisis estádistico de repeticiones de eventos, y por lo tanto, necesitamos muchos datos, o series históricas muy largas, para obtener resultados concluyentes. Y necesitamos tanto volumen de “filas” (historiales), como de indicadores, en realidad, cuantos más, mejor, porque de esta forma, evitaremos mezclar “peras con manzanas”. Y nos nos debemos preocupar por el volumen, es el sistema el que selecciona los mejores campos para obtener las conclusiones, y por ende, cada conclusión no tiene por que tener relacionados los mismos indicadores, con lo cuál, el análisis es, matemáticamente, completo.

Otro factor que influye notablemente en el éxito de estos proyectos es el cambio de visión entre evidencias e indicios. En el mundo médico, lo usual es que en los análisis de resultados se busquen siempre “evidencias“, es decir, hechos soportados por los datos cuyas relaciones entre causa y efecto tengan un soporte estadístico muy alto (usualmente, una probabilidad mayor que el 80%). Para ello, debemos tener en cuenta dos conceptos, la sensibilidad y la especificidad.

  • La sensibilidad nos indica la capacidad de nuestro estimador para dar como casos positivos los casos realmente enfermos; proporción de enfermos correctamente identificados. Es decir,la sensibilidad caracteriza la capacidad de la prueba para detectar la enfermedad en sujetos enfermos.
  • La especificidad nos indica la capacidad de nuestro estimador para dar como casos negativos los casos realmente sanos; proporción de sanos correctamente identificados. Es decir, la especificidad caracteriza la capacidad de la prueba para detectar la ausencia de la enfermedad en sujetos sanos.

En todo clasificador, hay un error (las cosas no son ni blancas ni negras), es decir, no existe una línea clara que separe los indicios de un diagnóstico y concluya la enfermedad de forma unívoca, sino que, aunque dicha regla pueda darse en la mayoría de los casos, puede que un porcentaje mínimo, diagnostiquemos una enfermedad a un sano, o que tiene otra enfermedad diferente con los mismo síntomas. Todo depende del nivel de exigencia que pidamos al clasificador, pero cuanto más exigentes somos, más probabilidades tenemos de que dejemos en el tintero enfermos sin detectar.  Dicho punto de corte es lo que se llama “bias” y se suelen utilizar técnicas visuales de corte, como las curvas ROC.

En definitiva, en los diagnósticos clínicos, cuando el valor de especificidad supera el 80%, se considera buena.

  • Por regla general, se elige una prueba muy específica cuando se desea asegurar de que un paciente tiene realmente una enfermedad. Por ejemplo, una prueba para detectar una enfermedad que implique una operación, es imprescindible asegurarse de que el paciente está enfermo y necesita la operación, para no operar a un paciente sano: un resultado positivo falso supone un trauma económico y psicológico para el sujeto… En estas situaciones se utiliza una prueba con un valor predictivo positivo alto, que aumenta de valor conforme la prevalencia de la enfermedad es mayor.
  •  En cambio, se elige una prueba muy sensible cuando se prefiere que el número de enfermos sin detectar sea mínimo, a costa de incluir algún sano en dicho grupo. Por ejemplo, en una epidemia es importante usar una prueba muy sensible, puesto que es necesario aislar a los enfermos y para ello todos deben ser detectados. Se usa en casos en que la enfermedad es grave pero curable, existiendo tratamiento para ella. En estos casos se usan pruebas con valor predictivo negativo alto, cuyo valor aumenta conforme disminuye la prevalencia de la enfermedad.

Por otro lado, existen otros dos conceptos que entran en juego, que son la confianza de la regla y el soporte de la misma.

La confianza de la regla es el porcentaje de que dicha regla se cumpla, cuando se dan los antecedentes, es decir, si tenemos una regla del tipo “(Estornuda y Fiebre) –> Gripe“, y decimos que la confianza es de un 75%, indicamos que cuando se da el conjunto de Estornudar y Fiebre, hay un 75% de posibilidades de que sea Fiebre (es un ejemplo inventado).

Por otro lado, el soporte es el número relativo de veces que aparecen los antecedentes (Estornuda y Fiebre) y en conjunto de todos los datos. Si tenemos un conjunto de historiales clínicos y la combinación de (Estornuda y Fiebre) aparecen 50 veces de 120,el soporte será 50/120= 0,41.

Cuanto más generales son las reglas, más soporte tienen, y menor confianza, y cuanto más “específicas” son, más personalización existirá en las mismas, con mayor confianza y menor soporte. Existe el peligro de que, si llegamos a un nivel muy detallista en las reglas, éstas servirán para modelar un comportamiento puntal de una manera muy efectiva, pero el modelo no sabrá clasificar eventos que no estén categorizados a tanto detalle, con lo que no podremos generalizar. Es lo que se denomina “sobreentrenamiento“, y a veces, puede confundir, Podemos dar unos resultados de un modelo que “aciertan” en un porcentaje muy alto para los datos de muestra, pero luego, cotejándolos con la realidad, no clasifican correctamente por que son demasiado “específicos” para el modelo de entrenamiento.

Bien, lo usual es que, en medicina, se desean conclusiones con una confianza alta (>80%), y un soporte también alto (>0.65), pero cuanto más generalicemos las conclusiones, menos soporte tendremos para las mismas. Y aquí es donde entra el concepto de indicio, que es extraño en este mundo. Por un lado, la Minería de Datos puede aportar conclusiones evidentes soportadas por los datos en cuando a conclusiones que certifican sospechas iniciales sobre el comportamiento, por ejemplo, de ciertos tratamientos, diagnósticos y resultados, con una confianza y un soporte altos.

Pero cuando las confianza es alta, pero el soporte pequeño, la Minería de Datos lo que nos está ofreciendo son indicios de que esas reglas que nos está presentando ocurren en la realidad, pero en casos muy “específicos”, que quizás no sean relevantes con respecto al conjunto de datos en su totalidad, pero que están ocurriendo, y que habría que analizarlos.

Un ejemplo de muestra, (los datos son ficticios), puede ser un análisis de los factores que influyen en el alta, o no dentro de los procedimientos de Farmacología Hospitalaria.  Si tomamos los datos de los tratamientos, los indicadores de los pacientes, los principios activos que han tomado, el número de veces que lo han tomado, la edad de los pacientes, y el resultado, obtendremos un fichero del tipo:

 

 Podríamos analizar la información con tablas dinámicas, pero tendríamos que hacer una por cada indicador y resultado, y analizar el conjunto:

Y en definitiva, esto mismo, pero en tiempo máquina, es lo que hacen los procesos de Minería de Datos, obteniendo reglas del tipo:

 

Si lanzamos el análisis sobre dichos datos, para que el sistema nos genere conclusiones sobre las razones de los resultados, y analizamos, por ejemplo, para un principio activo (ENOXAPAR), cualos son los factores que afectan a que se les de no se les de alta los pacientes, obtenemos la siguiente gráfica:

De la gráfica, se desprende que el “Turno 43” es el que menos de alta da a los pacientes, y las razones son, principalmente, los resultados del laboratorio L3, seguido por aquellos paciente cuyo indicador “FRE” es de 24, y seguido por aquellos pacientes que han tomado la medicación menos de 6 veces.

Las reglas internas que gobiernan estás conclusiones son las siguientes:

Es decir, que para el principio activo seleccionado, y para los diagnósticos de “Dolor Torácico”, el sistema nos dice que lo relevante es cuando se da una “FRE=24”, y si es la primera vez que acude el paciente (cuenta < 1,5), existe un 100% de probabilidades de que no se le de de alta (aunque las filas que soportan dicha afirmación son sólo un 3% del conjunto), mientras que existe un 77% de probabilidad de que no se le de de alta a un paciente si en el mismo caso, las pruebas vienen del Laboratorio L1, su indicador de GPT sea menor que 10,5 con un soporte muy alto, de un 75% de los casos con respecto a la globalidad.

Podemos decir que la primera regla es un indicio de que, por norma, cuando un paciente toma ENOXAPAR, tiene un indicador de FRE = 24 y es la primera vez que acude a consulta, no se le da el alta, en el TURNO 43, aunque son pocos los pacientes con esos indicadores, y que es un hecho (evidencia), que en el mismo turno, si sus valores de GPT son menores que 10,5 , existe una probabilidad alta de que no se le asigne el alta, y además, los casos son muy comunes.

Ahora bien, ¿Por qué el turno 43, cuando recibe muestras del Laboratorio L3, con FRE=24, deniega el alta casi sistemáticamente (en un 77%), siendo un 45% de los casos que se le presentan? Aquí es dónde el experto tendría que revisar qué es lo que está ocurriendo, preguntar, analizar la realidad e intentar solventar la situación.

Trabajo Conjunto.

El tratamiento de los datos y su aplicación sobre procesos de Minería de Datos no es trivial. En este sentido, un proyecto de este tipo opuca casí un 65% en el tratameinto previo de los datos, antes del lanzamiento de la algoritmia, principalmente por las siguientes causas:

•Falta de normalización de los datos:
–Mismo concepto descrito de formas diferentes
–Diagnósticos no codificados
–Observaciones manuales no agrupadas
–Valores en ciertos indicadores no normalizados (24, 24NM, DCE, CE…)
Incluir indicadores no seleccionados “a priori”: Para los análisis clásicos, muchas veces, no se tienen en cuenta indicadores, que, al final, si tienen correlación sobre los resultados finales. Y hay que contemplarlos para que los resultados sean óptimos.
Además, como clave, es importantísimo que los expertos médicos se sienten con los expertos analistas de datos, para que, en base a un proceso de ensayo-prueba-error, se vayan analizando las conclusiones obtenidas por los sistemas, desde dos puntos de vista:
– Desde el punto de vista médico, que es el que sabe interpretar las reglas obtenidas, y valorar los descubrimientos, confirmar su validez, o detectar la necesidad de nuevos indicadores no contemplados.
– Desde el punto de vista del analista de datos, que sea capaz de normalizar, estandarizar, completar, y desechar aquellos indicadores multivalores, nulos, vací­os, sin relevancia, muy correlacionados con los objetivos, etc… antes de mostrar los resultados a los expertos médicos.
Se forma, por lo tanto, un “tándem” de trabajo, que podemos denominar “medichackers“, al estilo de lo que ya se ha formado en el mundo periodístico, con respecto a la aplicación de las mismas técnicas sobre el llamado “periodismo de datos”, y que se denomina “hashhackers”.
La aplicabilidad de estas técnicas está muy implantada en estudios de genómica y proteómica, como dato, el 20% de los “papers” científicos publicados son puramente estudios de Minería de datos.

Desde I3B estamos andando este camino en proyectos como HOI, Henufood, Acció, mano a mano con los mejores médicos, oncólogos y bionutricionistas del país para avanzar en esta línea.

 

 

Aplicación de Minería de Datos a Conjuntos de Textos. Como analizar “twitter” de una manera muy sencilla.

Ago 2, 2012   //   by wpuser   //   Minería de Datos  //  Comentarios desactivados en Aplicación de Minería de Datos a Conjuntos de Textos. Como analizar “twitter” de una manera muy sencilla.

La mayoría de la información relevante en las organizaciones y fuera, estañ en formato no estructurado o texto. Cada vez es mayor la necesidad de realizar análisis sobre texto plano para normalizarlo, y extraer lo relevante de lo abundante. en este post, de una manera muy sencilla, voy a explicar cómo podemos tratar la información desestructurada de una forma muy sencilla, con técnicas de Minería de Datos sobre texto directamente, para extraer conclusiones.

Existen dos tipos de análisis en Lenguaje Natural, y complementarios. Por una parte está el análisis estadístico, que informa sobre la relevancia que tienen ciertas palabras o conceptos (conjuntos de palabras) en los distintos textos, en referncia al propio texto, y al conjunto total.  Esta es una primera aproximación básica, a recuperar lo relevante del conjunto de información. sin embargo, en esta aproximación, no se realiza ningún proceso semántco, es decir, que las máquinas extraen relaciones entre los conceptos en base a su repetición estadística, pero no “comprenden” que relaciones existen entre dichos conceptos, ni se realiza un procesado morfosintactico, para discirmar, por ejemplo, de lo que es un verbo, a un nombre, o aun adjetivo, ni siquiera, en qué contexto se está trabajndo. Quiero decir, que una frase, por ejemplo “pastor alemán”, tendrá la misma relevancia en un contexto de oficios, que en un contexto de “razas de animales”, aunque, para nosotros, dependiendo de qué hablemos, bien “pastor”, o bien “alemán” será más relevante depende de cada caso.

Para este segundo caso necesitamos, o bien, a nivel estadístico, asignar pesos a los conceptos en función del contexto (como se ha comentado en post anteriores ), o bien, necesitamos deifnir las relaciones morfosintácticas y semánticas entre los mismos (como también se ha comentado en otros post anteriores).

En todo caso, en este ejemplo, nos ceñiremos al estudio básico de la información estadística aplicando algoritmos de extracción de información, segmentación y clasificación sobre dichos datos.

Lo primero que tenemos que hacer es recuperar la información, por ejemplo, d etwitter. Para ello, tenemos servicios gratuitos que nos lo suministran, por ejemplo http://otter.topsy.com. A través de este servicio, buscamos un concepto determinado, como puede ser “juegos olímpicos”, ya que estamos en ello:

http://otter.topsy.com/searchdate.rss?q=juegos%20ol%C3%ADmpicos&window=d28

A partir de aquí, obtenemos un XML con la información de los últimos twitter al respecto, en el siguiente formato:

 

 

Una vez obtenida dicha información, necesitamos introducirla en nuestro sistema de Minería de Datos, en base a un “lector de XML”, o vía Xpath, como “parseador” de la información. voy a utilizar RapidMiner, como plataforma de Minería de Datos para este ejemplo, pero igualmente podríamos utilizar SAS, SPSS, Weka u otras muchas plataformas.

Una vez recogida la información, y dividida en autor, titulo, descripción, etc… tenemos que hacer el siguiente proceso:

Tokenizar: Separar las palabras de las frases o twitters una a una.

Stopwords: Eliminar aquellas palabras no relevantes (como él, la, los, ser, estar, etc…). Para ello, recomiendo usar la lista de stopwords del “stemmer” de  “snowball” en castellano (http://snowball.tartarus.org/algorithms/spanish/stop.txt).

Vectorizar los twitters: Necesitamos convertir cada “twit” en un vector de palabras, es decir,  cada “twit” será un afila en un “excel” en el que la primera columna será el id del texto, y tendrá otras tantas columnas como el conjunto de palabras de todos los textos, y en el valor de la columna, aparecerá  un valor, indicando la relevancia de dicha palabra en ese texto, con respecto a los demás. Esto quiere decir que, por ejemplo, en nuestro caso “juego” o “competición” aparecerá en muchos textos, así que es relevante en el texto, pero no mucho, ya que aparece también en otros textos. Será más relevante. por ejemplo, “esgrima”, ya que diferencia los textos referentes a esgrima, de los referentes a “fútbol”.  Este algoritmo de llama TF/IDF….

Todo este proceso, se realiza casi de forma automática desde las plataforma de Minería de datos, y obtenemos el siguiente resultado:

Ya tenemos los textos “normalizados” en vectores. Ya podemos hacer un primer análisis de cuáles son las palabras que más aparecen en el conjunto de twitters, aunque no tienen por que ser las más relevantes a la hora de discriminar los diferentes textos:

Pero el “ranking” de palabras nos suministra información, pero podemos avanzar un poco más. Sería interesante saber cómo se organizan esas palabras dentro de los documentos o “twit”, es decir, si existen grupos de palabras que se agrupen en distintas categorías que expliquen cómo distintos grupos de personas hablas de temas diferentes, y cuáles son esos temas. ¿Cómo lo hacemos” 

Pues muy sencillo, símplemente tenemos que aplicar un algoritmo de segmentación sobre los distintos vectores, que los agrupe por similitud, y cuando la separación entre los distintos grupos es amplia, el sistema considera que los intereses son diferentes.

Para ello, aplicamos el típico algoritmo de clasificación sobre los vectores de palabras (Clustering with k-medoids):

Lo primero que tenemos que decidir es en cuántos grupos ordenamos el conjunto de vectores. Lo mejor es que sea el propio sistema el que nos los diga, y para ello, necesitamos, de alguna manera, optimizar la información en el menor grupo posible, pero con el mayor porcentaje de confianza de clasificación. Y esto, es un mero problema de optimización, que se rsuleve perfectamente con técnica de Algoritmos Genéticos.

Para ello, aplicamos el operador de Algoritmos Genéticos sobre el conjunto de datos, diciéndole al sistea que minimize la función de segmentar, pero optimizando el número de vectores por grupo.  Aplicando dicho algoritmo, para un máximo de 10 segmentos, el sistema nos sugiere un total de 5 grupos diferentes (k=5), así que aplicamos K-medioids con ese valor.

 

Una vez aplicada la segmentación, nos aparecen 5 grupos cuyos “centroides”, o representantes de los mismos son los siguientes:

Todavía los sistemas no pueden dar nombres directos a los conjuntos de tags automáticamente (si tuviésemos una ontología adhoc, sería sencillo, lo hablaremos en post a futuro), pero parece ser que el “cluster_0” habla de las publicaciones de temas publicados por “EL País”, y muy generalistas,  el “cluster_1” de los atletas venezolanos, y algún evento importante que ocurrirá a la mañana, o mañana (este es el problema de no tener un análisis semántico, por cierto, felicidades a Venezuela por su oro en esgrima), el “cluster_2” de temas relacionados con la inauguración del evento,   y el “cluster_3“, más enfocado a cifras y ratios que a otros menesteres, y el “cluster_4“, de retransmisiones e imágenes.

De esta forma, vemos que en Twitter, se está hablando, acerca de los Juegos Olímpicos, en 5 categorías diferentes, con temáticas diferentes. A partir de aquí, podemos sacar las estadísticas y gráficas que queramos. Por ejemplo:

  • ¿De qué se habla más?:  Curiosamente, de ratios y cifras (relacionados con la afluencia a los juegos) , seguido del cluster_2 (sobre la inauguración y un canal en twitter relacionado), y en tercer lugar, el cluster_0 más generalistas (racismo, sexo, transparencia….),

 

¿Quién habla de qué? Podríamos saber cada Autor, a que grupos pertenece, y de qué está hablando. El País, de lo suyo, noticias24.com, en general, de temas de ratios y Venezuela, twitter, muy enfocado a la inaguración a su canal oficial de Los Juegos, etc….

 

¿Cuando se habla de qué?, Ver una línea temporal sobre los conjuntos de intereses, los Autores y cuándo publican:

En definitiva, hemos transformado un proceso aparentemente muy complejo de tratamiento de textos en lenguaje natural, a un formato vectorizado que nos permite realizar cualquier operación de análisis, comparación, clasificación e incluso predicción.

¿Podríamos saber, en base a un texto dado, cuál sería su autor, o a qué categoría pertenecería?

Pues evidentemente, sí:  solo tenemos que aplicar a los mismos vectores un algoritmo de clasificación (árboles de decisión, por ejemplo, para que podamos comprender las conclusiones, y aplicar a nuevos textos el modelo de árlbol (como procesamos millones de documentos con nuestra aplicación DocThor) :

 

Este es un ejemplo simple de cómo, aplicando algoritmos muy maduros sobre, a priori, problemas complejos, podemos dar solución a necesidades reales actuales. Espero que os haya gustado.

 

Visualización de la información: la base del conocimiento enlazando ideas de forma gráfica

Feb 21, 2012   //   by oa.usun   //   Minería de Datos  //  Comentarios desactivados en Visualización de la información: la base del conocimiento enlazando ideas de forma gráfica

El campo de la visualización de la información ha surgido de la investigación en interacción persona-ordenador, la informática, gráficos, diseño visual, la psicología y métodos de negocio. Se aplican cada vez más como un componente crítico en la investigación científica, bibliotecas digitales, la minería de datos, los análisis de datos financieros, estudios de mercado, el control de la producción manufacturera, o el descubrimiento de fármacos.

La visualización de la información supone que las representaciones visuales y técnicas de interacción aprovechan la vía del ojo humano y el amplio ancho de banda en la mente para permitir a los usuarios ver, explorar y entender grandes cantidades de información a la vez. La visualización de la información centrada en la creación de enfoques para el transporte abstracto de información de manera intuitiva.

La visualización es multidisciplinar ya que comunica los datos mediante una interfaz, transformándolos en información semántica a través de medios gráficos, combinando su funcionalidad y su estética y estimulando la participación de los usuarios.

El reciente énfasis en la visualización se inició en 1987 con el especial tema de gráficos por ordenador en la visualización en Computación Científica. Desde entonces ha habido varias conferencias y talleres donde se han dedicado a los temas generales de visualización de datos, visualización de la información y la visualización científica.

En la visualización científica encontramos dos áreas específicas:

–          Visualización de volúmenes, que se refiere a campos escalares.

–          Visualización de flujo, donde hay datos que evolucionan en el tiempo.

 

Dentro de estas áreas en la visualización de información existen algunas subáreas que son las que más nos interesan como:

–          La visualización de grafos, que construye representaciones visuales geométricas que son modelos subyacentes en una gran cantidad de datos abstractos. La generación automática de un grafo tiene importancia en aplicaciones clave como la Ingeniería de Software, el Diseño de Bases de Datos, las Telecomunicaciones, el Data Mining y la Representación del Conocimiento entre otros dominios. El objetivo de trabajo consiste en encontrar algoritmos eficientes para lograr grafos que transmitan su significado en forma clara y rápida.

–          Pixel Bars: Visualización de datos ordinales en Bases de Datos. Visualiza simultáneamente múltiples campos de la base de datos, en tanto los valores de estos campos tengan un orden.

 

–          Relaciones entre temas y documentos de texto. Mostrar una vista conceptual de grandes Grupos de documentos, que permitan ir desde los temas a los documentos particulares, siempre ha sido un desafío.

 

–          La visualización de Arquitecturas de Software, que proporciona sistemas interactivos que permiten extraer y visualizar sobre arquitecturas de sistemas de software.

–          Data Mining Visual, que se refiere a la integración del acceso a las bases de datos con Data Mining y Visualización. Pretendiendo ayudar en el descubrimiento de conocimiento y en la toma de decisiones cuando existen grandes volúmenes de datos. Utilizando mecanismos interactivos de respuesta rápida basados en técnicas de browsing, filtros y facilidades para construir queries dinámicas que permiten aprender de los datos a través de múltiples consultas.

¿Por qué visualizar un modelo de minería de datos?

Las fuerzas impulsoras detrás de visualización de modelos de minería de datos se pueden dividir en dos áreas clave: comprensión y confianza. La comprensión es, sin duda, la motivación más fundamental detrás de la visualización del modelo (Ver Modelos básicos de predicción) .

La forma más interesante de utilizar un modelo de minería de datos es conseguir que el usuario entienda realmente lo que está pasando para que puedan actuar directamente. La visualización de un modelo debe permitir a un usuario discutir y explicar la lógica que existe detrás del modelo a colegas, clientes y otros usuarios. La obtención de la lógica o la razón de ser es parte de la construcción de la confianza de los usuarios en los resultados.  Además, el modelo debe ser entendida de modo que las acciones que se toman como resultado se puede justificar ante los demás.

Comprender significa algo más que la comprensión, también implica contexto. Si el usuario puede entender lo que se ha descubierto en el contexto de los problemas de su negocio, va a confiar en él y ponerlo en uso.

Hay dos partes en este problema: 1) la visualización de la salida de la minería de datos de una manera significativa, y 2) que permite al usuario interactuar con la visualización para que las preguntas puedan ser contestadas.

Como soluciones creativas a la primera parte  se han incorporado un buen número de productos comerciales y de Open Source para la visualización de modelos de minería de datos (Visifire, WPFToolkit). Indicadores de elevación gráfica, la respuesta y modelos financieros (por ejemplo, beneficios, costos, retorno de la inversión) que le da al usuario un sentido del contexto y que rápidamente pueden basar los resultados en la realidad.

Es la segunda parte la que aún no se ha tratado de manera adecuada. La interacción es, para muchos usuarios, el Santo Grial de la visualización en la minería de datos. La manipulación de los datos y la visualización de los resultados de manera dinámica, permite al usuario tener una idea de la dinámica y comprobar si algo realmente contrario a la intuición está pasando. La interactividad ayuda a lograr esto. Ver un árbol de decisión es agradable, pero lo que realmente quiere hacer el usuario es arrastrar y soltar los segmentos en un mapa con el fin de responder al interminable número de preguntas “qué pasaría si”.

La integración con otras herramientas de apoyo a las decisiones (por ejemplo, OLAP) permitirá a los usuarios ver los resultados de minería de datos.

Confiando en el Modelo

La atribución de confianza correcta para los modelos de minería de datos  es esencial para su utilización. Una buena medida cuantitativa de la “confianza”, en última instancia, debe reflejar la probabilidad de que las predicciones del modelo se corresponderían con los objetivos de la prueba.  Además, dado que, como con cualquier modelo científico, una última instancia, sólo puede refutar el modelo, la visualización de las limitaciones del modelo es de primordial importancia. Dado que la minería de datos se basa principalmente en datos de entrenamiento, es importante entender las limitaciones que establecen dichos datos en la futura aplicación del modelo resultante.

El conocimiento del dominio también es fundamental para la detección de valores extremos necesarios para limpiar los datos y evitar los problemas. Si un modelo de minería de datos se construye utilizando los datos donde los valores extremos sean datos incorrectos,  afectará al modelo resultante. El papel de la visualización aquí es sobre todo hacer notar las estructuras de datos del modelo que violan el conocimiento del dominio.

No todas las evaluaciones de confianza son de naturaleza negativa.  La evaluación de la confianza también está estrechamente relacionada con la comparación de modelos. En particular, es muy útil para comprender la sensibilidad de las predicciones del modelo, la calidad de los parámetros y / o su estructura.

Los resúmenes estadísticos de todo tipo también son comunes y útiles para recoger ideas para la evaluación de la confianza del modelo.  Pueden ser particularmente útiles para la comparación de la confianza relativa de dos modelos, permitiendo el análisis, centrándose en los subgrupos de características por las cuales sus relaciones difieren más significativamente.

Lo más útil son los modelos que cumplen los requisitos de su propia confianza hasta cierto punto, como en la cuantificación de la variación esperada en el error de sus predicciones.

La comprobación de la consistencia interna, es tal vez en última instancia, una de las maneras más importantes para juzgar la fiabilidad de un modelo

Descripción del modelo

Un modelo que puede ser comprendido es un modelo en que se puede confiar. Los métodos estadísticos para construir la confianza en un modelo no permiten evaluar la validez semántica del modelo, es decir, su aplicabilidad al mundo real.

Un algoritmo de minería de datos que utiliza un modelo humano-comprensible, se puede comprobar fácilmente por los expertos, proporcionando la validez semántica necesaria para el modelo. Pero desafortunadamente, los usuarios se ven obligados a sacrificar la precisión del modelo.

Técnicas avanzadas de visualización, pueden ampliar la gama de modelos entendidos por los expertos, aliviando así la exactitud / comprensibilidad trade-off. Los tres componentes esenciales para la comprensión de un modelo son: la representación, la interacción y la integración.

– La representación se refiere a la forma visual en el que el modelo aparece. Una buena representación muestra el modelo en términos de componentes visuales que son familiares para el usuario.

– La interacción se refiere a la capacidad de ver el modelo en acción en tiempo real, para permitir al usuario jugar con el modelo como si se tratara de una máquina.

– La integración se refiere a la capacidad de mostrar las relaciones entre el modelo y otros puntos de vista de los datos en que se basa. La integración proporciona el contexto del usuario.

Nos vamos a centrar en la comprensión de modelos de clasificación. En concreto, vamos a examinar tres modelos gráficos: árboles de decisión, modelos bayesianos simples, y tablas de decisión.

La representación gráfica debe ser suficientemente simple como para ser fácil de entender, pero lo suficientemente completa como para revelar toda la información presente en el modelo.  Visualizaciones en tres dimensiones tienen el potencial de mostrar mucha más información que en dos dimensiones. La navegación en una escena le permite a uno centrarse en un elemento de interés, manteniendo el resto de la estructura en su contexto. Es crítico, sin embargo, que el usuario sea capaz de desplazarse a través de una visualización tridimensional en tiempo real. Una imagen de una escena en tres dimensiones no es más que una proyección en dos dimensiones y suele ser más difícil de entender que una escena construida en dos dimensiones.

Incluso con tres dimensiones, muchos modelos todavía contienen demasiada información para mostrar simplemente. En estos casos, la visualización debe simplificar la representación.

Los árboles de decisión son fáciles de entender, pero puede llegar a ser abrumadoramente grande.  El usuario puede obtener una comprensión básica del árbol siguiendo las ramas. Los niveles adicionales de detalle se revelan sólo cuando el usuario navega a un nivel más profundo, proporcionando más información sólo cuando sea necesario.

 

Uso de tablas de decisión como una representación del modelo genera un modelo simple pero de gran tamaño. Una tabla de decisión completa, teóricamente contiene el conjunto de datos, que puede ser muy grande. Por lo tanto es indispensable una simplificación.

Los datos se agregan de forma automática para proporcionar un resumen usando sólo las características más importantes. Cuando el usuario desea obtener más información, puede profundizar en tantos niveles como sea necesario para responder a su pregunta. La visualización cambia automáticamente la agregación de los datos para visualizar el nivel de detalle deseado.

Si bien una buena representación en gran medida puede ayudar a la comprensión del usuario, en muchos casos, el modelo contiene demasiada información para proporcionar una representación que es a la vez completa y comprensible. En estos casos, explotar la capacidad del cerebro para razonar acerca de causa y efecto y que el usuario pueda interactuar con el modelo más complejo. La interacción puede ser considerada como “la comprensión en la práctica” en lugar de “comprensión por ver”.

Los modelos bayesianos simples se basan en la multiplicación de las matrices de probabilidades, que son difíciles de entender por sí mismos. Sin embargo, al permitir al usuario seleccionar los valores para las características y ver los efectos, la visualización proporciona una perspectiva de causa y efecto en la operación del clasificador. El usuario puede jugar con el modelo para comprender exactamente como la cantidad de cada función afecta a la clasificación y en última instancia, decide aceptar o rechazar el resultado.

Más allá de la clasificación interactiva, de forma interactiva la orientación del proceso de construcción del modelo proporciona un control adicional y comprensión para el usuario. El árbol de decisión da al usuario un control total sobre cuándo y cómo se construye el árbol. El usuario puede sugerir  una  poda, o de forma manual la construcción de las secciones del árbol. Esta facilidad puede aumentar en gran medida la comprensión.

Las técnicas de integración que se utilizan se presentan en tres formas: para obtención de detalles, el cepillado y visualizaciones coordinadas.  Por ejemplo, el árbol de decisión visualizador permite la selección y obtención de detalles en las ramas individuales del árbol. Esto facilitará el acceso a los datos originales que se utilizaron para la construcción de las ramas, dejando de lado los datos representados por otras partes del árbol. El cepillado se refiere a la capacidad de seleccionar las piezas de un modelo. Visualizaciones coordinadas nos muestran múltiples representaciones del mismo modelo, junto con las representaciones de los datos originales.  Las tres formas ayudan al usuario a comprender cómo el modelo se refiere a los datos originales. Esto proporciona un contexto externo para el modelo y ayuda a establecer la validez semántica.

Comparación entre modelos que utilizan la visualización

La comparación de modelos requiere la creación de un medio apropiado para el espacio de los modelos que se trate. Para visualizar el modelo de comparación, estas cifras deben ser interpretables por un observador humano a través de su sistema visual. El primer paso es crear un mapeo de entrada a la salida del proceso de modelado. El segundo paso consiste en asignar a este proceso el espacio visual humano.

 

Conclusión

Hemos visto una serie de métodos para visualizar modelos de minería de datos. Dado que los modelos de minería de datos suele generar resultados que antes eran desconocidos para el usuario, es importante que cualquier modelo de visualización proporcione al usuario un nivel suficiente de comprensión y confianza.

Minería de datos sobre ontologías

Oct 24, 2011   //   by jc.cantera   //   Minería de Datos  //  1 Comment

Las aplicaciones del mundo real están cargadas de gran cantidad de datos e incluyen entidades que evolucionan con el tiempo. Sin embargo, este entorno rico en datos no significa necesariamente que sea rico en información. Debido a la naturaleza dinámica del entorno, los datos deben ser interpretados de manera diferente dependiendo de la situación (el contexto). Por ejemplo, el significado de fiebre alta de un paciente de catarro podría ser diferente de la fiebre de un paciente de neumonía.

El contexto es un concepto potente y de gran influencia. Puede ser útil en la interacción persona-máquina, principalmente a través de contextos explícitos de la comunicación (por ejemplo, entrada de la consulta del usuario). Otros factores implícitos de contexto (por ejemplo, físico, condiciones ambientales, lugar, hora, etc.) suelen ser ignorados por el equipo debido a la ausencia de una base de conocimiento o de un modelo adecuado.

La minería de datos sensible al contexto tiene que ver con la forma en que los atributos deben ser interpretados con criterios específicos de cada solicitud. Los actuales enfoques de la minería no proporcionan el apoyo adecuado para  minería de datos sensible al contexto. La razón principal de esto es la falta de contexto rico que especifica cuándo y cómo una minería de datos se debe aplicar a su contexto.

Para interpretar y mejorar la entrada explícita del usuario podrían utilizarse factores implícitos al contexto, lo que afecta los resultados de minería de datos para ofrecer una predicción de resultados exacta y precisa. Diferentes comportamientos y funcionalidades de minería de datos son muy útiles y necesarios en la generación de información dinámica, incierta, y en entornos distribuidos. Se debe a que tales conductas y capacidades pueden ayudar a aumentar los grados de eficacia y flexibilidad del proceso de minería de datos.

Las ontologías proporcionan un medio para representar la información o el conocimiento procesable por una máquina. Este conocimiento se puede comunicar entre diferentes agentes. El marco representa los factores de contexto en ontologías. Contexto es un término muy subjetivo y depende del dominio en cuestión. Por lo tanto, podemos diferenciar dos partes en la minería sensible al contexto: la representación real del factor de contexto para un dominio en la ontología correspondiente y un marco genérico en el que se puede consultar esta ontología e invocar a los procesos de  minería y coordinarlos de acuerdo con el diseño de la ontología. La representación del conocimiento en la ontología puede ser un bloque de construcción para la minería de datos basados en contexto.

El Descubrimiento de Conocimiento en Bases de Datos es un proceso exploratorio que involucra la aplicación de varios procedimientos algorítmicos para la manipulación de datos, construcción de modelos desde los datos y la manipulación de los mismos. El proceso de Descubrimiento de Conocimiento (KD) es una de las nociones centrales del campo de Descubrimiento de Conocimiento y Data Mining (KDD).

En particular el proyecto de investigación se centraliza en un subconjunto de estados de los procesos de KD (estos estados a su vez tienen múltiples componentes de algoritmos que pueden ser aplicados). A este proceso le denominamos Minería de Datos, distinguido del proceso más extenso de Descubrimiento de Conocimiento en Base de Datos. Hay que poner énfasis en tres procesos de KD: preproceso automático de datos, aplicación de algoritmos de inducción, y post-proceso automático de modelos.

Se selecciona este conjunto de pasos, porque individualmente, se encuentran relativamente bien comprendidos y pueden ser aplicados a una amplia variedad de conjunto de datos.

Proceso KDD

Proceso KDD

En la figura se pueden observar las áreas donde se pueden aplicar las ontologías en el proceso de descubrimiento de conocimiento.

Aplicación de  Minería de datos a Ontologías

Aplicación de Minería de datos a Ontologías

De esta manera, podemos ver a la relación entre Ontologías y Minería de Datos de dos modos:

  • Desde las Ontologías a la Minería de Datos, incorporamos el conocimiento al proceso por el uso de ontologías, es decir, cómo los expertos entienden y realizan las tareas de análisis. Las aplicaciones representativas son ayudantes inteligentes para el proceso de descubrimiento, la interpretación y la validación del conocimiento extraído.
  • Desde la Minería de Datos a Ontologías, incluimos el conocimiento del dominio en la información de entrada o usamos las ontologías para representar los resultados. Por lo tanto el análisis es realizado sobre estas ontologías. Las aplicaciones más representativas están en Medicina, Biología y Datos Espaciales, como: la representación de Genes, Taxonomías, aplicaciones en Geociencias, aplicaciones médicas.

Aplicando el ciclo CRISP-DM de minería sobre una ontología

CRISP-DM es la metodología más extendida para describir los pasos del proceso de KDD.

El ciclo de vida de CRISP-DM en el dominio de la ontología

Ciclo Crisp-DM

Ciclo Crisp-DM

En el modelo CRISP-DM se distinguen seis fases principales de un proceso de KDD: comprensión  del Negocio, la comprensión de datos, preparación de datos, modelado, evaluación e implementación.

  • El papel de las ontologías en la comprensión del negocio no es exclusivo de KDD. Las ontologías de dominio son un importante vehículo para la inspección de un dominio antes de comprometerse con una tarea en particular. Ontologías semi-formales  pueden ayudar a un recién llegado a familiarizarse con los conceptos más importantes y las relaciones, mientras que las ontologías oficiales permiten identificar a los supuestos conflictos que pueden no ser evidentes a primera vista.
  • Para la comprensión de datos mejorada, los elementos de una ontología tienen que ser asignados (es de suponer, manualmente) a los elementos del esquema de datos y viceversa. Normalmente, esto conducirá a la selección de solamente una parte relevante de una ontología (o múltiples ontologías). Los beneficios de este esfuerzo podrían ser, por ejemplo:
    • Identificación de los atributos que faltan que se debe agregar al conjunto de datos
    • La identificación de atributos redundantes (por ejemplo, la medición de la misma cantidad en diferentes unidades) que podrían ser eliminados del conjunto de datos.
  • La fase de preparación de datos ya está conectando con el modelado en la fase posterior. Por lo tanto, el uso concreto de la ontología de dominio depende en parte de la herramienta de minería elegida. Una ontología general, puede ayudar a identificar múltiples  grupos de atributos y/o valores de acuerdo con criterios semánticos.
  • En la fase de modelado, las ontologías pueden ayudar a diseñar las sesiones individuales de minería. En particular, para grandes conjuntos de datos, en los que valdría la pena introducir algún sesgo ontológico, por ejemplo, para pasar el examen cuantitativo de las hipótesis que no tendría sentido desde el punto de vista ontológico, o, por el contrario, de los que evidente en la ontología.
  • En la fase de evaluación, el/los modelos descubierto/s tienen el carácter de conocimiento estructurado en torno a los conceptos (mapeado en los atributos de datos), y por lo tanto puede ser interpretada en términos de la ontología y asociados a conocimientos previos.
  • En la fase de implementación, el conocimiento extraído realimenta el entorno del negocio. Siempre y cuando previamente el modelo del negocio se haya plasmado por mediante una  ontología, la integración de nuevos conocimientos una vez más puede estar mediada por la ontología del negocio. Por otra parte, si los resultados de la minería se distribuyen  través de múltiples organizaciones (por ejemplo, utilizando la infraestructura de la web semántica), la asignación a una ontología compartida es inevitable.

Se han estudiado varias aproximaciones de minería de datos sobre ontologías:

Minería de asociación

Mediante procedimientos  para análisis de datos representados como strings o bits. De esta manera, es posible generar y verificar patrones diferentes de manera eficiente. Algunos de los más usados se basa en el análisis de una tabla de contingencia de cuatro fases. Busca relaciones para 16 tipos de reglas de asociación (RA), incluyendo RA correspondientes a la prueba de hipótesis estadísticas y RA condicionales. Otros procecimientos se usan para los patrones basados en la evaluación de tablas de dos dimensiones de contingencia de dos atributos categóricos. Y alguno más que busca relaciones para las parejas de subconjuntos disjuntos de objetos observados que difieren en alguna propiedad de atributos.

Se obtienen RA de la forma φ ≈ ψ, donde se les llama φ y ψ antecedente y consecuente, respectivamente. El símbolo ≈ se refiere a un cuantificador, es decir, una condición en la tabla de contingencia de cuatro dimensiones de φ y ψ. La tabla de contingencia de cuatro dimensiones de φ y ψ en los datos de la matriz M es un cuádrupla ? a, b, c, d? de números naturales de tal manera que uno es el número de objetos de datos de M que satisfacen tanto φ y ψ, b es el número de objetos de datos de M φ ψ satisfactoria y no satisfactoria, c es la número de objetos de datos de φ M no satisfactoria y ψ satisfactoria, y d es la número de de M de M que no cumplan ni φ ψ.

Este modelo se ha utilizado para un experimento realizado con una ontología de dominio de riesgo cardio-vascular.

KDDONTO

KDDONTO es una ontología para apoyar tanto el descubrimiento de algoritmos adecuados y la composición de la KDD de los procesos de KDD. Con este fin, se utiliza una metodología de construcción de ontologías enfocada a definir ontologías orientadas a objetivos y que satisfagan los requisitos de calidad. Cada paso de esta metodología devuelve como salida una ontología válida representada en un lenguaje diferente. En primer lugar, las condiciones básicas que caracterizan algoritmos KDD se identifican y organizan en un glosario, y después las clases y las relaciones de la ontología se derivan formalmente de ella en forma axiomática. Por último, se obtiene una implementación de OWL-DL de la KDDONTO.

En este sentido  se ha desarrollado el proyecto Knowledge Discovery in Databases Virtual Mart (KDDVM), un proyecto más general para el desarrollo de un proceso abierto y entorno extensible donde los usuarios pueden buscar aplicaciones, sugerencias, evaluaciones, ejemplos de uso de las herramientas implementadas como servicios. En este marco, la KDDONTO es explotada para apoyar tanto el descubrimiento de servicios web como la aplicación de algoritmos de KDD, y su composición para la construcción de procesos de KDD. En particular, el uso de una ontología como garantías para obtener validez, resultados útiles y desconocidas.

Híbrido entre minería de datos y ontología

Para permitir el intercambio de conocimientos con el de aplicaciones exitosas de KDD los procesos y sus datos se almacenan en un meta-modelo llamado M4. Al hacer operativo M4, se apoya no sólo el almacenamiento, la documentación y el intercambio de tales procesos, sino también su desarrollo inicial y la ejecución. M4 se compone de un modelo de datos y un modelo de caso, como se explica a continuación:

  1. Los datos se modelan en dos niveles. En primer lugar, se almacena el esquema de base de datos, que describe las tablas, sus atributos y relaciones entre tablas. Este permite un acceso permanente a esta información en bases de datos. En segundo lugar, un nivel de la ontología se introduce que permite describir los datos en términos más abstractos. Básicamente, el nivel de la ontología utiliza los conceptos con las características y las relaciones, para modelar los datos. Obviamente, la asignación entre los dos niveles es crucial. La principal ventaja de este modelo de datos de dos niveles es que todo el procesamiento de datos se describe en términos de la ontología nivel, que permite volver a utilizar la descripción completa en una nueva base de datos simplemente cambiando la asignación inicial.
  2. Una secuencia completa de operaciones que describe un proceso de KDD se llama caso. El modelo del caso describe las operaciones ejecutadas con los datos, proporcionando un conjunto abierto de los operadores xed que realizan transformaciones básicas de los datos, así como pasos de aprendizaje más sofisticadas (a veces el aprendizaje se aplica durante el preprocesamiento). Aparte de algunos operadores con parámetros opcionales específicos (constantes) todas las entradas y salidas de los operadores se especifican en términos de la ontología de dominio. Las secuencias de salidas de un operador válido se encuentran disponibles como entrada para los pasos posteriores. Tan pronto como las entradas de un operador se han asignado a los objetos de base de datos se convierte en ejecutable. Cada operador tiene una tarea específica que es básicamente para establecer una visión nueva base de datos en los datos de entrada. Este proceso puede ser visto como una transformación en una representación diferente de los datos. El compilador es el sistema M4,  responsable de la ejecución de los operadores de los componentes. Lee la información sobre cómo aplicar los operadores en el presente caso de la M4 y crea puntos de vista basados en el código SQL generado de forma dinámica.

Existen entornos gráficos que permiten: a) creación y edición de objetos en el nivel de la ontología y asignarlos a los objetos de base de datos, y b) crear y editar las cadenas de los operadores. Además, toda la información relacionada con un caso M4 puede ser importada y exportada a ficheros XML, los cuales se pueden intercambiar entre los usuarios.

Las principales ventajas de este enfoque son:

  • Descripción de los datos en términos familiares para el usuario
  • Documentación automática de los datos y pasos de procesamiento
  • La reutilización de las aplicaciones en diferentes bases de datos KDD
  • Intercambiabilidad de conocimiento acerca de aplicaciones exitosas de KDD

Reformulation Query

El uso del conocimiento semántico en sus diversas formas, como meta-modelos, reglas semánticas y restricciones de integridad puede mejorar el procesamiento de consultas capacidades de vínculos mediante la transformación de las consultas del usuario en otros que sean semánticamente equivalentes, que pueden ser contestadas en menos tiempo y/o con menos recursos. A veces, el sistema no necesita escanear la base de datos completa para responder a una consulta y una breve respuesta podría satisfacer las necesidades de los usuarios. Este aspecto de la base de datos emergentes se conoce como optimización de las consultas semánticas. Por otra parte, hay también varios mecanismos de conocimiento de bases de datos que utilizan el conocimiento semántico basado en un conjunto de conocimiento intencional, incluyendo las reglas de deducción, las reglas generales, y jerarquías de conceptos con el fin de ofrecer una “respuesta inteligente” para las consultas. “Respuesta Inteligente ” a una consulta se refiere a proporcionar al usuario respuestas intencionales, además de los datos (hechos). Estas respuestas incluyen alguna generalizada, por vecindad, o información asociada que caracteriza a los resultados de los datos. En la actualidad, se trabaja en la investigación en la integración de la Web Semántica y los datos se centran en el uso de ontologías como soporte semántico para el procesamiento de datos. Las ontologías han demostrado ser útiles para capturar el contenido semántico de las fuentes de datos y para unificar las relaciones semánticas entre las estructuras heterogéneas. De este modo, los usuarios no deben preocuparse por dónde y cómo se organizan los datos en las fuentes. Por esta razón, los sistemas como OBSERVER  y TAMBIS permiten a los usuarios a formular sus consultas a través de una ontología sin acceso directo a las fuentes de datos.

Los datos de una ontología pueden ser explotados de forma efectiva para reformular una consulta de usuario de tal manera que la nueva consulta puede proporcionar resultados más “significativo” de la reunión la intención del usuario. Una consulta puede ser definida por un conjunto de selecciones y proyecciones sobre los objetos de base de datos que satisfagan una serie de condiciones. Estas condiciones son definidas por un conjunto de términos y determinan la respuesta a la consulta. Si un usuario desea recuperar información de una base de datos sobre determinados objetos, se pueden usar términos que no coinciden exactamente con los valores de base de datos (debido a la falta de correspondencia entre la visión del mundo del usuario y la del diseñador de la base de datos). Sin embargo, puede haber valores en la base de datos que son sintácticamente diferentes de los términos de usuario, pero tienen el mismo significado y expresan la misma intención del usuario. Este tema se aborda como un problema semántico en lugar de como un problema de coincidencia de patrones. Como consecuencia de ello, si se considera la semántica en el procesamiento de consultas, el número de resultados para la consulta transformado puede aumentar o disminuir. En ambos casos, el usuario recibe una respuesta que cumple con sus expectativas en comparación con el resultado sin necesidad de utilizar más conocimiento. Comparado con los métodos de optimización de consultas el objetivo no es acelerar el procesamiento de consultas, sino proporcionar respuestas más significativas a los usuarios. Con este fin, se desarrolla un conjunto de reglas de reformulación.

Articulos relacionados

Procesamiento del lenguaje natural y Descubrimiento de conocimiento (KDD)

Procesamiento del lenguaje natural y Descubrimiento de conocimiento (KDD)

Sep 28, 2011   //   by jc.cantera   //   Minería de Datos  //  3 Comments

 

La realización de consultas complejas sobre un conjunto de datos, y el acceso a los métodos de clasificación, predicción y decisión son tareas complejas que se han venido realizando de forma manual.

Actualmente existe una novedosa funcionalidad que consiste en preguntar, a partir de técnicas de lenguaje natural y procesos de Data Mining, directamente a través de reglas de negocio embebidas en el sistema. El Procesamiento de Lenguaje Natural (PLN), en inglés NLP (Natural Language Processing) es una disciplina de la inteligencia artificial y la rama de ingeniería de la lingüística computacional.
El lenguaje natural es el lenguaje hablado o escrito por humanos para propósitos generales de comunicación. Hay que distinguirlo de otros  lenguajes como los de programación o los usados en el estudio de la lógica formal, especialmente la lógica matemática.
El NLP se ocupa de la formulación y búsqueda de mecanismos para el procesamiento automático de la comunicación entre personas o entre personas y máquinas, que usan lenguajes naturales. Para la interpretación del lenguaje natural es fundamental la integración de diccionarios, ontologías y gramáticas de un dominio concreto, previamente creadas, que puedan comprender la mayor parte del vocabulario que se usará para realizar consultas.
El NLP no trata de la comunicación por medio de lenguajes naturales de una manera abstracta, sino que intenta diseñar mecanismos para comunicarse que sean eficaces computacionalmente. Los modelos aplicados se enfocan no sólo a la comprensión del lenguaje, sino a aspectos generales cognitivos humanos y a la organización de la memoria.

El lenguaje natural es inherentemente ambiguo a diferentes niveles. Por ejemplo, a nivel léxico, una misma palabra puede tener varios significados, y la selección del apropiado se ha de deducir a partir del contexto oracional. Muchas investigaciones en el campo del NLP han estudiado métodos de resolver dichas ambigüedades mediante diccionarios, gramáticas, bases de conocimiento y correlaciones estadísticas. La consulta de un usuario normalmente consiste en un conjunto de palabras clave relevantes y/o expresiones regulares que es analizada, y que se identifica con el conjunto de datos indexados como elemento de un fragmento de un texto.

Existe una metodología, “Question Answering” (QA), en la que una tarea automática, a partir de una pregunta expresada en lenguaje natural,  obtiene una respuesta correcta procedente de colecciones de documentos o de la Web indexados.

Existe mucha literatura al respecto de la utilización de algoritmos de Minería de Datos para su aplicación en la comprensión del Lenguaje Natural (redes bayesianas, modelos ocultos de Marcov, Laplace, series de Fourier aplicadas, redes neuronales, reglas… ) pero, sin embargo, pocos estudios han profundizado en la posibilidad de lanzar métodos de extracción de conocimiento a partir de premisas pedidas en base a sistemas “pregunta-respuesta” (QA), sin necesidad de programación, modelado de algoritmos estadísticos, o navegación por los datos, como es habitual en la gestión de las actuales plataformas de DataMining. Esta funcionalidad, denominada por algunos como Knowledge discovery query language (KDQL), permitirá dotar de una potencialidad aún mayor a un sistema que, ya de por sí, contiene un gran sustrato de conocimiento, que no de información.

KDQL en el proceso KDD (Knowledge Data Discovery)

El fondo de KDQL proviene de SQL (Structure Query Language) sobre el que se han propuesto varias extensiones al SQL para que sirva al lenguaje de consulta de minería de datos (DMQL – data mining query language).

El objetivo de descubrimiento de conocimiento (KDD) es obtener un conocimiento útil a partir de grandes colecciones de datos. Este proceso es inherentemente interactivo e iterativo: no se puede esperar para obtener conocimiento útil con la simple introducción de muchos datos a una caja negra. El usuario de un sistema KDD tiene que tener un conocimiento sólido del dominio con el fin de seleccionar correctamente el subconjuntos de datos, las clases adecuadas de patrones, y buenos criterios sobre el interés de los patrones. Así, los sistemas de KDD deben ser visto como herramientas interactivas, como no sistemas de análisis automático. El descubrimiento de conocimiento a partir de bases de datos KDQL por lo tanto, debe ser visto como un proceso que contiene varias pasos:

1. La comprensión del dominio,
2. Preparación del conjunto de datos,
3. Descubrir patrones (DM),
4. Post-procesamiento de los patrones descubiertos, y
5. Poner los resultados en su uso.

El proceso de KDD es necesariamente iterativo: los resultados de un paso DM pueden mostrar que se deben hacer algunos ajustes en la formación de etapas dentro del conjunto de datos, o el post-procesamiento de los patrones puede provocar que el usuario busque algunos tipos ligeramente modificados de los mismos, etc. En el proceso KDD es importante un apoyo eficaz en la iteración.  En este sentido, existen aplicaciones que incluyen prominentes ejemplos de KDD sobre datos de salud, aplicaciones financieras, y datos científicos. En la industria, el éxito de la KDD se debe en parte al aumento de los volúmenes de datos almacenados y análisis on-line (on-line analytical processing – OLAP). Estas estrategias del almacenamiento y tratamiento de la los datos acumulados en una organización se han hecho populares en los últimos años. KDD y DM pueden ser vistos como formas de la realización de algunas de las metas del almacenamiento de los datos y OLAP.

Minería de datos sobre ontologías

Las aplicaciones del mundo real están cargadas de gran cantidad de datos e incluyen entidades que evolucionan con el tiempo. Sin embargo, este entorno rico en datos no significa necesariamente que sea rico en información. Debido a la naturaleza dinámica del entorno, los datos deben ser interpretados de manera diferente dependiendo de la situación (el contexto). Por ejemplo, el significado de fiebre alta de un paciente de catarro podría ser diferente de la fiebre de un paciente de neumonía.

El contexto es un concepto potente y de gran influencia. Puede ser útil en la interacción persona-máquina, principalmente a través de contextos explícitos de la comunicación (por ejemplo, entrada de la consulta del usuario). otros factores implícitos de contexto (por ejemplo, físico, condiciones ambientales, lugar, hora, etc.) suelen ser ignorados por el equipo debido a la ausencia de una base de conocimiento o de un modelo adecuado.

La minería de datos sensible al contexto tiene que ver con la forma en que los atributos deben ser interpretados con criterios específicos de cada solicitud. Los actuales enfoques de la minería no proporcionan el apoyo adecuado para  minería de datos sensible al contexto. La razón principal de esto es la falta de contexto rico que especifica cuándo y cómo una minería de datos se debe aplicar a su contexto.

Para interpretar y mejorar la entrada explícita del usuario podrían utilizarse factores implícitos al contexto, lo que afecta los resultados de minería de datos para ofrecer una predicción de resultados exacta y precisa. Diferentes comportamientos y funcionalidades de minería de datos son muy útiles y necesarios en la generación de información dinámica, incierta, y en entornos distribuidos. Se debe a que tales conductas y capacidades pueden ayudar a aumentar los grados de eficacia y flexibilidad del proceso de minería de datos.

Minería de datos sensible al contexto, Ontología

Las ontologías proporcionan un medio para representar la información o el conocimiento procesable por una máquina. Este conocimiento se puede comunicar entre diferentes agentes. El marco representa los factores de contexto en ontologías. Contexto es un término muy subjetivo y depende del dominio en cuestión. Por lo tanto, podemos diferenciar dos partes en la minería sensible al contexto: la representación real del factor de contexto para un dominio en la ontología correspondiente y un marco genérico en el que se puede consultar esta ontología e invocar a los procesos de  minería y coordinarlos de acuerdo con el diseño de la ontología. La representación del conocimiento en la ontología puede ser un bloque de construcción para la minería de datos basados en contexto.

El tratamiento masivo de datos (Big Data): La próxima frontera para la innovación, la competencia, y la productividad

Sep 5, 2011   //   by oa.usun   //   Minería de Datos  //  6 Comments

 

La cantidad de datos en nuestro mundo ha sufrido una gran explosión y el análisis de grandes conjuntos de datos-el llamado big data- va a convertirse en una base clave de la competencia, que sustentan las nuevas olas de crecimiento de la productividad, la innovación y el excelencia.

Un completo informe de MGI y McKinsey apunta al “big data”, el tratamiento masivo de datos, como uno de los negocios con mayor futuro. De hecho, lo llega a calificar como “la próxima revolución informática”, en la medida en que crea nuevas oportunidades y todo un sector que ya se está poblando de empresas como Cloudera, Hadapt, Mapr, Factual, Apixio, Datastax, Zettaset, Acunu, Couchbase o 10gen.

El “big data” consiste en analizar y explotar grandes masas de datos para crear nuevos productos o mejorar la competitividad y la productividad. Hoy es posible realizar este trabajo por la proliferación de información en Internet pero también porque existe software libre específicamente diseñado para esta labor, como Hadoop o MongoDB, y porque el coste del almacenamiento informático se ha reducido sustancialmente.

MGI estudiaron los datos en cinco grandes ámbitos: Sanidad en los Estados Unidos, el sector público en Europa, el comercio minorista en los Estados Unidos, y la fabricación y ubicación de los datos personales a nivel mundial.

El aprovechamiento del tratamiento masivo de datos en el sector público tiene un enorme potencial.

La geolocalización continua que generan los smartphones, los resultados de análisis de constantes vitales, las compras online, los comentarios en redes sociales o las transacciones con chips NFC. Esta información se genera constantemente pero apenas se trata, pese a que puede resultar muy útil para múltiples actividades empresariales.

La investigación ofrece siete ideas clave.

  1. Los datos se han extendido en todas las industrias y funciones de negocios y ahora son un factor importante de la producción, junto a la mano de obra y el capital.
  2. Hay cinco formas amplias en las que a partir del tratamiento masivo de datos se pueden crear valor. Primero, hacer la información transparente y utilizable más frecuentemente. Segundo, las organizaciones crean y almacenan más datos transaccionales en forma digital, pueden recopilar información de rendimiento más precisa y detallada, y por lo tanto, mejorar el rendimiento. Tercero, el tratamiento masivo de datos permite la segmentación cada vez más estrecha de los clientes y por lo tanto, los productos pueden ofrecerse de forma más precisa a medida como así los servicios. Cuarto, puede mejorar sustancialmente la toma de decisiones. Finalmente, el tratamiento masivo de datos se pueden utilizar para mejorar el desarrollo de la próxima generación de productos y servicios.
  3. El uso del tratamiento masivo de datos se convertirá en una base clave de la competencia y el crecimiento de las empresas. Desde el punto de vista de la competitividad y la captura potencial de valor, todas las empresas deben tomar el tratamiento masivo de datos con seriedad.
  4. El uso del tratamiento masivo de datos sustenta las nuevas olas de crecimiento de la productividad.
  5. Aunque el uso del tratamiento masivo de datos se implementa en todos los sectores, en algunos se obtienen mayores ganancias. Los sectores de productos informáticos y electrónicos y de la información, así como finanzas y seguros, y relacionados con la administración pública, son los que más pueden beneficiarse de la utilización del tratamiento masivo de datos. Especialmentela Sanidadpodría rebajar los costes de los procedimientos un 15% y en el ámbito industrial, sería posible aumentar la productividad hasta un 60% al mejorar el diseño, calidad, marketing, previsión de demanda o la distribución.
  6. Habrá escasez del talento necesario para que las organizaciones puedan aprovechar el tratamiento masivo de datos.
  7. Varias cuestiones tendrán que ser dirigidas para aprovechar todo el potencial del tratamiento masivo de datos. Las políticas relacionadas con la privacidad, seguridad, propiedad intelectual, y la responsabilidad, tendrán que ser abordadas en el entorno del tratamiento masivo de datos. Las organizaciones necesitan no sólo poner el talento y la tecnología, sino también los flujos de trabajo y la estructura de incentivos para optimizar el uso del tratamiento masivo de datos. El acceso a los datos es crítica, las empresas cada vez tienen más necesidad de integrar la información de múltiples fuentes de datos, a menudo por parte de terceros, y los incentivos tienen que estar en su lugar para permitir esto.

Estas ideas clave se resumen en las siguientes: optimización de procesos, toma de decisiones, captación de tendencias, minimización de riesgos, análisis de opiniones, creación de nuevos nichos de mercado.

Uno de los ejemplos que se menciona entre líneas es el de Inditex, propietario de varias firmas de distribución y que ya emplea desde hace años el tratamiento masivo de datos para analizar qué productos tienen mayor demanda, con el fin de incrementar su producción. El informe habla, de todas formas, de muchas otras posibilidades en este sector, como poder incrementar los precios en tiempo real en ciertas tiendas, ofrecer uno u otro artículo en función de la localización concreta de una persona o innovar con la información obtenida de los clientes.

Y entre los nuevos negocios que empiezan a ser viables, además de los intermediarios en el análisis de los datos, se citan expresamente las pólizas de seguro que solo se activan cuando un vehículo está en movimiento, los servicios de tasación de propiedad inmobiliaria en base a la geolocalización de un posible comprador, las webs de comparación de precios o el análisis de sentimientos de lo que opinan los consumidores.

TECNICAS PARA ANALIZAR BIG DATA

Hay muchas técnicas que se basan en disciplinas como la estadística y la informática que se pueden utilizar para analizar conjuntos de datos. Aquí ofrecemos una lista de algunas de las técnicas aplicables en una amplia gama de industrias. Sin embargo, todas las técnicas que la lista se puede aplicar al tratamiento masivo de datos.

A / B testing. Una técnica en la que se compara un grupo de control con una variedad de grupos de prueba para determinar qué cambios mejoran una variable objetivo determinado. Esta técnica también se conoce como split testing o bucket testing. Un ejemplo de aplicación es determinar qué textos, presentaciones, imágenes, colores mejorará los ratios convirtiendo una Web en un sitio de comercio electrónico. Big data permite a un gran número de pruebas para ser ejecutado y analizado, lo que garantiza que los grupos son de tamaño suficiente para detectar estadísticamente significativas diferencias entre el control y los grupos de tratamiento.

Reglas de Asociación. Un conjunto de técnicas para descubrir relaciones interesantes, es decir, “reglas de asociación,” entre las variables en las grandes bases de datos. Estas técnicas consisten en una serie de algoritmos para generar y poner a prueba las reglas posibles. Una de las aplicaciones es el análisis de la compra, en la que un vendedor puede determinar qué productos se compran conjuntamente con frecuencia y usar esta información para la comercialización (un ejemplo que se cita es el descubrimiento de que muchos compradores de supermercados que compran pañales también tienden a comprar cerveza).

Clasificación. Un conjunto de técnicas para identificar las categorías a las que nuevos data points pertenecen, sobre la base de un entrenamiento conjunto que contiene los data points que ya han sido clasificadas. Una aplicación es la predicción de segmentos específicos de comportamiento de los clientes (por ejemplo, las decisiones de compra, tasa de rotación, tasa de consumo), donde hay una hipótesis clara o un resultado objetivo.

El análisis de cluster. Un método estadístico para clasificar los objetos que se divide un grupo diverso en pequeños grupos de objetos similares, cuyas características de similitud no se conocen de antemano. Un ejemplo de análisis de cluster es la segmentación de los consumidores en grupos de auto-similares para la comercialización directa. Este es un tipo de aprendizaje no supervisado, porque los datos de entrenamiento no se utilizan. Esta técnica está en contraste con la clasificación, un tipo de aprendizaje supervisado.

Crowdsourcing. Una técnica de recogida de datos presentados por un gran grupo de personas o comunidad (es decir, la “multitud”) a través de una convocatoria abierta, por lo general a través de los medios de comunicación en red, tales como la Web. Estees un tipo de colaboración masiva y un ejemplo del uso de Internet 2.0.

Fusión de datos e integración de datos. Un conjunto de técnicas para integrar y analizar datos de múltiples fuentes con el fin de desarrollar ideas en formas que sean más eficientes y potencialmente más precisas que si se han desarrollado mediante el análisis de una sola fuente de datos. Los datos de los medios de comunicación social, analizados por el procesamiento del lenguaje natural, se puede combinar con datos en tiempo real las ventas, con el fin de determinar el efecto que una campaña de marketing está teniendo sobre la confianza del cliente y el comportamiento de compra.

La minería de datos. Un conjunto de técnicas para extraer patrones a partir de grandes conjuntos de datos mediante la combinación de los métodos de estadística y de aprendizaje de máquina con la gestión de bases de datos. Estas técnicas incluyen el aprendizaje de reglas de asociación, análisis de cluster, la clasificación y regresión. Las aplicaciones incluyen la minería de datos del cliente para determinar los segmentos más propensos a responder a una oferta, la minería de datos de recursos humanos para identificar las características de la mayoría de los empleados con éxito, o el análisis de cesta de la compra para modelar el comportamiento de compra de los clientes.

Conjunto de aprendizaje. El uso de varios modelos de predicción (cada uno desarrollado con estadísticas y / o aprendizaje de máquina) para obtener un mejor rendimiento de predicción. Este es un tipo de aprendizaje supervisado.

Los algoritmos genéticos. Una técnica utilizada para la optimización que se inspira en el proceso de evolución natural o “supervivencia del más apto”. En esta técnica, las posibles soluciones se codifican como “cromosomas” que se pueden combinar y mutar. Estos cromosomas individuales se seleccionan para la supervivencia en un modelo “medio ambiente” que determina la idoneidad o el rendimiento de cada individuo de la población. A menudo descrito como una especie de “algoritmo evolutivo”, estos algoritmos son muy adecuados para la solución de problemas no lineales. Ejemplos de aplicaciones incluyen mejorar la planificación de tareas en la fabricación y optimizar el rendimiento de una cartera de inversiones.

De aprendizaje automático. Una sub-especialidad de la informática (dentro de un campo históricamente llamada “inteligencia artificial”) relacionados con el diseño y desarrollo de algoritmos que permiten a los ordenadores evolucionan los comportamientos basados en datos empíricos. Un aspecto importante de la investigación de la máquina es aprender de forma automática a reconocer patrones complejos y tomar decisiones inteligentes sobre la base de datos. El procesamiento del lenguaje natural es un ejemplo de aprendizaje de máquinas.

Procesamiento del lenguaje natural (NLP). Un conjunto de técnicas de una subespecialidad de la informática (dentro de un campo históricamente llamada “inteligencia artificial”) y de la lingüística que utiliza algoritmos computacionales para analizar el lenguaje humano (natural). Muchas de las técnicas de PNL son los tipos de aprendizaje automático. Una de las aplicaciones dela PNLse utiliza el análisis de los sentimientos de los medios de comunicación social para determinar cómo los clientes potenciales están reaccionando a una campaña de marca.

Las redes neuronales. Los modelos computacionales, inspirados en la estructura y el funcionamiento de redes neuronales biológicas (es decir, las células y conexiones en el cerebro), para encontrar patrones en los datos. Las redes neuronales son muy adecuadas para la búsqueda de patrones no lineales. Pueden ser utilizados para el reconocimiento de patrones y su optimización. Ejemplos de aplicaciones incluyen la identificación de clientes de alto valor que están en riesgo de dejar una empresa en particular y la identificación de reclamos fraudulentos de seguros.

Análisis de redes. Un conjunto de técnicas utilizadas para caracterizar las relaciones entre los nodos discretos en un gráfico o una red. En el análisis de redes sociales, las conexiones entre los individuos en una comunidad u organización se analizan, por ejemplo, cómo viaja la información, o quién tiene más influencia sobre quién. Ejemplos de aplicaciones incluyen la identificación de líderes de opinión para orientar a la comercialización, y la identificación de cuellos de botella en los flujos de información de la empresa.

Optimización. Una cartera de técnicas numéricas utilizadas para rediseñar los sistemas y procesos complejos que mejoran su rendimiento de acuerdo a una o más medidas objetivas (por ejemplo, el costo, la velocidad o fiabilidad). Ejemplos de aplicaciones incluyen la mejora de los procesos operativos, como la programación, el enrutamiento y distribución en planta, y la toma de decisiones estratégicas, como la estrategia de la gama de productos, análisis de inversión vinculados, y de I + D estrategia de cartera. Los algoritmos genéticos son un ejemplo de optimización.

Reconocimiento de patrones. Un conjunto de técnicas de aprendizaje automático para asignar algún tipo de valor de la producción (o etiqueta) a un valor de entrada dado (o instancia) de acuerdo a un algoritmo específico. Las técnicas de clasificación son un ejemplo.

Modelos de predicción. Un conjunto de técnicas en el que se crea un modelo matemático para predecir mejor las probabilidades de un resultado. La regresión es un ejemplo de las técnicas de modelado predictivo.

Regresión. Un conjunto de técnicas estadísticas para determinar cómo el valor de la variable dependiente cuando una o más variables independientes se ha modificado. A menudo se utiliza para el pronóstico o la predicción. Ejemplos de aplicaciones incluyen el volumen de ventas de predicción basado en el mercado y otras variables económicas o la determinación de los parámetros de fabricación al medir la satisfacción del cliente. Se utiliza para Data mining.

Análisis del Sentimiento. Aplicación de procesamiento de lenguaje natural y otras técnicas analíticas para identificar y extraer la información subjetiva de material de origen del texto. Los aspectos clave de estos análisis incluyen la identificación de la función, aspecto o producto sobre el cual se expresa un sentimiento, y determinar el tipo, la “polaridad” (es decir, positivo, negativo o neutro) y el grado y la fuerza del sentimiento. Ejemplos de aplicaciones incluyen las empresas que solicitan el análisis de los sentimientos de los medios de comunicación social (por ejemplo, blogs, micro blogs y redes sociales) para determinar cómo los diferentes segmentos de clientes y partes interesadas están reaccionando a sus productos y acciones.

Procesamiento de señales. Un conjunto de técnicas de ingeniería eléctrica y matemática aplicada, originalmente desarrollado para analizar las señales continuas y discretas, es decir, las representaciones de las magnitudes físicas analógicas (incluso si están representados digitalmente), como señales de radio, sonidos e imágenes. Esta categoría incluye las técnicas de la teoría de detección de señales, que cuantifica la capacidad de discernir entre señal y ruido. Ejemplos de aplicación incluyen modelos para el análisis de series de tiempo o de fusión de datos para determinar la aplicación de una lectura más precisa mediante la combinación de los datos de un conjunto de fuentes menos datos precisos (es decir, la extracción de la señal del ruido).

El análisis espacial. Un conjunto de técnicas, algunas aplicadas a la estadística, que analizan las propiedades topológicas, geométricas, o geográficos codificados en un conjunto de datos. A menudo, los datos para el análisis espacial provienen de los sistemas de información geográfica (GIS) en que la captura de datos incluye información sobre la ubicación, por ejemplo, direcciones o latitud / longitud. Ejemplos de aplicaciones incluyen la incorporación de los datos espaciales en regresiones espaciales (por ejemplo, cómo es la disposición del consumidor a comprar un producto relacionada con la ubicación).

Estadísticas. La ciencia de la recopilación, organización e interpretación de datos, incluyendo el diseño de encuestas y experimentos. Las técnicas estadísticas se utilizan a menudo para hacer juicios sobre que las relaciones entre variables podría haber ocurrido por casualidad (la “hipótesis nula”), y que las relaciones entre las variables de resultado probable de algún tipo de relación causal subyacente (es decir, que son “estadísticamente significativos”) . Las técnicas estadísticas se utilizan también para reducir la probabilidad de errores de tipo I (“falsos positivos”) y errores de tipo II (“falsos negativos”). Un ejemplo de una aplicación es las pruebas A / B para determinar qué tipo de material de marketing que la mayoría de aumentar los ingresos.

Aprendizaje supervisado. El conjunto de técnicas de aprendizaje automático que infieren una función o relación de un conjunto de datos de entrenamiento. Los ejemplos incluyen la clasificación y el vector de apoyo machines.

Simulación. Modelar el comportamiento de sistemas complejos, a menudo utilizado para el pronóstico, la predicción y planificación de escenarios. Simulaciones de Monte Carlo, por ejemplo, son una clase de algoritmos que se basan en un muestreo repetido al azar, es decir, miles de simulaciones, cada una basada en supuestos diferentes. El resultado es un histograma que proporciona una distribución de probabilidad de los resultados. Una aplicación es la evaluación de la probabilidad de alcanzar las metas financieras dadas las incertidumbres sobre el éxito de varias iniciativas.

Análisis de series. Conjunto de técnicas estadísticas y de procesamiento de señales para el análisis de secuencias de puntos de datos, que representan los valores en tiempos sucesivos, para extraer las características significativas de los datos. Ejemplos de análisis de series de tiempo incluye el valor por hora de un índice bursátil o el número de pacientes diagnosticados con una enfermedad determinada todos los días.

Predicción de series es el uso de un modelo para predecir los valores futuros de una serie sobre la base de los valores anteriores o de otra índole. Algunas de estas técnicas, por ejemplo, el modelado estructural, estudio de la tendencia de una serie durante un tiempo, y los componentes residuales, que pueden ser útiles para la identificación de patrones cíclicos en los datos. Ejemplos de aplicaciones incluyen previsiones cifras de ventas, o la predicción del número de personas que serán diagnosticadas con una enfermedad infecciosa.

Aprendizaje no supervisado. Un conjunto de técnicas de aprendizaje automático que se encuentra escondida en la estructura de datos sin etiquetar. El análisis de conglomerados es un ejemplo de aprendizaje no supervisado.

Visualización. Las técnicas utilizadas para la creación de imágenes, diagramas o animaciones para comunicarse, entender y mejorar los resultados de los análisis de grandes volúmenes de datos.

BIG DATA en Ibermática

Aplicando sistemas híbridos de tratamiento avanzado de datos, con el objetivo de dar un apoyo a la decisión en tiempo real a los usuarios, de forma que se puedan abstraer del análisis de la información, para centrarse en el conocimiento implícito de los mismo, tanto en sus vertientes de comportamientos usuales, como anómalos, y que permita optimizar los esfuerzos en solucionar los problemas y mejorar los procesos detectados como “desviaciones”, y no en la búsqueda de las anomalías en un mar de datos,  Ibermática ha creado su plataforma GuiDes.

Big data” plantea básicamente tres retos sobre el flujo de datos:

  • Volumen: saber cómo gestionar e integrar grandes volúmenes de datos, procedentes de fuentes heterogéneas.
  • Velocidad: poder acceder a la plataforma desde cualquier lugar, de forma autónoma por cualquier usuario de negocio, para mejorar y agilizar la toma de decisiones mediante la automatización: programación de acciones, eventos y alarmas.
  • Variedad: conseguir unificar contenidos dispersos y no estructurados, con datos históricos, actuales y/o predictivos para un manejo óptimo de los mismos y para extraer de ellos información de valor.
Pero existe uno más, que es la extracción automática del conocimiento relevante dentro de dichos datos.

La plataforma GuiDeS,  posee unos claros objetivos que permite abordar los retos anteriores,  ofreciendo el rendimiento y la flexibilidad necesaria para identificar patrones, entregar el conocimiento, la visión adecuada y a tiempo, sobre los datos, a los responsables en la toma de decisión.

 

 

 

GuiDes permite:

  • Gestionar una gran variedad y volumen de datos en tiempo real: es decir, con rapidez y en su contexto
  • Procesar datos altamente estructurados, semi-estructurados o poco estructurados mediante soporte XML nativo
  • Ayuda a los técnicos en la instrumentación de reglas para el seguimiento y control de alertas en su negocio.
  • Permite la detección de anomalías en las pautas de comportamiento.
  • Genera un sistema de alertas sobre casos inciertos.
  • Permite un sistema de representación gráfica de zonas con probabilidad alta de incidencias sobre los objetivos buscados.
  • Es una plataforma de integración de información y seguimiento de la correcta resolución de las alertas generadas.
  • Contiene capacidad de aprendizaje automático ante las acciones correctivas.
  • Acceso desde terminales móviles a toda la gestión inteligente de apoyo a la decisión en tiempo real.

En resumen, permite de forma ágil y sencilla convertir los datos simples en información de valor para que los responsables puedan tomar decisiones cuando realmente importan. Los cuadros de mando son más dinámicos e interactivos, dando al usuario la posibilidad de encadenar, sobre la información tiempo real con la que están trabajando, acciones de resolución, correctivas, preventivas y de manera inmediata.

 Gestiona, por lo tanto, la integración de grandes volúmenes de datos, desorganizados y procedentes de fuentes heterogéneas, internas y externas, su análisis en tiempo real y la toma de decisión inmediata, para alcanzar la máxima eficiencia en el negocio en tiempo real.

En siguientes “posts”, iremos desgranando cada una de estas problemáticas, y sus soluciones….

Páginas:12»