Browsing articles tagged with " BigData"

Minería de Datos en entornos de Análisis de Datos en Planta. ¿Qué ocurre en la producción?

Ago 21, 2013   //   by Ansgar   //   Minería de Datos  //  1 Comment

Es habitual hoy en día, en cualquier planta de producción, tener cientos o miles de registros donde se guarda la información de la actividad diaria: ¿ Cuántas piezas se han producido, a qué hora, quién ha sido el operario, si ha habido algún problema…?

Big (Small) Data en Planta

Big (Small) Data en Planta

Esta masa de datos, habitualmente, se analiza en base a cuadros de mando, en los que se agrupa la información por equipo, operario, planta, incidencias, obteniéndose resultados sobre el total de incidencias por máquina, centro, operario, que de forma gráfica, nos ubica en el estado de nuestro negocio.

Sin embargo, actualmente, este información se queda “corta” en dos sentidos:

  • Explican que ha ocurrido en el pasado, pero agrupando los datos, con lo que perdemos las razones de porqué han ocurrido ciertas incidencias, por ejemplo, en momentos puntuales. Para llegar a esta información, debemos hacer análisis manuales, agrupando por fines de semana, vacaciones, turnos, siempre de una forma deductiva, en base al “olfato” de los expertos, y con la pérdida que conlleva el análisis de numerosos datos multiplicados por las numerosas posibles variables que puede “explicar”  el comportamiento de la producción.
  • Por otro lado, al perder la “granularidad” temporal de lo ocurrido, podemos ver lo que ha ocurrido en el pasado, pero no podemos inferirlo al futuro inmediato, ya que no tenemos toda la información “agrupada” en el cubo que estamos analizando.
  • Finalmente, el sistema no es capaz de explicarnos el porqué de dichos comportamientos: tenemos que realizar, de nuevo, un estudio seleccionando el subconjunto de datos afectados, para intentar indagar cuáles son las variables que forman parte del problema.  La experiencia puede guiar el análisis de los datos hacia relaciones lógicas, como la disminución de la producción en una máquina antigua. ¿Pero qué sucede con aquéllos factores que no nos habíamos planteado?

La minería de datos, como su propio nombre indica, se encarga de coger el pico y la pala, y explorar esa inmensa mina de datos buscando las relaciones entre los diferentes factores. Así, podemos descubrir que una pieza complicada tarda más en ser fabricada en el turno de tarde, o que la máquina X muestra un rendimiento manifiestamente superior cuando la maneja el operario Pepe durante los primeros seis meses del año.

Minería de Datos

Minería de Datos

La gran ventaja de esta aproximación es que es el propio sistema, el que, con la totalidad de los datos, (e incluso, si pudiésemos, con más, por ejemplo, la temperatura ambiente en las zonas de producción), el que determina cuáles son los indicadores que forman parte del problema, y entre que valores dichos indicadores son críticos. Y todo ello, con sólo darle a un botón…

De esta forma, las reuniones semanales en las que los responsables de producción en las plantas, se reúnen para analizar qué es lo que ha pasado, por qué, y cuáles son las acciones correctivas, en vez de utilizar una gran parte de su tiempo para “descubrir” y analizar lo que ha pasado, tendrían ya esa información encima de la mesa, y directamente, analizarían lo que realmente a pasado, por qué se ha producido los desfases semanales (que variables han afectado a cada una de las máquinas, turnos, o procesos), realizar decisiones de mejora sobre dichos datos, e incluso, con esas modificaciones, simular qué es lo que va a ocurrir en las semana siguiente.

I3B, desde su Unidad de Análisis Predictivo, proporciona a nuestros clientes las herramientas necesarias, para que, dándole a un botón, puedan saber exactamente que es lo que ha ocurrido en su planta, las razones principales de los ocurrido, de una forma gráfica, usable y fácilmente comprensible.

El índice OEE

El OEE (Overall Equipment Effectiveness o Eficiencia General de los Equipos), tal y como podemos leer en la Wikipedia,  es una razón porcentual que sirve para medir la eficiencia productiva de la maquinaria industrial. La ventaja del OEE frente a otras razones es que mide, en un único indicador, todos los parámetros fundamentales en la producción industrial: la disponibilidad, la eficiencia y la calidad.

La fórmula para calcular el valor OEE es la siguiente:

OEE = Disponibilidad * Rendimiento* Calidad

Disponibilidad = DuracionTrabajoTotal / DuracionDisponible

Rendimiento = ProduccionTotal/ProduccionPrevista

Calidad= PiezasBuenasTotal/ProduccionTotal

El resultado de este indicador se puede dividir en distintos niveles, a nivel académico:

  • OEE < 65% Inaceptable. Se producen importantes pérdidas económicas. Muy baja competitividad.
  • 65% < OEE < 75% Regular. Aceptable sólo si se está en proceso de mejora. Pérdidas económicas. Baja competitividad.
  • 75% < OEE < 85% Aceptable. Continuar la mejora para superar el 85 % y avanzar hacia la World Class. Ligeras pérdidas económicas. Competitividad ligeramente baja.
  • 85% < OEE < 95% Buena. Entra en Valores World Class. Buena competitividad.
  • OEE > 95% Excelencia. Valores World Class. Excelente competitividad

Sin embargo, no todos los procesos productivos, empresas o fábricas se comportan del mismo modo… De esta forma, el sistema propuesto es capaz, en base a todos los datos históricos, de balancear automáticamente este valor, y sugerir la mejor distribución de OEE con respecto al resto del resto de distribuciones de los datos que tienen correlación con el OEE (incidencias, operarios, producción, temperatura ambiente, etc…)

Es importante detallar que el OEE, lógicamente, tendrá relación directa con los datos que lo producen, (Disponibilidad, Rendimiento, Calidad), pero si quitamos dichos datos de la “coctelera”, el sistema nos comienza a dar la correlación de otros indicadores directamente no relacionados con las fórmulas, con el resultado OEE (día de la semana, turno, hora, operario, etc..), que, en un principio, no están descritas en las fórmulas anteriores.

Así, si tenemos un conjunto de datos de entrada, con distintos indicadores, como el descrito en la Figura siguiente:

 

Datos Brutos en Planta
Datos Brutos en Planta

 

El propio sistema nos sugiere la mejor distribución de OEE para dichos datos, en forma de la siguiente tabla:

OEE Distribución Automática

OEE Distribución Automática

Como se puede observar, el nivel “Inaceptable” teórico, en este caso, se divide en dos, en un nivel “crítico” (< 31%), y en otro “Inaceptable” (=>31% y < 63%).

 Basándose en esta división esta es la distribución del mismo valor, se muestra además que la distribución normal (línea roja) indica que la mayoría de valores está en 0,2 y 0,5, con lo que ya, de un primer vistazo, podemos deducir que la mayoría de las producciones de esta planta están en un entorno  teóricamente “Inaceptable” ¿Por qué?

Explicando las Razones de los “OEE” Inaceptables.

No sabemos qué es lo que está ocurriendo para los indicadores OEE inaceptables. Le pedimos al sistema que nos muestre cuáles son aquellos campos que inciden de forma directa sobre el resultado OEE, y de forma automática, nos devuelve la siguiente gráfica:

Indicadores relacionados con OEE

Indicadores relacionados con OEE

Es decir, que el buen o mal resultado de un OEE viene dado, en primer lugar, por la máquina en la que se está trabajando, pero en segundo lugar, por el día de la semana que se trabaje, la Fase del trabajo, el operario y el turno que se le asigna.

Curiosamente, el día de la semana afecta al rendimiento en la producción, por máquina, pero necesitamos más detalle, que el sistema nos suministra de la siguiente manera:

Reglas_explicativas_OEE

Reglas explicativas OEE

De esta manera, podemos “entender” qué es lo que está pasando en nuestra planta. Por ejemplo, la máquina 145 tiene resultados Inaceptables los martes, mientras que los sabados y domingos, su rendimiento es “Regular”. Por otro lado, la máquina 155, tiene un rendimiento “Bueno” o “Aceptable” en general, excepto los miércoles, que en los turnos de mañana y noche, es “Inaceptable”.

Estos datos tienen una confianza de veracidad de un 94%, es decir, que son reales. Ahora, tocaría al jefe de planta, “indagar” porqué los miércoles a la mañana o a la tarde, en general, la máquina 155 tiene un rendimiento tan malo. Pero hemos logrado minimizar el tiempo de análisis de dicho gestor para detectar estos comportamientos a un simple “click” de ratón, para que pueda dedicar el resto de su jornada a mejorar los rendimientos anómalos, como este.

Visualización.

La navegación por las reglas no es evidente, si se genera un informe en papel, o semigráfico. Por ello, I3B permite incorporar las reglas resultantes (que ya incluyen los indicadores que modelan las explicaciones y sólo ellos), dentro de la plataforma analítica de cualquier cliente. Esto permite que las dimensiones y los atributos que afectan a un indicador ya están “filtrados” en cantidad (sólo aquellos indicadores relevantes), y en calidad (con los valores que afectan a los resultados).

Por lo tanto, la visualización y navegación de las reglas se hace más intuitiva, en base a cuadros como el que se muestra a continuación:

OEE_BI

OEE_BI

En estos cuadros, dinámicos,  se observa qué máquinas tienen un “OEE” más inaceptable (como en cualquier otro cubo), pero además, si navegamos por ellas, y pasamos de la primera condición a las siguientes  datos, vemos que para unas máquinas, su OEE se ve afectado por el operador que las trabaja, mientras que para otras, su rendimiento depende del turno de trabajo, independientemente del operador. Y todo ello, sin necesidad de cruzar ninguna dimensión con ningún atributo, ya están cruzados de antemano:

Diferencias de patrones en función de las máquinas

Diferencias de patrones en función de las máquinas

De esta forma, podemos navegar por las reglas de una forma intuitiva, entrando desde las generalidades de los OEE inaceptables, hasta sus particularidades, y llegando a conclusiones sobre su comportamiento analizando sólo 4 o 5 indicadores, que sabemos, “a priori”, que son los responsables de dicho comportamiento, junto con los umbrales (operario, fecha, turno, etc…) que los provocan, y por supuesto, la veracidad de dichas reglas. (En este caso, un 94% de acierto).

No sólo se puede analizar el OEE, sino todo aquel indicador de nuestra base de datos que queramos. Por ejemplo, otro indicador importante para analizar, además del OEE, son las incidencias. ¿Por qué se producen ciertas incidencias en nuestra planta de producción, dónde se producen, y cuándo?

Siguiendo la misma filosofía de trabajo, podemos generar el mismo cuadro de control sobre nuestras incidencias, y navegar por los indicadores que reproducen los motivos de porqué se dan las mismas, con un solo informe gráfico

Inciencias_BI

Inciencias BI

Y analizar, por ejemplo, porqué la mayoria de incidencias se producen en ciertas máquinas (y con ciertos operadores),

Incidencias por turnos en fabricación

Incidencias por turnos en fabricación

Y descubrir que tienen que ver con una fase de fabricación determinada, en unos turno muy concretos de la planificación.

Como conclusión, las herramientas automáticas de análisis de comportamientos no sólo son aplicables a grandes sectores como el marketing, banca u otros, sino que el denominado “BiogData” también es aplicable a los procesos de trabajo en fábricas y plantas de producción, de cualquier tamaño, evitando que el 80% del tiempo de análisis se convierte en un 80% de tiempo en mejoras¡, conociendo de antemano las razones concretas que modelan las fases productivas.

Extracción Automática de Conocimiento Sobre Opendata (Openmining/Biganalytics): una perspectiva Juridica Y Social

Abr 18, 2013   //   by wpuser   //   Minería de Datos  //  Comentarios desactivados en Extracción Automática de Conocimiento Sobre Opendata (Openmining/Biganalytics): una perspectiva Juridica Y Social

RESUMEN: Open Data es un nuevo paradigma en el que la tecnología actúa como facilitador en la publicación del conocimiento sito en la Administración Pública y los gobiernos. Así, se está configurando como una herramienta que permite realizar procesos de Extracción, Tratamiento y Carga con múltiples fuentes de datos públicas, para generar informes o cuadros de mandos con un objetivo determinado. Sin embargo, el representar la información “relevante” implica un proceso posterior manual y complicado de filtrado, selección y comprensión de los datos de forma “artesanal”, para dar una salida estática final. Pero estos informes no muestran las “razones” o el “por qué” dichos datos son relevantes. En la actualidad, existen potentes herramientas (BigData), que nos permiten encontrar axiomas de forma automática, que “explican” los patrones inmersos en los datos, y “descubren” relaciones no evidentes entre los mismos, de forma totalmente transparente para el usuario. Por lo tanto, podemos relacionar datos demográficos, políticos, censales, económicos, médicos, culturales, y pedir al sistema, que, en base a unos objetivos determinados, (por ejemplo, el nivel de inversiones, indicadores de salud, o resultados electorales), nos enseñen porqué se están produciendo dichos comportamientos y la propensión de que los mismos patrones se reproduzcan en el futuro.

 La gran sopa de los Datos

1. INTRODUCCIÓN.

 1.1 Las Contradicciones Del “Opendata”: “Open Government”

 La tecnología, en estos tiempos modernos, usualmente, va por delante de la aplicabilidad de la misma en distintos contextos funcionales, principalmente en la Administración Pública. El presente artículo no trata de ahondar en el estado del arte tecnológico, sino de demostrar como ciertas tecnologías, muy maduras en otros ámbitos, (sanitario, bancario, marketing), pueden ser aplicadas al nuevo paradigma de OpenData, o publicación de datos abiertos por Administraciones Públicas, con el objetivo de mejorar la comprensión por parte de los “consumidores” de dicha información de forma directa, sencilla y rápida.

Tal y cómo describe Javier de la Cueva en su artículo “Redefiniendo la isegoría: open data ciudadanos”, OpenData permite que un ciudadano (o administración) publique a coste cero información que otros ciudadanos, pertenecientes a otro lugar del globo, puedan leerla a coste cero.

Sin embargo, para que esta posibilidad sea real, se deben dar las siguientes premisas:

–          La liberación de los datos implica el sometimiento de los datos públicos a estándares abiertos obligatorios.

–          Los datos dispuestos por los gobiernos deben ser lo más completos posibles, publicando toda la información en bruto, con la excepción de los datos relativos a la privacidad.

–          Los datos puestos a disposición pública por los gobiernos deben ser fuentes primarias, y con un sentido de oportunidad, es decir, tan rápidamente como es reunida y recogida.

–          Los datos deben de ser válidos, en un sentido estadístico, es decir, los valores intrínseco a los mismos deben ser evidencias de la realidad, en un porcentaje elevado (por ejemplo, se estima que los datos deben tener una confianza de un 80% en datos médicos).

–          Calidad, veracidad e inmediatez.

La realidad es que, quitando contadas ocasiones, ninguna  de las anteriores premisas se cumple. Por un lado, existe un estándar internacional para la publicación de los datos basado en tecnología semántica denominada “LinkedData”, que tiene cinco niveles de “excelencia”, y que no cumple casi ninguna administración. Por otro lado, los datos “expuestos” no son completos, y es necesario “ahondar” en información adicional, principalmente de otras fuentes, o incluso, manipulándola manualmente, para dar sentido a los datos publicados. Y finalmente, el coste que suponen los procesos de ETL (Extracción, Transformación y Carga) para las administraciones implica una clara pérdida de la oportunidad.

Quizás, el mayor problema en el coste de cumplimiento de estos requisitos es más profundo, y  resida en que no existen objetivos claros sobré que conjuntos de datos publicar, y principalmente, el para qué publicarlos. Se debe realizar un análisis previo, e incluso una consulta a los agentes principales “consumidores” de dicha información, con el objetivo de cuantificar claramente los “data sets” relevantes, priorizar y programar en el tiempo su publicación por orden de importancia, gestionar correctamente la publicidad de dichas publicaciones, medir de forma objetiva y cuantitativa el retorno de la inversión (no siempre en parámetros económicos, sino de reputación e interés social),  e incluso formar a la ciudadanía en las posibilidades de extracción y tratamiento de toda esta información. Sin tener los objetivos claros, y los beneficios cuantificados, a pesar de estar muy avanzada tecnológicamente, la filosofía OpenData no tiene futuro.

open government

Así, se está generando un fenómeno, por el cual, los que realmente están liberando datos en formato “OpenData” son los ciudadanos mediante técnicas de transformación, extractando el conocimiento de forma normalizada, que el Estado ha sido incapaz de realizar en base a los criterios prefijados. Y en parte, la razón de este fenómeno es la contradicción que existe entre la “recomendación” de publicar datos en bruto (Estado), con la necesidad de extraer de dichos datos sólo y sólo aquella información que es relevante para las necesidades de una consulta concreta (Ciudadanos).

Y de esta forma, nace el concepto de Open Government. Open Government se refiere al uso de tecnología para fomentar la transparencia, participación y colaboración con los grupos de interés de la Administración Pública y los gobiernos. Aunque la expresión tiene raíces en el Siglo de las Luces y posteriormente en una declaración de Lincoln en 1863, Obama le dio un nuevo impulso a través de su “Memorandum on Transparency and Open Government” (2009). Para Obama, Open Government debe conducir hacia una Administración Pública y un gobierno más eficientes y efectivos. De alguna manera se trata de reinventar la gestión pública y el gobierno.

Conceptualmente, Open Government es la suma de Government 2.0 y Open Data. Es un nuevo paradigma en el que la tecnología actúa como facilitador de una transformación en la manera de gestionar la Administración Pública y los gobiernos, a través del fomento de la transparencia, la participación y la colaboración con los grupos de interés. Es decir, es la suma de la publicación de datos en bruto, en dónde, los grupos de interés (ciudadanos, empresas, gestores), son capaces de transformar dicha información en conocimiento publicable, recabando un beneficio final, bien renumerado, bien en conceptos de prestigio social. Como consecuencia de dicha aplicación, se obtienen resultados finales en términos de productividad, innovación y reputación/fidelización de dichos grupos de interés (ciudadanía).

Pero para que el “cliente final” pueda recibir, en una aplicación “ad hoc” de forma directa las conclusiones de dicho conocimiento, se deben realizar una serie de pasos sobre la información base, como lo son:

–          La normalización y diferenciación entre lo que son datos constantes, conceptos (denominados “URI”s en semántica), y lo que son los valores asociados a dichos conceptos, y que serán los que se puedan mostrar en base a gráficos o informes. (Por ejemplo, Barcelona tiene una población de  1,621,537 habitantes se transforma en “dbpedia.org/page/Barcelonaàdbpedia-owl:populationTotalà1621537 (xsd:integer)”

–          Los datos deben estar relacionados, de forma que, a partir de ciertos “pasos” precalculados, podamos buscar relaciones, entre distintos conceptos y sus valores. Por la tanto, podremos relacionar el impacto, por ejemplo, de ciertas subvenciones sobre la renta de una determinada región, o sobre su efecto en enfermedades determinadas, si se solicita. Esto implica que hay que “normalizar” la información lo expresado en el punto anterior, pero además, hay que “enlazar” dichos conceptos.

–          Los datos deben ser relevantes, es decir, hay que “luchar” contra la cacofonía del ruido del entorno, y presentar solamente aquella información que tiene relación con la “pregunta” que se quiere responder. Por ejemplo, si estamos buscando si existe relación entre las sentencias judiciales y su efecto, sobre la violencia de género, “intuimos” que la información referente a los datos demográficos puedan ser de interés, pero no así, los datos meteorológicos, aunque igual nos sorprendíamos.

Como se puede intuir, el “navegar” por la ingente cantidad de datos en bruto, para seleccionar los conjuntos de datos, que “a priori” pueda tener relevancia con nuestro objetivo, enlazarlos, filtrarlos, normalizarlos, certificar la validez de los mismos, y presentarlos en un formato “usable”, no es una labor trivial.

Y sin embargo, en el entorno médico, por ejemplo, existen millones de “filas” de información ya extractada en este formato, disponible de forma directa, y accesible en función de las distintas preguntas que deseemos hacer. ¿Cómo es posible? Gracias a tecnología de extracción, análisis y asociación de relaciones basadas en técnicas de Inteligencia Artificial,  conjuntadas en lo que hoy en día se ha dado por denominar “BigData” o “BigAnalytics”. El reto está en proporcionar dichas técnicas a los agentes del “Open Governmet”, para que, de una forma desasistida, los datos en bruto se puedan transformar en conocimiento elaborado con el mínimo esfuerzo `posible.

Big-Data_analytics

2. BIG DATA/BIG ANALYTICS

 2.1 La palabra de  moda: “Big Data”

 Durante los últimos años, en el sector TIC, se ha pasado de la obsesión por “la nube” al foco en el “big data”. No obstante, el término “big data” es relativo. Se emplea (según definición de Gartner) cuando los problemas de gestión y procesamiento de la información “superan en una o varias dimensiones la capacidad de las tecnologías tradicionales de gestión de información para respaldar el uso de este activo”. Es decir, que los datos solo son “big data” cuando no es posible gestionarlos o analizarlos. Durante décadas, las TICs han salvado limitaciones conocidas alojando datos en estructuras definidas o arquitecturas de almacenamiento. Con métodos que se basan en el indexado y los lenguajes primitivos, las bases de datos no tardan en volverse demasiado grandes para ser gestionadas. Pero, ¿qué pasaría si pudiésemos poner una sola matriz de memoria con una fila por resolución judicial?, o ¿crear mil millones de filas, una por cada sentencia, sus datos asociados (niveles de renta de los demandantes/demandados, perfil de los jueces, situación geográfica, información censal) y su conclusión? Sería ideal poder obtener respuestas a cualquier pregunta en segundos a través de una sencilla interfaz gráfica o simplemente a través de una Web accesible. Esta posibilidad es lo que denominamos “big analytics”.

La tecnología de “big analytics”, evolución de la ya clásica “Minería de Datos”, se basa principalmente en la capacidad que tienen las máquinas de analizar correlaciones, relaciones, segmentaciones y procesos estadísticos en tiempo máquina (“sin descanso”), sobre un volumen de información ingente, tanto estructurado como no estructurado. Hay que tener en cuenta que el 80% de la información actual está en formato “textual”, y hacen falta procesos de transformación de dicho lenguaje a un formato “normalizado”. Por lo tanto, “big analytics” aúna técnicas de procesado estadístico con técnicas de procesado de lenguaje natural, que además, “encajan” a la perfección con la salida deseada que hemos comentado en el punto anterior, un formato semántico estructurado según al normativa de LinkedData.

“Big Analytics” se define como el proceso de descubrir los patrones de información interesante y potencialmente útil, inmersos en grandes fuentes de información dispersas con la que se interactúa constantemente. Internamente, es una combinación de procesos como:

–          Extracción de datos.

–          Limpieza de datos.

–          Selección de características principales.

–          Algoritmos de clasificación y predicción.

–          Análisis de resultados.

Estas plataformas exploran una gran cantidad de datos, y mediante su análisis, explican qué indicadores tienen correlación con ciertos objetivos o preguntas realizadas, y además, cuáles son las reglas que modelan dichos comportamientos. Una vez extraídas dichas reglas, es posible predecir posibles tendencias o comportamientos futuros dentro de una entidad, permitiendo al usuario final “comprender” la lógica de lo que los datos “dicen”, y los datos “nunca mienten”, y en base a ello, poder tomar decisiones, en unos casos, o poder publicar noticias basadas en la investigación de los datos (como es el caso del “periodismo de datos”).

La diferencia de estas técnicas con las clásicas estadísticas reside, principalmente, en que las técnicas estadísticas se centran en técnicas confirmatorias, y “big analytics”, en técnicas de descubrimiento. Así, cuando el problema al que pretendemos dar respuesta es refutar o confirmar una hipótesis, podremos utilizar ambas ciencias. Sin embargo, cuando el objetivo es meramente exploratorio (para concretar un problema o definir cuáles son las variables más interesantes es un sistema de información) aumenta la necesidad de delegar parte del conocimiento analítico a técnicas de aprendizaje. Así, “big analytics” se utilizará cuando no partimos de supuestos de inicio y pretendemos buscar algún conocimiento nuevo y susceptible de proporcionar información novedosa en la toma de decisiones.

En el caso de datos públicos, y siguiendo con la premisa de publicación en bruto por parte de la Administración, existe una alta dimensionalidad del problema. Cuantas más variables entren en el problema, más difícil resulta encontrar una hipótesis de partida interesante o, aun cuando se pudiera hacer, el tiempo necesario no justificaría la inversión. En ese caso, utilizar técnicas de minería de datos como árboles de decisión nos permitirán encontrar relaciones inéditas para luego concretar la investigación sobre las variables más interesantes, y al contrario que en la estadística, cuantos más datos tengamos, mejor solucionaremos el problema.

No es el objeto de este artículo ahondar en la algoritmia interna de estas plataformas, pero como un punto general, se puede decir que se trabaja en distintas fases:

–          Clustering: Es un planteamiento que intenta identificar las características distintivas entre los conjuntos de registros y el lugar en grupos o segmentos. Este proceso es a menudo la intensificación de punto de partida para la minería de datos, ya que conduce a la exploración de relación. Este proceso en particular es un candidato obvio para la segmentación de clientes por agrupación de similitudes.

–          Asociación: Aquí se encuentran las reglas que le permiten correlacionar la presencia de un conjunto de elementos con otro conjunto. Este método ha demostrado ser eficaz en el comercio minorista, donde el análisis de cesta de la compra le ayuda a encontrar que algunos artículos son siempre comprado en el mismo tiempo. Si usted puede encontrar los patrones de compra natural de un cliente puede utilizar ese modelo para ayudar a comercializar su producto. El resultado de esta asociación es una lista de afinidad de productos.

–          Asociación secuencial: Patrones relacionados con el tiempo. Este método busca los vínculos que relacionan estas pautas secuenciales. La idea es utilizar los datos asociativos como una cuenta de cheques o de un acontecimiento vital para unir una secuencia de acontecimientos en una serie de tiempo. La vida activa que preceden a sus compras y las compras de precursores se encuentran a menudo a esta metodología. La reducción de grandes cantidades de datos a los resúmenes significativa por el uso de nuevas normas puede extender esto.

2.1 La Curva de Aprendizaje

 Una vez demostradas las capacidades de esta tecnología sobre el tratamiento masivo de datos, el problema es cómo “transferir” dichas capacidades a loas verdaderos agentes de la transformación y reutilización de datos abiertos, es decir, a los ciudadanos o empresas que los modelizan.  Sin embargo, el problema no es tal, ya que existen múltiples plataformas analíticas avanzadas, muchas de software libre y disponible por la “comunidad” para su uso.

Estas plataformas tienen distinto grado de usabilidad y accesibilidad, pero las hay que, desde entornos Web, son capaces de permitir a los usuarios la subida de datos, y la bajada de las reglas que explican dichos datos, en base a reglas, que aclaran de forma visual, porqué un indicador está ocurriendo en determinados casos, y en otros no.  Otro tipo de plataformas (RapidMiner, Knime), tienen una curva de aprendizaje un poco más escarpada, pero es perfectamente viable, que con pocas jornadas de entrenamiento, una persona  no informática sea capaz de generar sus propios modelos para obtener las reglas que modelan sus datos.

Por lo tanto, una vez más, es evidente que la tecnología supera al “negocio” en cuanto a facilidad de uso, pero muchas veces, dicha funcionalidad  no es divulgada, primeramente, por intereses particulares, en los que, determinados nichos de negocio (empresas de marketing, consultorías en analítica avanzada), pretenden “mantener” el conocimiento de estas tecnologías en nichos cerrados para poder seguir operando como “gurús tecnológicos” especializados en “siglas de “tres letras” , aparentemente inaccesibles para el resto de la sociedad, cuando, las plataformas reseñadas anteriormente tienen una filosofía totalmente abierta y accesible. De hecho, la mayoría de las herramientas disponibles utilizan el mismo tipo de algoritmos, uso de la misma base de métodos estadísticos o son variaciones “sutiles” de los métodos generales.

3. BIG ANALYTICS vs OPENDATA

Según Gartner, “BigData nos hace más listos, pero OpenData nos hará más ricos”.  Efectivamente, tal y cómo hemos reseñado, BigData nos permite comprender que hay en nuestros datos, justo aquello que es relevante para nuestras consultas, y sólo aquello relevante, y el porqué está ocurriendo, mientras que OpenData permite a los agentes “publicar” dicha información transformada en conocimiento, para su beneficio propio.

La conjunción de ambas tecnologías, permite, minimizar el coste de análisis, transformación y extracción de la relevancia, aumentando, por lo tanto, el beneficio de la “venta” de dicho conocimiento a terceros. De esta forma, las Administraciones “delegan” su esfuerzo de desarrollo a agentes externos, siendo su única responsabilidad de la publicar datos en bruto.

El flujo del proceso es simple: Publicación de datos en Bruto por parte de la Administración (OpenData), complemento de dicha información con otras fuentes ya publicadas (LinkedData), recogida y análisis de información de forma automática (BigAnalytics),  generación de evidencias contrastadas estadísticamente (BigAnalytics), y publicación de la información relevante en formato semántico (LinekdData), más la presentación de la misma información en cuadros de mando Web (Mashups). Todo ello, conformaría el ciclo en espiral de la gestión del conocimiento en un entorno de  “Open Government”.

bigdatanowwhat

Más información en: http://www.ibermaticajusticia.com/ y http://www.i3b.ibermatica.com/i3b