Extracción Automática de Conocimiento Sobre Opendata (Openmining/Biganalytics): una perspectiva Juridica Y Social
RESUMEN: Open Data es un nuevo paradigma en el que la tecnología actúa como facilitador en la publicación del conocimiento sito en la Administración Pública y los gobiernos. Así, se está configurando como una herramienta que permite realizar procesos de Extracción, Tratamiento y Carga con múltiples fuentes de datos públicas, para generar informes o cuadros de mandos con un objetivo determinado. Sin embargo, el representar la información “relevante” implica un proceso posterior manual y complicado de filtrado, selección y comprensión de los datos de forma “artesanal”, para dar una salida estática final. Pero estos informes no muestran las “razones” o el “por qué” dichos datos son relevantes. En la actualidad, existen potentes herramientas (BigData), que nos permiten encontrar axiomas de forma automática, que “explican” los patrones inmersos en los datos, y “descubren” relaciones no evidentes entre los mismos, de forma totalmente transparente para el usuario. Por lo tanto, podemos relacionar datos demográficos, políticos, censales, económicos, médicos, culturales, y pedir al sistema, que, en base a unos objetivos determinados, (por ejemplo, el nivel de inversiones, indicadores de salud, o resultados electorales), nos enseñen porqué se están produciendo dichos comportamientos y la propensión de que los mismos patrones se reproduzcan en el futuro.
1. INTRODUCCIÓN.
1.1 Las Contradicciones Del “Opendata”: “Open Government”
La tecnología, en estos tiempos modernos, usualmente, va por delante de la aplicabilidad de la misma en distintos contextos funcionales, principalmente en la Administración Pública. El presente artículo no trata de ahondar en el estado del arte tecnológico, sino de demostrar como ciertas tecnologías, muy maduras en otros ámbitos, (sanitario, bancario, marketing), pueden ser aplicadas al nuevo paradigma de OpenData, o publicación de datos abiertos por Administraciones Públicas, con el objetivo de mejorar la comprensión por parte de los “consumidores” de dicha información de forma directa, sencilla y rápida.
Tal y cómo describe Javier de la Cueva en su artículo “Redefiniendo la isegoría: open data ciudadanos”, OpenData permite que un ciudadano (o administración) publique a coste cero información que otros ciudadanos, pertenecientes a otro lugar del globo, puedan leerla a coste cero.
Sin embargo, para que esta posibilidad sea real, se deben dar las siguientes premisas:
– La liberación de los datos implica el sometimiento de los datos públicos a estándares abiertos obligatorios.
– Los datos dispuestos por los gobiernos deben ser lo más completos posibles, publicando toda la información en bruto, con la excepción de los datos relativos a la privacidad.
– Los datos puestos a disposición pública por los gobiernos deben ser fuentes primarias, y con un sentido de oportunidad, es decir, tan rápidamente como es reunida y recogida.
– Los datos deben de ser válidos, en un sentido estadístico, es decir, los valores intrínseco a los mismos deben ser evidencias de la realidad, en un porcentaje elevado (por ejemplo, se estima que los datos deben tener una confianza de un 80% en datos médicos).
– Calidad, veracidad e inmediatez.
La realidad es que, quitando contadas ocasiones, ninguna de las anteriores premisas se cumple. Por un lado, existe un estándar internacional para la publicación de los datos basado en tecnología semántica denominada “LinkedData”, que tiene cinco niveles de “excelencia”, y que no cumple casi ninguna administración. Por otro lado, los datos “expuestos” no son completos, y es necesario “ahondar” en información adicional, principalmente de otras fuentes, o incluso, manipulándola manualmente, para dar sentido a los datos publicados. Y finalmente, el coste que suponen los procesos de ETL (Extracción, Transformación y Carga) para las administraciones implica una clara pérdida de la oportunidad.
Quizás, el mayor problema en el coste de cumplimiento de estos requisitos es más profundo, y resida en que no existen objetivos claros sobré que conjuntos de datos publicar, y principalmente, el para qué publicarlos. Se debe realizar un análisis previo, e incluso una consulta a los agentes principales “consumidores” de dicha información, con el objetivo de cuantificar claramente los “data sets” relevantes, priorizar y programar en el tiempo su publicación por orden de importancia, gestionar correctamente la publicidad de dichas publicaciones, medir de forma objetiva y cuantitativa el retorno de la inversión (no siempre en parámetros económicos, sino de reputación e interés social), e incluso formar a la ciudadanía en las posibilidades de extracción y tratamiento de toda esta información. Sin tener los objetivos claros, y los beneficios cuantificados, a pesar de estar muy avanzada tecnológicamente, la filosofía OpenData no tiene futuro.
Así, se está generando un fenómeno, por el cual, los que realmente están liberando datos en formato “OpenData” son los ciudadanos mediante técnicas de transformación, extractando el conocimiento de forma normalizada, que el Estado ha sido incapaz de realizar en base a los criterios prefijados. Y en parte, la razón de este fenómeno es la contradicción que existe entre la “recomendación” de publicar datos en bruto (Estado), con la necesidad de extraer de dichos datos sólo y sólo aquella información que es relevante para las necesidades de una consulta concreta (Ciudadanos).
Y de esta forma, nace el concepto de Open Government. Open Government se refiere al uso de tecnología para fomentar la transparencia, participación y colaboración con los grupos de interés de la Administración Pública y los gobiernos. Aunque la expresión tiene raíces en el Siglo de las Luces y posteriormente en una declaración de Lincoln en 1863, Obama le dio un nuevo impulso a través de su “Memorandum on Transparency and Open Government” (2009). Para Obama, Open Government debe conducir hacia una Administración Pública y un gobierno más eficientes y efectivos. De alguna manera se trata de reinventar la gestión pública y el gobierno.
Conceptualmente, Open Government es la suma de Government 2.0 y Open Data. Es un nuevo paradigma en el que la tecnología actúa como facilitador de una transformación en la manera de gestionar la Administración Pública y los gobiernos, a través del fomento de la transparencia, la participación y la colaboración con los grupos de interés. Es decir, es la suma de la publicación de datos en bruto, en dónde, los grupos de interés (ciudadanos, empresas, gestores), son capaces de transformar dicha información en conocimiento publicable, recabando un beneficio final, bien renumerado, bien en conceptos de prestigio social. Como consecuencia de dicha aplicación, se obtienen resultados finales en términos de productividad, innovación y reputación/fidelización de dichos grupos de interés (ciudadanía).
Pero para que el “cliente final” pueda recibir, en una aplicación “ad hoc” de forma directa las conclusiones de dicho conocimiento, se deben realizar una serie de pasos sobre la información base, como lo son:
– La normalización y diferenciación entre lo que son datos constantes, conceptos (denominados “URI”s en semántica), y lo que son los valores asociados a dichos conceptos, y que serán los que se puedan mostrar en base a gráficos o informes. (Por ejemplo, Barcelona tiene una población de 1,621,537 habitantes se transforma en “dbpedia.org/page/Barcelonaàdbpedia-owl:populationTotalà1621537 (xsd:integer)”
– Los datos deben estar relacionados, de forma que, a partir de ciertos “pasos” precalculados, podamos buscar relaciones, entre distintos conceptos y sus valores. Por la tanto, podremos relacionar el impacto, por ejemplo, de ciertas subvenciones sobre la renta de una determinada región, o sobre su efecto en enfermedades determinadas, si se solicita. Esto implica que hay que “normalizar” la información lo expresado en el punto anterior, pero además, hay que “enlazar” dichos conceptos.
– Los datos deben ser relevantes, es decir, hay que “luchar” contra la cacofonía del ruido del entorno, y presentar solamente aquella información que tiene relación con la “pregunta” que se quiere responder. Por ejemplo, si estamos buscando si existe relación entre las sentencias judiciales y su efecto, sobre la violencia de género, “intuimos” que la información referente a los datos demográficos puedan ser de interés, pero no así, los datos meteorológicos, aunque igual nos sorprendíamos.
Como se puede intuir, el “navegar” por la ingente cantidad de datos en bruto, para seleccionar los conjuntos de datos, que “a priori” pueda tener relevancia con nuestro objetivo, enlazarlos, filtrarlos, normalizarlos, certificar la validez de los mismos, y presentarlos en un formato “usable”, no es una labor trivial.
Y sin embargo, en el entorno médico, por ejemplo, existen millones de “filas” de información ya extractada en este formato, disponible de forma directa, y accesible en función de las distintas preguntas que deseemos hacer. ¿Cómo es posible? Gracias a tecnología de extracción, análisis y asociación de relaciones basadas en técnicas de Inteligencia Artificial, conjuntadas en lo que hoy en día se ha dado por denominar “BigData” o “BigAnalytics”. El reto está en proporcionar dichas técnicas a los agentes del “Open Governmet”, para que, de una forma desasistida, los datos en bruto se puedan transformar en conocimiento elaborado con el mínimo esfuerzo `posible.
2. BIG DATA/BIG ANALYTICS
2.1 La palabra de moda: “Big Data”
Durante los últimos años, en el sector TIC, se ha pasado de la obsesión por “la nube” al foco en el “big data”. No obstante, el término “big data” es relativo. Se emplea (según definición de Gartner) cuando los problemas de gestión y procesamiento de la información “superan en una o varias dimensiones la capacidad de las tecnologías tradicionales de gestión de información para respaldar el uso de este activo”. Es decir, que los datos solo son “big data” cuando no es posible gestionarlos o analizarlos. Durante décadas, las TICs han salvado limitaciones conocidas alojando datos en estructuras definidas o arquitecturas de almacenamiento. Con métodos que se basan en el indexado y los lenguajes primitivos, las bases de datos no tardan en volverse demasiado grandes para ser gestionadas. Pero, ¿qué pasaría si pudiésemos poner una sola matriz de memoria con una fila por resolución judicial?, o ¿crear mil millones de filas, una por cada sentencia, sus datos asociados (niveles de renta de los demandantes/demandados, perfil de los jueces, situación geográfica, información censal) y su conclusión? Sería ideal poder obtener respuestas a cualquier pregunta en segundos a través de una sencilla interfaz gráfica o simplemente a través de una Web accesible. Esta posibilidad es lo que denominamos “big analytics”.
La tecnología de “big analytics”, evolución de la ya clásica “Minería de Datos”, se basa principalmente en la capacidad que tienen las máquinas de analizar correlaciones, relaciones, segmentaciones y procesos estadísticos en tiempo máquina (“sin descanso”), sobre un volumen de información ingente, tanto estructurado como no estructurado. Hay que tener en cuenta que el 80% de la información actual está en formato “textual”, y hacen falta procesos de transformación de dicho lenguaje a un formato “normalizado”. Por lo tanto, “big analytics” aúna técnicas de procesado estadístico con técnicas de procesado de lenguaje natural, que además, “encajan” a la perfección con la salida deseada que hemos comentado en el punto anterior, un formato semántico estructurado según al normativa de LinkedData.
“Big Analytics” se define como el proceso de descubrir los patrones de información interesante y potencialmente útil, inmersos en grandes fuentes de información dispersas con la que se interactúa constantemente. Internamente, es una combinación de procesos como:
– Extracción de datos.
– Limpieza de datos.
– Selección de características principales.
– Algoritmos de clasificación y predicción.
– Análisis de resultados.
Estas plataformas exploran una gran cantidad de datos, y mediante su análisis, explican qué indicadores tienen correlación con ciertos objetivos o preguntas realizadas, y además, cuáles son las reglas que modelan dichos comportamientos. Una vez extraídas dichas reglas, es posible predecir posibles tendencias o comportamientos futuros dentro de una entidad, permitiendo al usuario final “comprender” la lógica de lo que los datos “dicen”, y los datos “nunca mienten”, y en base a ello, poder tomar decisiones, en unos casos, o poder publicar noticias basadas en la investigación de los datos (como es el caso del “periodismo de datos”).
La diferencia de estas técnicas con las clásicas estadísticas reside, principalmente, en que las técnicas estadísticas se centran en técnicas confirmatorias, y “big analytics”, en técnicas de descubrimiento. Así, cuando el problema al que pretendemos dar respuesta es refutar o confirmar una hipótesis, podremos utilizar ambas ciencias. Sin embargo, cuando el objetivo es meramente exploratorio (para concretar un problema o definir cuáles son las variables más interesantes es un sistema de información) aumenta la necesidad de delegar parte del conocimiento analítico a técnicas de aprendizaje. Así, “big analytics” se utilizará cuando no partimos de supuestos de inicio y pretendemos buscar algún conocimiento nuevo y susceptible de proporcionar información novedosa en la toma de decisiones.
En el caso de datos públicos, y siguiendo con la premisa de publicación en bruto por parte de la Administración, existe una alta dimensionalidad del problema. Cuantas más variables entren en el problema, más difícil resulta encontrar una hipótesis de partida interesante o, aun cuando se pudiera hacer, el tiempo necesario no justificaría la inversión. En ese caso, utilizar técnicas de minería de datos como árboles de decisión nos permitirán encontrar relaciones inéditas para luego concretar la investigación sobre las variables más interesantes, y al contrario que en la estadística, cuantos más datos tengamos, mejor solucionaremos el problema.
No es el objeto de este artículo ahondar en la algoritmia interna de estas plataformas, pero como un punto general, se puede decir que se trabaja en distintas fases:
– Clustering: Es un planteamiento que intenta identificar las características distintivas entre los conjuntos de registros y el lugar en grupos o segmentos. Este proceso es a menudo la intensificación de punto de partida para la minería de datos, ya que conduce a la exploración de relación. Este proceso en particular es un candidato obvio para la segmentación de clientes por agrupación de similitudes.
– Asociación: Aquí se encuentran las reglas que le permiten correlacionar la presencia de un conjunto de elementos con otro conjunto. Este método ha demostrado ser eficaz en el comercio minorista, donde el análisis de cesta de la compra le ayuda a encontrar que algunos artículos son siempre comprado en el mismo tiempo. Si usted puede encontrar los patrones de compra natural de un cliente puede utilizar ese modelo para ayudar a comercializar su producto. El resultado de esta asociación es una lista de afinidad de productos.
– Asociación secuencial: Patrones relacionados con el tiempo. Este método busca los vínculos que relacionan estas pautas secuenciales. La idea es utilizar los datos asociativos como una cuenta de cheques o de un acontecimiento vital para unir una secuencia de acontecimientos en una serie de tiempo. La vida activa que preceden a sus compras y las compras de precursores se encuentran a menudo a esta metodología. La reducción de grandes cantidades de datos a los resúmenes significativa por el uso de nuevas normas puede extender esto.
2.1 La Curva de Aprendizaje
Una vez demostradas las capacidades de esta tecnología sobre el tratamiento masivo de datos, el problema es cómo “transferir” dichas capacidades a loas verdaderos agentes de la transformación y reutilización de datos abiertos, es decir, a los ciudadanos o empresas que los modelizan. Sin embargo, el problema no es tal, ya que existen múltiples plataformas analíticas avanzadas, muchas de software libre y disponible por la “comunidad” para su uso.
Estas plataformas tienen distinto grado de usabilidad y accesibilidad, pero las hay que, desde entornos Web, son capaces de permitir a los usuarios la subida de datos, y la bajada de las reglas que explican dichos datos, en base a reglas, que aclaran de forma visual, porqué un indicador está ocurriendo en determinados casos, y en otros no. Otro tipo de plataformas (RapidMiner, Knime), tienen una curva de aprendizaje un poco más escarpada, pero es perfectamente viable, que con pocas jornadas de entrenamiento, una persona no informática sea capaz de generar sus propios modelos para obtener las reglas que modelan sus datos.
Por lo tanto, una vez más, es evidente que la tecnología supera al “negocio” en cuanto a facilidad de uso, pero muchas veces, dicha funcionalidad no es divulgada, primeramente, por intereses particulares, en los que, determinados nichos de negocio (empresas de marketing, consultorías en analítica avanzada), pretenden “mantener” el conocimiento de estas tecnologías en nichos cerrados para poder seguir operando como “gurús tecnológicos” especializados en “siglas de “tres letras” , aparentemente inaccesibles para el resto de la sociedad, cuando, las plataformas reseñadas anteriormente tienen una filosofía totalmente abierta y accesible. De hecho, la mayoría de las herramientas disponibles utilizan el mismo tipo de algoritmos, uso de la misma base de métodos estadísticos o son variaciones “sutiles” de los métodos generales.
3. BIG ANALYTICS vs OPENDATA
Según Gartner, “BigData nos hace más listos, pero OpenData nos hará más ricos”. Efectivamente, tal y cómo hemos reseñado, BigData nos permite comprender que hay en nuestros datos, justo aquello que es relevante para nuestras consultas, y sólo aquello relevante, y el porqué está ocurriendo, mientras que OpenData permite a los agentes “publicar” dicha información transformada en conocimiento, para su beneficio propio.
La conjunción de ambas tecnologías, permite, minimizar el coste de análisis, transformación y extracción de la relevancia, aumentando, por lo tanto, el beneficio de la “venta” de dicho conocimiento a terceros. De esta forma, las Administraciones “delegan” su esfuerzo de desarrollo a agentes externos, siendo su única responsabilidad de la publicar datos en bruto.
El flujo del proceso es simple: Publicación de datos en Bruto por parte de la Administración (OpenData), complemento de dicha información con otras fuentes ya publicadas (LinkedData), recogida y análisis de información de forma automática (BigAnalytics), generación de evidencias contrastadas estadísticamente (BigAnalytics), y publicación de la información relevante en formato semántico (LinekdData), más la presentación de la misma información en cuadros de mando Web (Mashups). Todo ello, conformaría el ciclo en espiral de la gestión del conocimiento en un entorno de “Open Government”.
Más información en: http://www.ibermaticajusticia.com/ y http://www.i3b.ibermatica.com/i3b
Entradas recientes
- Sonificación de datos para la supervisión de procesos en tiempo real / 1
- Tratamiento del Lenguaje Natural en Medicina mediante técnicas de IA. Caso de Uso de Hedai.
- El Futuro en Blockchain: IA & Semántica & Blockchain.
- «Semantic Learning» en Salud. Un ejemplo de Minería sobre Estructuras Semánticas
- Ibermática desarrolla un Sistema de Soporte a la Decisión Clínica para pacientes con cáncer de mama