Visualización de la información: la base del conocimiento enlazando ideas de forma gráfica

Feb 21, 2012   //   by oa.usun   //   Minería de Datos  //  Comentarios desactivados en Visualización de la información: la base del conocimiento enlazando ideas de forma gráfica

El campo de la visualización de la información ha surgido de la investigación en interacción persona-ordenador, la informática, gráficos, diseño visual, la psicología y métodos de negocio. Se aplican cada vez más como un componente crítico en la investigación científica, bibliotecas digitales, la minería de datos, los análisis de datos financieros, estudios de mercado, el control de la producción manufacturera, o el descubrimiento de fármacos.

La visualización de la información supone que las representaciones visuales y técnicas de interacción aprovechan la vía del ojo humano y el amplio ancho de banda en la mente para permitir a los usuarios ver, explorar y entender grandes cantidades de información a la vez. La visualización de la información centrada en la creación de enfoques para el transporte abstracto de información de manera intuitiva.

La visualización es multidisciplinar ya que comunica los datos mediante una interfaz, transformándolos en información semántica a través de medios gráficos, combinando su funcionalidad y su estética y estimulando la participación de los usuarios.

El reciente énfasis en la visualización se inició en 1987 con el especial tema de gráficos por ordenador en la visualización en Computación Científica. Desde entonces ha habido varias conferencias y talleres donde se han dedicado a los temas generales de visualización de datos, visualización de la información y la visualización científica.

En la visualización científica encontramos dos áreas específicas:

–          Visualización de volúmenes, que se refiere a campos escalares.

–          Visualización de flujo, donde hay datos que evolucionan en el tiempo.

 

Dentro de estas áreas en la visualización de información existen algunas subáreas que son las que más nos interesan como:

–          La visualización de grafos, que construye representaciones visuales geométricas que son modelos subyacentes en una gran cantidad de datos abstractos. La generación automática de un grafo tiene importancia en aplicaciones clave como la Ingeniería de Software, el Diseño de Bases de Datos, las Telecomunicaciones, el Data Mining y la Representación del Conocimiento entre otros dominios. El objetivo de trabajo consiste en encontrar algoritmos eficientes para lograr grafos que transmitan su significado en forma clara y rápida.

–          Pixel Bars: Visualización de datos ordinales en Bases de Datos. Visualiza simultáneamente múltiples campos de la base de datos, en tanto los valores de estos campos tengan un orden.

 

–          Relaciones entre temas y documentos de texto. Mostrar una vista conceptual de grandes Grupos de documentos, que permitan ir desde los temas a los documentos particulares, siempre ha sido un desafío.

 

–          La visualización de Arquitecturas de Software, que proporciona sistemas interactivos que permiten extraer y visualizar sobre arquitecturas de sistemas de software.

–          Data Mining Visual, que se refiere a la integración del acceso a las bases de datos con Data Mining y Visualización. Pretendiendo ayudar en el descubrimiento de conocimiento y en la toma de decisiones cuando existen grandes volúmenes de datos. Utilizando mecanismos interactivos de respuesta rápida basados en técnicas de browsing, filtros y facilidades para construir queries dinámicas que permiten aprender de los datos a través de múltiples consultas.

¿Por qué visualizar un modelo de minería de datos?

Las fuerzas impulsoras detrás de visualización de modelos de minería de datos se pueden dividir en dos áreas clave: comprensión y confianza. La comprensión es, sin duda, la motivación más fundamental detrás de la visualización del modelo (Ver Modelos básicos de predicción) .

La forma más interesante de utilizar un modelo de minería de datos es conseguir que el usuario entienda realmente lo que está pasando para que puedan actuar directamente. La visualización de un modelo debe permitir a un usuario discutir y explicar la lógica que existe detrás del modelo a colegas, clientes y otros usuarios. La obtención de la lógica o la razón de ser es parte de la construcción de la confianza de los usuarios en los resultados.  Además, el modelo debe ser entendida de modo que las acciones que se toman como resultado se puede justificar ante los demás.

Comprender significa algo más que la comprensión, también implica contexto. Si el usuario puede entender lo que se ha descubierto en el contexto de los problemas de su negocio, va a confiar en él y ponerlo en uso.

Hay dos partes en este problema: 1) la visualización de la salida de la minería de datos de una manera significativa, y 2) que permite al usuario interactuar con la visualización para que las preguntas puedan ser contestadas.

Como soluciones creativas a la primera parte  se han incorporado un buen número de productos comerciales y de Open Source para la visualización de modelos de minería de datos (Visifire, WPFToolkit). Indicadores de elevación gráfica, la respuesta y modelos financieros (por ejemplo, beneficios, costos, retorno de la inversión) que le da al usuario un sentido del contexto y que rápidamente pueden basar los resultados en la realidad.

Es la segunda parte la que aún no se ha tratado de manera adecuada. La interacción es, para muchos usuarios, el Santo Grial de la visualización en la minería de datos. La manipulación de los datos y la visualización de los resultados de manera dinámica, permite al usuario tener una idea de la dinámica y comprobar si algo realmente contrario a la intuición está pasando. La interactividad ayuda a lograr esto. Ver un árbol de decisión es agradable, pero lo que realmente quiere hacer el usuario es arrastrar y soltar los segmentos en un mapa con el fin de responder al interminable número de preguntas “qué pasaría si”.

La integración con otras herramientas de apoyo a las decisiones (por ejemplo, OLAP) permitirá a los usuarios ver los resultados de minería de datos.

Confiando en el Modelo

La atribución de confianza correcta para los modelos de minería de datos  es esencial para su utilización. Una buena medida cuantitativa de la “confianza”, en última instancia, debe reflejar la probabilidad de que las predicciones del modelo se corresponderían con los objetivos de la prueba.  Además, dado que, como con cualquier modelo científico, una última instancia, sólo puede refutar el modelo, la visualización de las limitaciones del modelo es de primordial importancia. Dado que la minería de datos se basa principalmente en datos de entrenamiento, es importante entender las limitaciones que establecen dichos datos en la futura aplicación del modelo resultante.

El conocimiento del dominio también es fundamental para la detección de valores extremos necesarios para limpiar los datos y evitar los problemas. Si un modelo de minería de datos se construye utilizando los datos donde los valores extremos sean datos incorrectos,  afectará al modelo resultante. El papel de la visualización aquí es sobre todo hacer notar las estructuras de datos del modelo que violan el conocimiento del dominio.

No todas las evaluaciones de confianza son de naturaleza negativa.  La evaluación de la confianza también está estrechamente relacionada con la comparación de modelos. En particular, es muy útil para comprender la sensibilidad de las predicciones del modelo, la calidad de los parámetros y / o su estructura.

Los resúmenes estadísticos de todo tipo también son comunes y útiles para recoger ideas para la evaluación de la confianza del modelo.  Pueden ser particularmente útiles para la comparación de la confianza relativa de dos modelos, permitiendo el análisis, centrándose en los subgrupos de características por las cuales sus relaciones difieren más significativamente.

Lo más útil son los modelos que cumplen los requisitos de su propia confianza hasta cierto punto, como en la cuantificación de la variación esperada en el error de sus predicciones.

La comprobación de la consistencia interna, es tal vez en última instancia, una de las maneras más importantes para juzgar la fiabilidad de un modelo

Descripción del modelo

Un modelo que puede ser comprendido es un modelo en que se puede confiar. Los métodos estadísticos para construir la confianza en un modelo no permiten evaluar la validez semántica del modelo, es decir, su aplicabilidad al mundo real.

Un algoritmo de minería de datos que utiliza un modelo humano-comprensible, se puede comprobar fácilmente por los expertos, proporcionando la validez semántica necesaria para el modelo. Pero desafortunadamente, los usuarios se ven obligados a sacrificar la precisión del modelo.

Técnicas avanzadas de visualización, pueden ampliar la gama de modelos entendidos por los expertos, aliviando así la exactitud / comprensibilidad trade-off. Los tres componentes esenciales para la comprensión de un modelo son: la representación, la interacción y la integración.

– La representación se refiere a la forma visual en el que el modelo aparece. Una buena representación muestra el modelo en términos de componentes visuales que son familiares para el usuario.

– La interacción se refiere a la capacidad de ver el modelo en acción en tiempo real, para permitir al usuario jugar con el modelo como si se tratara de una máquina.

– La integración se refiere a la capacidad de mostrar las relaciones entre el modelo y otros puntos de vista de los datos en que se basa. La integración proporciona el contexto del usuario.

Nos vamos a centrar en la comprensión de modelos de clasificación. En concreto, vamos a examinar tres modelos gráficos: árboles de decisión, modelos bayesianos simples, y tablas de decisión.

La representación gráfica debe ser suficientemente simple como para ser fácil de entender, pero lo suficientemente completa como para revelar toda la información presente en el modelo.  Visualizaciones en tres dimensiones tienen el potencial de mostrar mucha más información que en dos dimensiones. La navegación en una escena le permite a uno centrarse en un elemento de interés, manteniendo el resto de la estructura en su contexto. Es crítico, sin embargo, que el usuario sea capaz de desplazarse a través de una visualización tridimensional en tiempo real. Una imagen de una escena en tres dimensiones no es más que una proyección en dos dimensiones y suele ser más difícil de entender que una escena construida en dos dimensiones.

Incluso con tres dimensiones, muchos modelos todavía contienen demasiada información para mostrar simplemente. En estos casos, la visualización debe simplificar la representación.

Los árboles de decisión son fáciles de entender, pero puede llegar a ser abrumadoramente grande.  El usuario puede obtener una comprensión básica del árbol siguiendo las ramas. Los niveles adicionales de detalle se revelan sólo cuando el usuario navega a un nivel más profundo, proporcionando más información sólo cuando sea necesario.

 

Uso de tablas de decisión como una representación del modelo genera un modelo simple pero de gran tamaño. Una tabla de decisión completa, teóricamente contiene el conjunto de datos, que puede ser muy grande. Por lo tanto es indispensable una simplificación.

Los datos se agregan de forma automática para proporcionar un resumen usando sólo las características más importantes. Cuando el usuario desea obtener más información, puede profundizar en tantos niveles como sea necesario para responder a su pregunta. La visualización cambia automáticamente la agregación de los datos para visualizar el nivel de detalle deseado.

Si bien una buena representación en gran medida puede ayudar a la comprensión del usuario, en muchos casos, el modelo contiene demasiada información para proporcionar una representación que es a la vez completa y comprensible. En estos casos, explotar la capacidad del cerebro para razonar acerca de causa y efecto y que el usuario pueda interactuar con el modelo más complejo. La interacción puede ser considerada como “la comprensión en la práctica” en lugar de “comprensión por ver”.

Los modelos bayesianos simples se basan en la multiplicación de las matrices de probabilidades, que son difíciles de entender por sí mismos. Sin embargo, al permitir al usuario seleccionar los valores para las características y ver los efectos, la visualización proporciona una perspectiva de causa y efecto en la operación del clasificador. El usuario puede jugar con el modelo para comprender exactamente como la cantidad de cada función afecta a la clasificación y en última instancia, decide aceptar o rechazar el resultado.

Más allá de la clasificación interactiva, de forma interactiva la orientación del proceso de construcción del modelo proporciona un control adicional y comprensión para el usuario. El árbol de decisión da al usuario un control total sobre cuándo y cómo se construye el árbol. El usuario puede sugerir  una  poda, o de forma manual la construcción de las secciones del árbol. Esta facilidad puede aumentar en gran medida la comprensión.

Las técnicas de integración que se utilizan se presentan en tres formas: para obtención de detalles, el cepillado y visualizaciones coordinadas.  Por ejemplo, el árbol de decisión visualizador permite la selección y obtención de detalles en las ramas individuales del árbol. Esto facilitará el acceso a los datos originales que se utilizaron para la construcción de las ramas, dejando de lado los datos representados por otras partes del árbol. El cepillado se refiere a la capacidad de seleccionar las piezas de un modelo. Visualizaciones coordinadas nos muestran múltiples representaciones del mismo modelo, junto con las representaciones de los datos originales.  Las tres formas ayudan al usuario a comprender cómo el modelo se refiere a los datos originales. Esto proporciona un contexto externo para el modelo y ayuda a establecer la validez semántica.

Comparación entre modelos que utilizan la visualización

La comparación de modelos requiere la creación de un medio apropiado para el espacio de los modelos que se trate. Para visualizar el modelo de comparación, estas cifras deben ser interpretables por un observador humano a través de su sistema visual. El primer paso es crear un mapeo de entrada a la salida del proceso de modelado. El segundo paso consiste en asignar a este proceso el espacio visual humano.

 

Conclusión

Hemos visto una serie de métodos para visualizar modelos de minería de datos. Dado que los modelos de minería de datos suele generar resultados que antes eran desconocidos para el usuario, es importante que cualquier modelo de visualización proporcione al usuario un nivel suficiente de comprensión y confianza.

Comments are closed.