IBERJOUR una plataforma para la generación semiautomática de información y conocimiento

Abr 8, 2013   //   by oa.usun   //   Minería de Datos  //  Comentarios desactivados en IBERJOUR una plataforma para la generación semiautomática de información y conocimiento

 

La plataforma IBERJOUR (Ibermatica for Data Journalism) es una plataforma de periodismo de datos en la que los periodistas escribirán, publicarán, difundirán y recibirán “inputs” sobre sus historias y comentarios periodísticos.

El periodismo de datos representa la convergencia de diferentes campos, los cuales son significantes por sí mismos: desde labores de investigación y estadística hasta diseño y programación. Las acciones necesarias para llegar al periodismo de datos son: encontrar, interrogar, visualizar y relacionar los datos con el propósito de crear una nueva historia.

El periodismo de datos se basa en la unión del periodismo, el diseño y la ciencia computacional para contar y dar sentido a las historias. Por dar sentido entendemos poner en contexto una historia, integrando los datos en dicha historia, estructurando sus partes y por supuesto ofreciendo datos relacionados con ella (personas, lugares, eventos, etc).

Iberjour_1

La liberación de grandes cantidades de datos gubernamentales es un significante paso adelante en el camino de la Web Semántica. El movimiento open data realizado por los estamentos públicos permitirá nuevas formas de reportaje así como una nueva generación de servicios que permitan al público participar en el proceso de confección de las noticias y contenidos.

Open data reduce de forma drástica las barreras de entrada de nuevos actores en el campo periodístico o de la información. De esta forma aparecen iniciativas que buscan, desde las administraciones y promotores de los datos abiertos, su explotación por entidades comerciales, a la vez que se crean tecnologías (herramientas, plataformas, etc) para su aplicación en entornos periodísticos profesionales.

IBERJOUR tiene como objetivo la implantación del periodismo de datos, haciendo uso conjunto de los siguientes puntos:

  1. El movimiento open data iniciado por las instituciones gubernamentales españolas
  2. La capacidad de los periodistas para contar historias, ponerlas en su contexto y relacionarlas
  3. La capacidad tecnológica que Linked Data, el multilingüismo y las nuevas tecnologías de visualización nos brindan para conseguir este objetivo
  4. El desarrollo de herramientas y plataformas a explotar por la industria TIC aunando los conceptos anteriores y replicándolo en otros sectores
  5. La inclusión de soluciones para la seguridad de los datos y los resultados de su utilización.

slide6

En general los Datos Enlazados (Linked Data) son:

  • Abiertos: Los Linked Data son accedidos a través de una variedad ilimitada de aplicaciones porque se expresan mediante formatos abiertos y no propietarios.
  • Modulares: Los Linked Data pueden ser combinados (mashed-up) con cualquier otra pieza de Linked Data.
  • Escalables: Es sencillo añadir más Linked Data a aquellos que ya estén, incluso cuando los términos y definiciones que se utilicen cambien a lo largo del tiempo.

Los beneficios de los Linked Data son:

  • Permitir la publicación de datos a escala web.
  • Todo es un recurso.
  • Todo puede ser anotado.
  • Fácil de extender.
  • Fácil de fusionarse.

Las posibles fuentes de open data son:

  • Gubernamentales.
  • Las organizaciones periodísticas como The Guardian y el New York Times que publican “datablogs” que de forma regular liberan conjuntos de datos producido o adquiridos por las investigaciones.
  • Nodos de la nube existente de Linked Data.

IBERJOUR combina los ecosistemas de open data  expuestos bajo el paradigma Linked Data para dotar al periodismo de datos de una potente y novedosa herramienta. Tomaremos como fuentes los datasets de Open Data Euskadi, Twitter, Facebook y Youtube.  además, IberJour permite analizar «sets» de datos, de una manera sencilla, extrayendo información relevante de hojas de datos Excel, con una herramienta, que, en forma de guiado o «wizard», nos pregunta qué objetivos estamos buscando dentro de los datos, y nos muestra la correlación del resto de datos con el objetivo, y las reglas que explican el comportamiento de la meta buscada.

Así, este asistente, nos permite

  •  seleccionar los campos del total de lo hoja de datos, que deseemos analizar.

El usuario, una vez haya seleccionado el conjunto de datos de interés, podrá marcar los campos sobre los que quiere realizar la presentación de los mismos, seleccionando aquellos que le resulten de interés.

 Iberjour_3

Posteriormente, se podrá filtrar la información , en base a condiciones sobre los valores de los campos, podrá “filtrar” aquellas filas de los mismos que quiera analizar, por ejemplo, “edad >56”. Los criterios de filtrado podrán ser múltiples. Y finalmente, el sistema nos propone una serie de opciones que, directamente, nos explica qué es lo que los datos nos están «diciendo» sobre su naturaleza, y sobre los objetivos buscados originalmente.  Sobre las selecciones realizadas anteriormente, el sistema generará dos conjuntos de datos:

–          Correlación de indicadores sobre el campo objetivo:

Mostrará el porcentaje de correlación de cada indicador con respecto al objetivo seleccionado.

Iberjour_4

–          Set de reglas que expliquen las relaciones internas entre los indicadores:

El sistema generará un conjunto de reglas en formato “si -> entonces”, que explicará la correlación determinada en el paso anterior, junto con los valores de los umbrales que explican cada comportamiento interno de los datos.

Iberjour_5

Para las fuentes no estructuradas:

  • Herramienta de anotación y agregación de información adicional sobre conceptos relevantes.

Sobre los textos extraídos, existirá una herramienta de anotación que marcará aquellos conceptos más relevantes, indicando la categoría de pertenencia e información adicional sobre ella.

  • Herramienta de “Textmining” sobre Tags relevantes y gestión automática de categorías.

Sobre los textos relacionados, se indicará una estadística de las categorías o grupos de interés que conforman los textos, y dentro de cada grupo de interés, los “Tags” más representativos.

Iberjour_7

  • Herramientas de análisis de comportamientos sobre las categorías seleccionadas, y temáticas emergentes.

Otras entradas relacionadas:

¿Es posible conocer la intención de voto en base a datos abiertos? Un ejemplo de #OpenData + #DataMining = #OpenMining
Aplicación de Minería de Datos a Conjuntos de Textos. Como analizar “twitter” de una manera muy sencilla.

Si eres periodista o estás interesado en ampliar esta información puedes ponerte en contacto con nosotros en el contacto de este blog.

Comments are closed.