BigData – La palabra de moda en el mundo de la informática

Ago 9, 2013   //   by wpuser   //   Interacción  //  Comentarios desactivados en BigData – La palabra de moda en el mundo de la informática

bigdatacloud

Big Data es desde hace un año el término de moda dentro del mundo de la informática. Dicho de otra manera, durante 2012 y parte de 2013 el 60% de los artículos de opinión de tecnología avanzada hablan de Big Data como la nueva estrategia indispensable para las empresas de cualquier sector, declarando, poco menos, que aquéllos que no se sumen a este nuevo movimiento se quedarán “obsoletos” en cuanto a la capacidad de reacción en sus decisiones, perdiendo competitividad y oportunidades de negocio contra su competencia.

De momento, en España, según asegura IDC en un informe presentado a finales de 2012, sólo un 4,8% de las empresas utiliza ya la tecnología de Big Data y un 14,6% considera utilizarla en un futuro inmediato. No obstante, la consultora confía en que su adopción será exponencial en nuestro país y vaticina que el 19,4% de las empresas la habrán incorporado a sus procesos en 2014.

  • Introducción

 Big Data es desde hace un año el término de moda dentro del mundo de la informática. Dicho de otra manera, durante 2012 y parte de 2013 el 60% de los artículos de opinión de tecnología avanzada hablan de Big Data como la nueva estrategia indispensable para las empresas de cualquier sector, declarando, poco menos, que aquéllos que no se sumen a este nuevo movimiento se quedarán “obsoletos” en cuanto a la capacidad de reacción en sus decisiones, perdiendo competitividad y oportunidades de negocio contra su competencia.

Sin embargo, existe una gran confusión en el mercado sobre este término. A priori las empresas no entienden muy bien de qué se está hablando, qué es este nuevo paradigma y en qué les puede beneficiar. De esta forma, y a nivel más particular, los comerciales y gestores de las TIC están divididos entre aquéllos que ven Big Data como una oportunidad y aquéllos que lo ven como una moda más, sin gran futuro, sin aplicabilidad real y directa, y más aún, con dificultades de penetración en el contexto económico en el que nos encontramos.

Para entender un poco la situación real en la que nos encontramos, primero debemos entender qué es Big Data, de una manera lo más despegada posible a las “siglas de tres letras”. Big Data no es fácil de definir ya que es un nuevo término “inventado para el marketing” que aúna múltiples tecnologías que hasta hace unos meses tenían su propia denominación, y que “alguien” ha unificado bajo un mismo concepto. Por eso mismo ahora todo es “Big Data”, creándose una burbuja que está llevando no a pocos equívocos a la hora de su divulgación, venta y publicación.

Esta situación, lógicamente, está provocando en un corto lapso de tiempo que estemos ya en la primera fase de “desilusión” dentro de la famosa campana de Hype Cycle.

  • Respuesta y problema

Big Data es básicamente la respuesta más actual a una demanda y un problema tecnológico:

La demanda principalmente viene dada por la necesidad de adelantarse a la competencia en el conocimiento de su negocio. El conocimiento es poder, pero en un tiempo, situación y lugar muy precisos. Una vez pasada esa oportunidad, esa misma información se convierte en obsoleta y en un lastre. Pensemos en los anuncios, mensajes, correos o banners de cualquier tipo. Si ocurren en el momento preciso y “aciertan” con mis necesidades en ese instante, serán bienvenidos e incluso tendrán éxito. Pero si, como usuario, me bombardean con información que no estoy demandando, terminaré por “odiarlos” y, por extensión, a la compañía que me los ofrece.

Sin embargo, cuando hablamos de cliente no sólo pensamos en un ámbito comercial. Si mi médico me está diagnosticando erróneamente fuera de tiempo, si mi sistema me está alertando sobre posibles incidencias cuando ya han ocurrido, o cuando no son reales, o mi sistema de optimización en producción tiene que ser revisado prácticamente en cada carga porque las necesidades del cliente cambian constantemente y nos enteramos en el almacén, los sistemas de apoyo a la decisión, en vez de ayudar, suponen un estorbo. Para ello se necesita un análisis de información ingente, agregada en tiempo real y con posibilidad de acceso a la información granular también en tiempo real, para evidenciar las conclusiones. Es una ruptura sobre el análisis clásico: se trata de cambiar el estudio reactivo de la información por un análisis proactivo y predictivo.

Y aquí surge el problema tecnológico: el volumen de información a tratar por los sistemas informáticos es cada vez más complejo e intratable, debido principalmente a dos causas:

La información digital existente, principalmente por la extensión del uso de tecnologías 2.0 (blogs). Se estima que el 90% de la información existente a lo largo del planeta en toda su historia se ha generado en los últimos dos años.

Dicha información, en un 80% está almacenada en formato textual, escrita en lenguaje natural, no estructurada, lo que implica que su análisis es aún más complejo y, lo que es peor, es mucho más variable e incomprensible para los agentes (ya sean máquinas o expertos).

Pensemos que la información más relevante sobre los sistemas en producción es la que el operario escribe en las observaciones, la que el médico redacta en el historial clínico con su propio lenguaje, las impresiones “anotadas” sobre los candidatos por Recursos Humanos en sus entrevistas, las opiniones que los clientes dejan “grabadas” en las conversaciones con los Centros de Atención al Cliente, en los correos que comparten con los servicios de “contacto” de las empresas, o en la documentación comercial y técnica de los profesionales… Qué dicen de nosotros en la red, qué buscan nuestros clientes, cuáles son los indicadores válidos de entre los cientos de variables que tiene mi sistema para optimizar mis procesos en este momento y lugar precisos, y cómo puedo tomar la decisión correcta… Ése es el mayor reto al que se enfrentan las empresas hoy en día.

  • ¿Qué es Big Data?

Big Data es tan amplio, que si preguntamos al departamento de Infraestructuras nos dirá que es una nueva forma de recoger (vía redes de sensores, cuadros eléctricos, estaciones de datos, etcétera), almacenar y distribuir grandes cantidades de información en tiempo real, y en un entorno también de moda: en “la nube”, sin necesidad de tener que comprar hardware para dicha gestión. Mucho mejor contratar la infraestructura necesaria en cada momento y que sea el sistema el que se amolde a los picos de demanda.

Si preguntamos a Comunicaciones, nos dirá que es una nueva manera de poder acceder a datos concretos en entornos masivos de información en tiempo real, solucionando los problemas de volumen, velocidad y persistencia, que son históricamente cuellos de botella en la accesibilidad a la información.

Si preguntamos a los técnicos, nos dirán que es una nueva forma de programar procesos de preguntas o queries sobre grandes bases de datos, de forma que muchos servidores trabajen en paralelo, con el objetivo de minimizar el costo de dichos accesos y devolvernos la información en un tiempo récord.

bigdataweb

Evolución de Big Data en menciones

Si preguntamos a los expertos en Inteligencia de Negocio, nos dirán que es una nueva forma de visualizar resultados concretos en grandes cubos de cientos de dimensiones, de una forma rápida, barata y dinámica, sin necesidad de procesos de agregación “por las noches”, como se hacía ¿antiguamente?, ya que podemos aplicar técnicas de Minería de Datos, Business Intelligence o Análisis Predictivos (términos ya obsoletos), en tiempo real y en entornos distribuidos.

En realidad, Big Data es todo ello junto. Es un término que aúna algoritmos de gestión de archivos en múltiples servidores (al más puro estilo Google) con un sistema operativo propio que gestiona dichos archivos en granjas de servidores distribuidas de forma transparente.

También es un sistema de programación en paralelo que permite “trocear” las tareas en dos flujos principales, así como el “mapeo” o la selección de las fuentes de datos de forma directa, el tratamiento de dicha información de forma individualizada y la agrupación de los resultados en un proceso final denominado Reduce.

Y por último, es un conjunto de utilidades clásicas (SQL, operaciones aritméticas, operaciones estadísticas, operaciones predictivas y de análisis avanzado, operaciones de visualización y tratamiento de gráficos en entornos móviles) reprogramadas sobre este nuevo concepto de paralelización de procesos.

  • Un ejemplo práctico

Para verlo más claro, un ejemplo simple: Tenemos un millón de documentos, correos en los que queremos detectar cuáles son las palabras que más se repiten para descubrir cuáles son las incidencias más habituales de nuestros clientes. Supongamos que cada documento tiene una media de cien palabras y tenemos un servidor normal que tarda en contar las palabras que aparecen en cada documento un segundo. Necesitaríamos un millón de segundos para almacenar en una tabla las palabras, suponiendo que vamos calculando la suma cada vez que aparece una palabra. Necesitaríamos aproximadamente 12 días para hacer este proceso.

Ahora bien, si disponemos de cien ordenadores que leen en paralelo cada uno diez mil documentos, tardaríamos en procesar todas las palabras alrededor de 3 horas, incluyendo el proceso de sumar los resultados parciales de los cien servidores, unas diez mil sumas. Alquilaríamos cien servidores en “la nube” para hacer este proceso durante tres horas y luego analizaríamos la información en nuestro servidor propio.

El problema es que los indicadores que podemos tener en nuestro sistema no se reducen a un millón de documentos, sino a la relación de estos documentos con los datos de los perfiles de nuestros clientes, usuarios o equipos (edad, sexo, patología, ubicación, potencia, consumo, desgaste, incidencias, currículum, coste, tiempo de vida efectiva, correctivos, evolutivos, indicadores de no asistencia, picos de demanda…), y toda esta información está en nuestros sistemas, pero usualmente en distintos sistemas de información, sin enlaces entre ellos, y aún menos con la información normalizada.

Y esto sólo en nuestros sistemas internos, sin intentar buscar en Internet información relacionada. En estos casos Big Data proporciona herramientas de análisis automático que permiten, por un lado, tratar toda esta información no estructurada, convirtiendo el texto en códigos normalizados en base a técnicas de tratamiento de Lenguaje Natural y semántico.

Por otro lado, la parte de analítica avanzada se hace cargo de la extracción de patrones estadísticos, agrupando los datos por segmentos normales y “extraños”, permitiendo generar alertas sobre eventos que el propio sistema determina como “anormales”, en base a una ponderación de predicción (posibilidad de que se produzca una incidencia, de que existan fugas, tanto de sistemas de flujo como de personas, deserciones a la competencia, fraude, recaídas en enfermedades, descontento del personal, lanzamiento de ofertas personalizadas, recomendaciones de rutas turísticas, etcétera), y todo ello de forma desasistida y tratando cada nueva entrada al sistema como una nueva información a tener en cuenta a la hora de personalizar las decisiones en un contexto determinado.

  • La ventaja de la anticipación

La posibilidad de anticipar las necesidades de un cliente o las incidencias de un equipo o sistema, generando una acción correctiva u oportunidad de negocio antes de que ocurra, es la gran ventaja de este nuevo paradigma. Pero tiene un precio, necesitamos datos previos, necesitamos históricos que alimenten el sistema para que pueda extraer estas conclusiones que nos permitan “acertar” en el momento y situación oportunos. Los datos cuentan una historia en su naturaleza intrínseca que además siempre es cierta con una probabilidad determinada, “los datos nunca mienten”, siempre que no estemos mezclando “peras con manzanas”, en cuyo caso, no tendremos soporte para la correlación entre dichos indicadores y nos pueden llevar a conclusiones erróneas.

Además, y lo que es más importante, el conocimiento no está en la cantidad de datos, sino en el número de relaciones entre los conceptos que aúnan dichos datos. Y las máquinas son muy buenas cuantificando el valor (fortaleza y veracidad de los datos) de dichas correlaciones, que nos van a servir de guía para saber si los objetivos que buscamos (el porqué de determinadas ventas, incidencias o actuaciones) tienen relación con los cientos de indicadores asociados a dichas respuestas, cuáles son los indicadores que más relevancia tienen, y a partir de qué valores se da una determinada situación. Una vez extraídas estas reglas de forma automática, las podemos aplicar sobre nuevas transacciones para ver qué es lo que realmente debemos hacer con esa nueva situación.

Por otro lado, necesitamos un conocimiento experto del negocio previo importante, principalmente en la estructuración semántica de la información textual. No es lo mismo detectar que un potencial cliente nuestro ha escrito en Facebook que “necesito un pastor alemán”, si nuestra empresa es de recursos humanos, de venta de animales o de sistemas de alambrados eléctricos. Por ello es fundamental el contexto.

La usabilidad masiva de redes sociales, unida a la información de sus propios CRM y sistemas de gestión, y la aplicación de técnicas de segmentación y asociación sobre dicha información, permite adquirir un conocimiento personalizado de las situaciones asequible para las empresas en forma de Big Data. Como complemento, la utilización de dispositivos móviles en las transacciones, tanto en la adquisición de información como en el conocimiento de la situación física de los usuarios y equipos, permite incorporar al conocimiento de patrones de comportamiento un conocimiento extra de patrones de movimiento y “situacionalidad” que, si es bien aprovechado, puede dar a nuestros expertos en la toma de decisiones un valor añadido hasta ahora poco explorado.

bigdataclouddirecciones

Direcciones en el análisis de datos

  • ¿Para todo tipo de empresas?

Pero, ¿es Big Data una tecnología apta para cualquier empresa? La definición formal de Big Data es “conjunto de volúmenes de datos tan grandes y complejos que su procesamiento por medios tradicionales presentan grandes dificultades”. Bajo esta premisa, desde Ibermática tenemos clara la obligación de guiar a nuestros clientes en la adquisición de estas tecnologías con sentido común, evitando resolver problemas tratables con sistemas tradicionales u otros más avanzados, como minería de datos y texto o análisis predictivos.

Este tipo de tecnología, si bien es muy avanzada, no es aplicable a todo tipo de problemas. De otro modo, y como ocurre a menudo, llevaremos a dar una solución que al final termina en la fase de desilusión con el desgaste en las expectativas que ello conlleva. Big Data también tiene sus contrapartidas, que deben ser bien explicitadas a la hora de implantar un proyecto de este estilo.

La implantación de sistemas de Big Data requiere una nueva tipología de expertos que se ha venido a denominar data scientists, una mezcla entre consultores de negocio, analistas estadísticos y expertos en tecnologías de minería de datos y semántica que impactará en la externalización de servicios y, además, minimizará el otro aspecto a tener en cuenta en esta problemática: el análisis de la calidad de los datos que se manejan.

Ibermática es buena conocedora de todas estas tecnologías, dando soporte a sus clientes como partner tecnológico de las mayores plataformas Big Data existentes en el mercado (Oracle, IBM, SAP, SAS, QlickView, Hadoop, Mahout…) y con amplia experiencia en la innovación e implantación de soluciones de sistemas de decisión en tiempo real, principalmente a partir del trabajo de investigación desarrollado por el Instituto Ibermática de Innovación (i3B), aplicando estas tecnologías en los contextos más demandantes del tratamiento inteligente de grandes volúmenes de datos (Medicina, Energía, Telcos, Utilities, Banca, Marketing, Social Media, Industria y Administraciones Públicas). En concreto, estas últimas están embarcándose en otro concepto complementario a Big Data, denominado Open Data. La idea es la de publicar datos institucionales de interés público “en abierto” para su reutilización. Todo ello unido, generalmente, a la creación de servicios de valor añadido, ya sea por parte de la propia Administración como de empresas que quieran crear nuevas utilidades basadas en los datos. Y la forma de dar valor a estos datos es, de nuevo, la aplicación de estrategias de extracción de aquella información interesante, resultado de la unión de distintas fuentes Open Data. Como se dice habitualmente, “Open Data nos hará más ricos, pero Big Data nos hará más listos.

El espíritu de Ibermática, con metodología propia en la implantación de estos sistemas de innovación (Big Data, Open Data, Linked Data), es el de aconsejar a sus clientes en la mejor solución a la hora de abordar esta nueva oportunidad de “navegar” por los datos relevantes, pero solamente por aquéllos que generan conocimiento, permitiéndoles anticiparse al futuro inmediato. El análisis de lo que ha ocurrido en el pasado sólo es relevante si podemos aplicarlo en una mejor oferta de servicios a nuestros clientes internos, que son los gestores de decisión en el momento, lugar y situación concreta, permitiéndoles ser el centro de una decisión inteligente, rápida y efectiva.

Predecir es fácil, lo difícil es acertar” (Groucho Marx).

  • Garantía Ibermática

Ibermática es una de las principales compañías de servicios en Tecnologías de la Información (TIC) del mercado español. Creada en 1973, su actividad se centra en las siguientes áreas: Consultoría TIC, servicios de infraestructuras, integración de sistemas de información, outsourcing e implantación de soluciones integradas de gestión empresarial. Asimismo, está presente en los principales sectores de actividad: finanzas, seguros, industria, servicios, telecomunicaciones, sanidad, utilities y administración pública, donde ofrece soluciones sectoriales específicas. Completa su oferta con soluciones tecnológicas como Business Intelligence, ERP y CRM, gestión de procesos (BPM), recursos humanos, movilidad, gestión de contenidos (ECM), Social Business / Gov 2.0, gestión de personas (HCM), Arquitecturas SOA, trazabilidad, accesibilidad, seguridad e inteligencia artificial, así como servicios Cloud Computing.

Con 40 años de actividad en el sector de las TIC, Ibermática se ha consolidado como una de las primeras empresas de servicios de TI de capital español. Actualmente agrupa a 3.278 profesionales y representa un volumen de negocio de 247,7 millones de euros.

http://ibermatica.com/innovacion

 

Comments are closed.