Browsing articles tagged with " web semántica"

Monitorización e investigación en la web 2.0 para la toma de decisiones

Mar 1, 2012   //   by oa.usun   //   Semántica  //  Comentarios desactivados en Monitorización e investigación en la web 2.0 para la toma de decisiones

El uso de la Red y del ciberespacio construido sobre ella ha supuesto la reorganización en apenas dos décadas de las costumbres de millones de personas. También ha influido en asuntos como la toma de decisiones empresariales, la economía, la expresión de la identidad, la sociabilidad, el ocio y la educación formal, el activismo, el aprendizaje, y por supuesto el acceso, organización, distribución, consumo, gestión y recuperación de la información.

Las redes sociales son el fenómeno emergente más significativo de lo que se denomina web 2.0 y la eclosión de la comunicación de masas como nueva forma de comunicación en red.

Esto ha facilitado la producción de una gran cantidad de medios y contenidos por parte de los usuarios (Blogger, WordPress, Twitter, Facebook, …), que ha entrado en competencia directa con los medios de comunicación tradicionales, que se han visto obligados a adaptarse y a realizar cambios en sus redacciones, la tecnología usada, los contenidos o las condiciones de trabajo. Esto ha creado un nuevo contexto para la comunicación, la participación y el intercambio de información.

Esta web 2.0 provee a los individuos de plataformas que le permiten mejorar sus capacidades y le facilitan el acceso a información diversificada desde múltiples fuentes. Es un factor acelerador y amplificador de la extraordinaria habilidad de las personas para comunicar significados e ideas abstractas de forma social y colectiva. La Red está cambiando también el escenario de la investigación, ahora Internet se estudia como una estructura social o se utilizan tecnologías basadas en internet como herramientas para la investigación.

El ciberespacio es un campo de investigación idóneo donde es preciso acceder con una metodología científica tanto para la comprensión como para la elaboración de nuevas teorías o ampliaciones conceptuales de otras ya existentes. Lo más característico es que los sujetos investigados expresan sus opiniones en la web 2.0 sin la obligación de ceñirse a cuestionarios estandarizados o a guiones que restrinjan su experiencia a favor de las cuestiones decididas por un investigador.

Todo esto se puede investigar mediante un modelo, que propone dos horizontes temporales a la hora de abordar una investigación online. La información disponible en la web 2.0 se recolecta con aplicaciones de web mining y la investigación tiene dos fases:

1. La monitorización, que es la recopilación sistemática de la información delimitada tras seleccionar una serie de keywords o palabras clave estableciendo un corte temporal, un hipotético hoy, y haciendo un control diario y acumulativo de la información.

2. La investigación, que supone remontarnos hacia atrás en e tiempo entre uno y dos años o simplemente meses en función del volumen de información resultante.

Tanto la monitorización como la investigación tienen a su vez dos subfases:

–          La primera es de extracción, y en ella se rastrea la información textual o text mining, aunque también puede hacerse un rastreo multimedia o media mining.

–          La segunda es de clasificación automática para la monitorización, y automática y manual para la investigación, con el objetivo de no perder la sutileza de las ideas abstractas y los aspectos simbólicos inferibles del lenguaje no analizable por la tecnología.

Bajo la denominación de minería web o web mining se engloba todo un conjunto de técnicas encaminadas a la extracción de la información no trivial que reside de manera implícita en los datos. El web mining se usa para identificar y capturar información sobre una temática, marcas, productos o servicios de organizaciones y competidores; y en un sentido más amplio para realizar búsquedas más inteligentes (Ver El futuro del Text Mining se llama T2k  (Text to Knowledge) Tucán – Un extractor automático de información relacionada  y  Programación Neurolingüística (PNL) y los mapas mentales, procesos que cartografían el conocimiento y pueden facilitar la creación de ontoligías).

La información disponible en la Red es multimedia: texto, sonido, imágenes y bases de datos, pero este modelo se centra en la minería de datos textuales, que hoy son dominantes. El valor de esta tecnología está limitado por:

a) el estado del saber en cada momento del procesamiento de lenguaje natural.

b) la disponibilidad y acceso a tecnologías semánticas.

 

La monitorización consiste en la definición y creación de una estrategia de búsqueda y rastreo web, el establecimiento de un patrón de reconocimiento basado en las características del texto e independiente del tipo de medio online donde se encuentre. Es necesario establecer filtros, reglas de inclusión y exclusión de los resultados, que extraigan información propia y significativa de la temática objetivo.

El web mining semántico en la web 2.0 está también condicionado por el desarrollo de la estructura, arquitectura y posibilidades de navegación semántica de internet, cosa que depende de la aceptación y difusión de los estándares propuestos en el proyecto Semantic Web del W3C. La mayor limitación en internet no reside en el acceso al contenido sino a su sentido y significados. Tras el web mining se dispone de datos y referencias que conforman el universo objetivo. Debido al volumen de información puede ser oportuna la selección de una muestra tanto para la fase cuantitativa como la cualitativa.

En el web mining nos encontramos con dos unidades básicas:

Referencia, que  es la unidad básica de publicación de información (una noticia en un medio de comunicación online, un comentario en un foro, un post en un blog, etc.) extraída de la monitorización, en formato texto, que contiene al menos una de las palabras clave que delimitan el objeto de investigación desde un punto de vista sintáctico. Las referencias pueden ser limpias o falsos positivos. Una referencia limpia es todo bloque de información extraído de la monitorización en formato texto, relevante para la investigación desde el punto de vista sintáctico y semántico; todas las referencias que no cumplan esta condición son referencias no válidas o falsos positivos.

Opinión, es la unidad mínima de análisis informacional textual significativa siempre que contenga elementos informativos y/o valorativos relevantes para el objeto de estudio. Las referencias se pueden desagregar en opiniones.

Una vez codificadas las referencias y opiniones se diseña un plan de explotación y se genera información estadística para dimensionar bajo parámetros científicos los resultados de la investigación.

Tras la fase cuantitativa del modelo pasamos a una fase cualitativa, que permite conocer una parcela del objeto de estudio. Se trata de analizar las referencias para generar percepciones y/o puntos de vista útiles para la toma de decisiones. Para esta fase cualitativa el método se deberá elegir en función de los objetivos de la investigación y se optará por una o diferentes aproximaciones dentro de las amplias posibilidades que se ofrecen.

Así este modelo propuesto abre un nuevo campo de investigación al tener acceso desde una perspectiva científica a la expresión natural de las personas sobre organizaciones, marcas, productos, servicios, competidores, etc. (Ver  Redes Sociales, análisis, Marketing Personalizado, Líderes Virtuales, Topología, Datos Abiertos Y LinkedData. ¿Cómo se modelan los comportamientos para ofertarte lo que realmente necesitas?).

El tratamiento masivo de datos (Big Data): La próxima frontera para la innovación, la competencia, y la productividad

Sep 5, 2011   //   by oa.usun   //   Minería de Datos  //  6 Comments

 

La cantidad de datos en nuestro mundo ha sufrido una gran explosión y el análisis de grandes conjuntos de datos-el llamado big data- va a convertirse en una base clave de la competencia, que sustentan las nuevas olas de crecimiento de la productividad, la innovación y el excelencia.

Un completo informe de MGI y McKinsey apunta al “big data”, el tratamiento masivo de datos, como uno de los negocios con mayor futuro. De hecho, lo llega a calificar como “la próxima revolución informática”, en la medida en que crea nuevas oportunidades y todo un sector que ya se está poblando de empresas como Cloudera, Hadapt, Mapr, Factual, Apixio, Datastax, Zettaset, Acunu, Couchbase o 10gen.

El “big data” consiste en analizar y explotar grandes masas de datos para crear nuevos productos o mejorar la competitividad y la productividad. Hoy es posible realizar este trabajo por la proliferación de información en Internet pero también porque existe software libre específicamente diseñado para esta labor, como Hadoop o MongoDB, y porque el coste del almacenamiento informático se ha reducido sustancialmente.

MGI estudiaron los datos en cinco grandes ámbitos: Sanidad en los Estados Unidos, el sector público en Europa, el comercio minorista en los Estados Unidos, y la fabricación y ubicación de los datos personales a nivel mundial.

El aprovechamiento del tratamiento masivo de datos en el sector público tiene un enorme potencial.

La geolocalización continua que generan los smartphones, los resultados de análisis de constantes vitales, las compras online, los comentarios en redes sociales o las transacciones con chips NFC. Esta información se genera constantemente pero apenas se trata, pese a que puede resultar muy útil para múltiples actividades empresariales.

La investigación ofrece siete ideas clave.

  1. Los datos se han extendido en todas las industrias y funciones de negocios y ahora son un factor importante de la producción, junto a la mano de obra y el capital.
  2. Hay cinco formas amplias en las que a partir del tratamiento masivo de datos se pueden crear valor. Primero, hacer la información transparente y utilizable más frecuentemente. Segundo, las organizaciones crean y almacenan más datos transaccionales en forma digital, pueden recopilar información de rendimiento más precisa y detallada, y por lo tanto, mejorar el rendimiento. Tercero, el tratamiento masivo de datos permite la segmentación cada vez más estrecha de los clientes y por lo tanto, los productos pueden ofrecerse de forma más precisa a medida como así los servicios. Cuarto, puede mejorar sustancialmente la toma de decisiones. Finalmente, el tratamiento masivo de datos se pueden utilizar para mejorar el desarrollo de la próxima generación de productos y servicios.
  3. El uso del tratamiento masivo de datos se convertirá en una base clave de la competencia y el crecimiento de las empresas. Desde el punto de vista de la competitividad y la captura potencial de valor, todas las empresas deben tomar el tratamiento masivo de datos con seriedad.
  4. El uso del tratamiento masivo de datos sustenta las nuevas olas de crecimiento de la productividad.
  5. Aunque el uso del tratamiento masivo de datos se implementa en todos los sectores, en algunos se obtienen mayores ganancias. Los sectores de productos informáticos y electrónicos y de la información, así como finanzas y seguros, y relacionados con la administración pública, son los que más pueden beneficiarse de la utilización del tratamiento masivo de datos. Especialmentela Sanidadpodría rebajar los costes de los procedimientos un 15% y en el ámbito industrial, sería posible aumentar la productividad hasta un 60% al mejorar el diseño, calidad, marketing, previsión de demanda o la distribución.
  6. Habrá escasez del talento necesario para que las organizaciones puedan aprovechar el tratamiento masivo de datos.
  7. Varias cuestiones tendrán que ser dirigidas para aprovechar todo el potencial del tratamiento masivo de datos. Las políticas relacionadas con la privacidad, seguridad, propiedad intelectual, y la responsabilidad, tendrán que ser abordadas en el entorno del tratamiento masivo de datos. Las organizaciones necesitan no sólo poner el talento y la tecnología, sino también los flujos de trabajo y la estructura de incentivos para optimizar el uso del tratamiento masivo de datos. El acceso a los datos es crítica, las empresas cada vez tienen más necesidad de integrar la información de múltiples fuentes de datos, a menudo por parte de terceros, y los incentivos tienen que estar en su lugar para permitir esto.

Estas ideas clave se resumen en las siguientes: optimización de procesos, toma de decisiones, captación de tendencias, minimización de riesgos, análisis de opiniones, creación de nuevos nichos de mercado.

Uno de los ejemplos que se menciona entre líneas es el de Inditex, propietario de varias firmas de distribución y que ya emplea desde hace años el tratamiento masivo de datos para analizar qué productos tienen mayor demanda, con el fin de incrementar su producción. El informe habla, de todas formas, de muchas otras posibilidades en este sector, como poder incrementar los precios en tiempo real en ciertas tiendas, ofrecer uno u otro artículo en función de la localización concreta de una persona o innovar con la información obtenida de los clientes.

Y entre los nuevos negocios que empiezan a ser viables, además de los intermediarios en el análisis de los datos, se citan expresamente las pólizas de seguro que solo se activan cuando un vehículo está en movimiento, los servicios de tasación de propiedad inmobiliaria en base a la geolocalización de un posible comprador, las webs de comparación de precios o el análisis de sentimientos de lo que opinan los consumidores.

TECNICAS PARA ANALIZAR BIG DATA

Hay muchas técnicas que se basan en disciplinas como la estadística y la informática que se pueden utilizar para analizar conjuntos de datos. Aquí ofrecemos una lista de algunas de las técnicas aplicables en una amplia gama de industrias. Sin embargo, todas las técnicas que la lista se puede aplicar al tratamiento masivo de datos.

A / B testing. Una técnica en la que se compara un grupo de control con una variedad de grupos de prueba para determinar qué cambios mejoran una variable objetivo determinado. Esta técnica también se conoce como split testing o bucket testing. Un ejemplo de aplicación es determinar qué textos, presentaciones, imágenes, colores mejorará los ratios convirtiendo una Web en un sitio de comercio electrónico. Big data permite a un gran número de pruebas para ser ejecutado y analizado, lo que garantiza que los grupos son de tamaño suficiente para detectar estadísticamente significativas diferencias entre el control y los grupos de tratamiento.

Reglas de Asociación. Un conjunto de técnicas para descubrir relaciones interesantes, es decir, “reglas de asociación,” entre las variables en las grandes bases de datos. Estas técnicas consisten en una serie de algoritmos para generar y poner a prueba las reglas posibles. Una de las aplicaciones es el análisis de la compra, en la que un vendedor puede determinar qué productos se compran conjuntamente con frecuencia y usar esta información para la comercialización (un ejemplo que se cita es el descubrimiento de que muchos compradores de supermercados que compran pañales también tienden a comprar cerveza).

Clasificación. Un conjunto de técnicas para identificar las categorías a las que nuevos data points pertenecen, sobre la base de un entrenamiento conjunto que contiene los data points que ya han sido clasificadas. Una aplicación es la predicción de segmentos específicos de comportamiento de los clientes (por ejemplo, las decisiones de compra, tasa de rotación, tasa de consumo), donde hay una hipótesis clara o un resultado objetivo.

El análisis de cluster. Un método estadístico para clasificar los objetos que se divide un grupo diverso en pequeños grupos de objetos similares, cuyas características de similitud no se conocen de antemano. Un ejemplo de análisis de cluster es la segmentación de los consumidores en grupos de auto-similares para la comercialización directa. Este es un tipo de aprendizaje no supervisado, porque los datos de entrenamiento no se utilizan. Esta técnica está en contraste con la clasificación, un tipo de aprendizaje supervisado.

Crowdsourcing. Una técnica de recogida de datos presentados por un gran grupo de personas o comunidad (es decir, la “multitud”) a través de una convocatoria abierta, por lo general a través de los medios de comunicación en red, tales como la Web. Estees un tipo de colaboración masiva y un ejemplo del uso de Internet 2.0.

Fusión de datos e integración de datos. Un conjunto de técnicas para integrar y analizar datos de múltiples fuentes con el fin de desarrollar ideas en formas que sean más eficientes y potencialmente más precisas que si se han desarrollado mediante el análisis de una sola fuente de datos. Los datos de los medios de comunicación social, analizados por el procesamiento del lenguaje natural, se puede combinar con datos en tiempo real las ventas, con el fin de determinar el efecto que una campaña de marketing está teniendo sobre la confianza del cliente y el comportamiento de compra.

La minería de datos. Un conjunto de técnicas para extraer patrones a partir de grandes conjuntos de datos mediante la combinación de los métodos de estadística y de aprendizaje de máquina con la gestión de bases de datos. Estas técnicas incluyen el aprendizaje de reglas de asociación, análisis de cluster, la clasificación y regresión. Las aplicaciones incluyen la minería de datos del cliente para determinar los segmentos más propensos a responder a una oferta, la minería de datos de recursos humanos para identificar las características de la mayoría de los empleados con éxito, o el análisis de cesta de la compra para modelar el comportamiento de compra de los clientes.

Conjunto de aprendizaje. El uso de varios modelos de predicción (cada uno desarrollado con estadísticas y / o aprendizaje de máquina) para obtener un mejor rendimiento de predicción. Este es un tipo de aprendizaje supervisado.

Los algoritmos genéticos. Una técnica utilizada para la optimización que se inspira en el proceso de evolución natural o “supervivencia del más apto”. En esta técnica, las posibles soluciones se codifican como “cromosomas” que se pueden combinar y mutar. Estos cromosomas individuales se seleccionan para la supervivencia en un modelo “medio ambiente” que determina la idoneidad o el rendimiento de cada individuo de la población. A menudo descrito como una especie de “algoritmo evolutivo”, estos algoritmos son muy adecuados para la solución de problemas no lineales. Ejemplos de aplicaciones incluyen mejorar la planificación de tareas en la fabricación y optimizar el rendimiento de una cartera de inversiones.

De aprendizaje automático. Una sub-especialidad de la informática (dentro de un campo históricamente llamada “inteligencia artificial”) relacionados con el diseño y desarrollo de algoritmos que permiten a los ordenadores evolucionan los comportamientos basados en datos empíricos. Un aspecto importante de la investigación de la máquina es aprender de forma automática a reconocer patrones complejos y tomar decisiones inteligentes sobre la base de datos. El procesamiento del lenguaje natural es un ejemplo de aprendizaje de máquinas.

Procesamiento del lenguaje natural (NLP). Un conjunto de técnicas de una subespecialidad de la informática (dentro de un campo históricamente llamada “inteligencia artificial”) y de la lingüística que utiliza algoritmos computacionales para analizar el lenguaje humano (natural). Muchas de las técnicas de PNL son los tipos de aprendizaje automático. Una de las aplicaciones dela PNLse utiliza el análisis de los sentimientos de los medios de comunicación social para determinar cómo los clientes potenciales están reaccionando a una campaña de marca.

Las redes neuronales. Los modelos computacionales, inspirados en la estructura y el funcionamiento de redes neuronales biológicas (es decir, las células y conexiones en el cerebro), para encontrar patrones en los datos. Las redes neuronales son muy adecuadas para la búsqueda de patrones no lineales. Pueden ser utilizados para el reconocimiento de patrones y su optimización. Ejemplos de aplicaciones incluyen la identificación de clientes de alto valor que están en riesgo de dejar una empresa en particular y la identificación de reclamos fraudulentos de seguros.

Análisis de redes. Un conjunto de técnicas utilizadas para caracterizar las relaciones entre los nodos discretos en un gráfico o una red. En el análisis de redes sociales, las conexiones entre los individuos en una comunidad u organización se analizan, por ejemplo, cómo viaja la información, o quién tiene más influencia sobre quién. Ejemplos de aplicaciones incluyen la identificación de líderes de opinión para orientar a la comercialización, y la identificación de cuellos de botella en los flujos de información de la empresa.

Optimización. Una cartera de técnicas numéricas utilizadas para rediseñar los sistemas y procesos complejos que mejoran su rendimiento de acuerdo a una o más medidas objetivas (por ejemplo, el costo, la velocidad o fiabilidad). Ejemplos de aplicaciones incluyen la mejora de los procesos operativos, como la programación, el enrutamiento y distribución en planta, y la toma de decisiones estratégicas, como la estrategia de la gama de productos, análisis de inversión vinculados, y de I + D estrategia de cartera. Los algoritmos genéticos son un ejemplo de optimización.

Reconocimiento de patrones. Un conjunto de técnicas de aprendizaje automático para asignar algún tipo de valor de la producción (o etiqueta) a un valor de entrada dado (o instancia) de acuerdo a un algoritmo específico. Las técnicas de clasificación son un ejemplo.

Modelos de predicción. Un conjunto de técnicas en el que se crea un modelo matemático para predecir mejor las probabilidades de un resultado. La regresión es un ejemplo de las técnicas de modelado predictivo.

Regresión. Un conjunto de técnicas estadísticas para determinar cómo el valor de la variable dependiente cuando una o más variables independientes se ha modificado. A menudo se utiliza para el pronóstico o la predicción. Ejemplos de aplicaciones incluyen el volumen de ventas de predicción basado en el mercado y otras variables económicas o la determinación de los parámetros de fabricación al medir la satisfacción del cliente. Se utiliza para Data mining.

Análisis del Sentimiento. Aplicación de procesamiento de lenguaje natural y otras técnicas analíticas para identificar y extraer la información subjetiva de material de origen del texto. Los aspectos clave de estos análisis incluyen la identificación de la función, aspecto o producto sobre el cual se expresa un sentimiento, y determinar el tipo, la “polaridad” (es decir, positivo, negativo o neutro) y el grado y la fuerza del sentimiento. Ejemplos de aplicaciones incluyen las empresas que solicitan el análisis de los sentimientos de los medios de comunicación social (por ejemplo, blogs, micro blogs y redes sociales) para determinar cómo los diferentes segmentos de clientes y partes interesadas están reaccionando a sus productos y acciones.

Procesamiento de señales. Un conjunto de técnicas de ingeniería eléctrica y matemática aplicada, originalmente desarrollado para analizar las señales continuas y discretas, es decir, las representaciones de las magnitudes físicas analógicas (incluso si están representados digitalmente), como señales de radio, sonidos e imágenes. Esta categoría incluye las técnicas de la teoría de detección de señales, que cuantifica la capacidad de discernir entre señal y ruido. Ejemplos de aplicación incluyen modelos para el análisis de series de tiempo o de fusión de datos para determinar la aplicación de una lectura más precisa mediante la combinación de los datos de un conjunto de fuentes menos datos precisos (es decir, la extracción de la señal del ruido).

El análisis espacial. Un conjunto de técnicas, algunas aplicadas a la estadística, que analizan las propiedades topológicas, geométricas, o geográficos codificados en un conjunto de datos. A menudo, los datos para el análisis espacial provienen de los sistemas de información geográfica (GIS) en que la captura de datos incluye información sobre la ubicación, por ejemplo, direcciones o latitud / longitud. Ejemplos de aplicaciones incluyen la incorporación de los datos espaciales en regresiones espaciales (por ejemplo, cómo es la disposición del consumidor a comprar un producto relacionada con la ubicación).

Estadísticas. La ciencia de la recopilación, organización e interpretación de datos, incluyendo el diseño de encuestas y experimentos. Las técnicas estadísticas se utilizan a menudo para hacer juicios sobre que las relaciones entre variables podría haber ocurrido por casualidad (la “hipótesis nula”), y que las relaciones entre las variables de resultado probable de algún tipo de relación causal subyacente (es decir, que son “estadísticamente significativos”) . Las técnicas estadísticas se utilizan también para reducir la probabilidad de errores de tipo I (“falsos positivos”) y errores de tipo II (“falsos negativos”). Un ejemplo de una aplicación es las pruebas A / B para determinar qué tipo de material de marketing que la mayoría de aumentar los ingresos.

Aprendizaje supervisado. El conjunto de técnicas de aprendizaje automático que infieren una función o relación de un conjunto de datos de entrenamiento. Los ejemplos incluyen la clasificación y el vector de apoyo machines.

Simulación. Modelar el comportamiento de sistemas complejos, a menudo utilizado para el pronóstico, la predicción y planificación de escenarios. Simulaciones de Monte Carlo, por ejemplo, son una clase de algoritmos que se basan en un muestreo repetido al azar, es decir, miles de simulaciones, cada una basada en supuestos diferentes. El resultado es un histograma que proporciona una distribución de probabilidad de los resultados. Una aplicación es la evaluación de la probabilidad de alcanzar las metas financieras dadas las incertidumbres sobre el éxito de varias iniciativas.

Análisis de series. Conjunto de técnicas estadísticas y de procesamiento de señales para el análisis de secuencias de puntos de datos, que representan los valores en tiempos sucesivos, para extraer las características significativas de los datos. Ejemplos de análisis de series de tiempo incluye el valor por hora de un índice bursátil o el número de pacientes diagnosticados con una enfermedad determinada todos los días.

Predicción de series es el uso de un modelo para predecir los valores futuros de una serie sobre la base de los valores anteriores o de otra índole. Algunas de estas técnicas, por ejemplo, el modelado estructural, estudio de la tendencia de una serie durante un tiempo, y los componentes residuales, que pueden ser útiles para la identificación de patrones cíclicos en los datos. Ejemplos de aplicaciones incluyen previsiones cifras de ventas, o la predicción del número de personas que serán diagnosticadas con una enfermedad infecciosa.

Aprendizaje no supervisado. Un conjunto de técnicas de aprendizaje automático que se encuentra escondida en la estructura de datos sin etiquetar. El análisis de conglomerados es un ejemplo de aprendizaje no supervisado.

Visualización. Las técnicas utilizadas para la creación de imágenes, diagramas o animaciones para comunicarse, entender y mejorar los resultados de los análisis de grandes volúmenes de datos.

BIG DATA en Ibermática

Aplicando sistemas híbridos de tratamiento avanzado de datos, con el objetivo de dar un apoyo a la decisión en tiempo real a los usuarios, de forma que se puedan abstraer del análisis de la información, para centrarse en el conocimiento implícito de los mismo, tanto en sus vertientes de comportamientos usuales, como anómalos, y que permita optimizar los esfuerzos en solucionar los problemas y mejorar los procesos detectados como “desviaciones”, y no en la búsqueda de las anomalías en un mar de datos,  Ibermática ha creado su plataforma GuiDes.

Big data” plantea básicamente tres retos sobre el flujo de datos:

  • Volumen: saber cómo gestionar e integrar grandes volúmenes de datos, procedentes de fuentes heterogéneas.
  • Velocidad: poder acceder a la plataforma desde cualquier lugar, de forma autónoma por cualquier usuario de negocio, para mejorar y agilizar la toma de decisiones mediante la automatización: programación de acciones, eventos y alarmas.
  • Variedad: conseguir unificar contenidos dispersos y no estructurados, con datos históricos, actuales y/o predictivos para un manejo óptimo de los mismos y para extraer de ellos información de valor.
Pero existe uno más, que es la extracción automática del conocimiento relevante dentro de dichos datos.

La plataforma GuiDeS,  posee unos claros objetivos que permite abordar los retos anteriores,  ofreciendo el rendimiento y la flexibilidad necesaria para identificar patrones, entregar el conocimiento, la visión adecuada y a tiempo, sobre los datos, a los responsables en la toma de decisión.

 

 

 

GuiDes permite:

  • Gestionar una gran variedad y volumen de datos en tiempo real: es decir, con rapidez y en su contexto
  • Procesar datos altamente estructurados, semi-estructurados o poco estructurados mediante soporte XML nativo
  • Ayuda a los técnicos en la instrumentación de reglas para el seguimiento y control de alertas en su negocio.
  • Permite la detección de anomalías en las pautas de comportamiento.
  • Genera un sistema de alertas sobre casos inciertos.
  • Permite un sistema de representación gráfica de zonas con probabilidad alta de incidencias sobre los objetivos buscados.
  • Es una plataforma de integración de información y seguimiento de la correcta resolución de las alertas generadas.
  • Contiene capacidad de aprendizaje automático ante las acciones correctivas.
  • Acceso desde terminales móviles a toda la gestión inteligente de apoyo a la decisión en tiempo real.

En resumen, permite de forma ágil y sencilla convertir los datos simples en información de valor para que los responsables puedan tomar decisiones cuando realmente importan. Los cuadros de mando son más dinámicos e interactivos, dando al usuario la posibilidad de encadenar, sobre la información tiempo real con la que están trabajando, acciones de resolución, correctivas, preventivas y de manera inmediata.

 Gestiona, por lo tanto, la integración de grandes volúmenes de datos, desorganizados y procedentes de fuentes heterogéneas, internas y externas, su análisis en tiempo real y la toma de decisión inmediata, para alcanzar la máxima eficiencia en el negocio en tiempo real.

En siguientes “posts”, iremos desgranando cada una de estas problemáticas, y sus soluciones….