El tratamiento masivo de datos (Big Data): La próxima frontera para la innovación, la competencia, y la productividad
La cantidad de datos en nuestro mundo ha sufrido una gran explosión y el análisis de grandes conjuntos de datos-el llamado big data- va a convertirse en una base clave de la competencia, que sustentan las nuevas olas de crecimiento de la productividad, la innovación y el excelencia.
Un completo informe de MGI y McKinsey apunta al «big data», el tratamiento masivo de datos, como uno de los negocios con mayor futuro. De hecho, lo llega a calificar como «la próxima revolución informática», en la medida en que crea nuevas oportunidades y todo un sector que ya se está poblando de empresas como Cloudera, Hadapt, Mapr, Factual, Apixio, Datastax, Zettaset, Acunu, Couchbase o 10gen.
El «big data» consiste en analizar y explotar grandes masas de datos para crear nuevos productos o mejorar la competitividad y la productividad. Hoy es posible realizar este trabajo por la proliferación de información en Internet pero también porque existe software libre específicamente diseñado para esta labor, como Hadoop o MongoDB, y porque el coste del almacenamiento informático se ha reducido sustancialmente.
MGI estudiaron los datos en cinco grandes ámbitos: Sanidad en los Estados Unidos, el sector público en Europa, el comercio minorista en los Estados Unidos, y la fabricación y ubicación de los datos personales a nivel mundial.
El aprovechamiento del tratamiento masivo de datos en el sector público tiene un enorme potencial.
La geolocalización continua que generan los smartphones, los resultados de análisis de constantes vitales, las compras online, los comentarios en redes sociales o las transacciones con chips NFC. Esta información se genera constantemente pero apenas se trata, pese a que puede resultar muy útil para múltiples actividades empresariales.
La investigación ofrece siete ideas clave.
- Los datos se han extendido en todas las industrias y funciones de negocios y ahora son un factor importante de la producción, junto a la mano de obra y el capital.
- Hay cinco formas amplias en las que a partir del tratamiento masivo de datos se pueden crear valor. Primero, hacer la información transparente y utilizable más frecuentemente. Segundo, las organizaciones crean y almacenan más datos transaccionales en forma digital, pueden recopilar información de rendimiento más precisa y detallada, y por lo tanto, mejorar el rendimiento. Tercero, el tratamiento masivo de datos permite la segmentación cada vez más estrecha de los clientes y por lo tanto, los productos pueden ofrecerse de forma más precisa a medida como así los servicios. Cuarto, puede mejorar sustancialmente la toma de decisiones. Finalmente, el tratamiento masivo de datos se pueden utilizar para mejorar el desarrollo de la próxima generación de productos y servicios.
- El uso del tratamiento masivo de datos se convertirá en una base clave de la competencia y el crecimiento de las empresas. Desde el punto de vista de la competitividad y la captura potencial de valor, todas las empresas deben tomar el tratamiento masivo de datos con seriedad.
- El uso del tratamiento masivo de datos sustenta las nuevas olas de crecimiento de la productividad.
- Aunque el uso del tratamiento masivo de datos se implementa en todos los sectores, en algunos se obtienen mayores ganancias. Los sectores de productos informáticos y electrónicos y de la información, así como finanzas y seguros, y relacionados con la administración pública, son los que más pueden beneficiarse de la utilización del tratamiento masivo de datos. Especialmentela Sanidadpodría rebajar los costes de los procedimientos un 15% y en el ámbito industrial, sería posible aumentar la productividad hasta un 60% al mejorar el diseño, calidad, marketing, previsión de demanda o la distribución.
- Habrá escasez del talento necesario para que las organizaciones puedan aprovechar el tratamiento masivo de datos.
- Varias cuestiones tendrán que ser dirigidas para aprovechar todo el potencial del tratamiento masivo de datos. Las políticas relacionadas con la privacidad, seguridad, propiedad intelectual, y la responsabilidad, tendrán que ser abordadas en el entorno del tratamiento masivo de datos. Las organizaciones necesitan no sólo poner el talento y la tecnología, sino también los flujos de trabajo y la estructura de incentivos para optimizar el uso del tratamiento masivo de datos. El acceso a los datos es crítica, las empresas cada vez tienen más necesidad de integrar la información de múltiples fuentes de datos, a menudo por parte de terceros, y los incentivos tienen que estar en su lugar para permitir esto.
Estas ideas clave se resumen en las siguientes: optimización de procesos, toma de decisiones, captación de tendencias, minimización de riesgos, análisis de opiniones, creación de nuevos nichos de mercado.
Uno de los ejemplos que se menciona entre líneas es el de Inditex, propietario de varias firmas de distribución y que ya emplea desde hace años el tratamiento masivo de datos para analizar qué productos tienen mayor demanda, con el fin de incrementar su producción. El informe habla, de todas formas, de muchas otras posibilidades en este sector, como poder incrementar los precios en tiempo real en ciertas tiendas, ofrecer uno u otro artículo en función de la localización concreta de una persona o innovar con la información obtenida de los clientes.
Y entre los nuevos negocios que empiezan a ser viables, además de los intermediarios en el análisis de los datos, se citan expresamente las pólizas de seguro que solo se activan cuando un vehículo está en movimiento, los servicios de tasación de propiedad inmobiliaria en base a la geolocalización de un posible comprador, las webs de comparación de precios o el análisis de sentimientos de lo que opinan los consumidores.
TECNICAS PARA ANALIZAR BIG DATA
Hay muchas técnicas que se basan en disciplinas como la estadística y la informática que se pueden utilizar para analizar conjuntos de datos. Aquí ofrecemos una lista de algunas de las técnicas aplicables en una amplia gama de industrias. Sin embargo, todas las técnicas que la lista se puede aplicar al tratamiento masivo de datos.
A / B testing. Una técnica en la que se compara un grupo de control con una variedad de grupos de prueba para determinar qué cambios mejoran una variable objetivo determinado. Esta técnica también se conoce como split testing o bucket testing. Un ejemplo de aplicación es determinar qué textos, presentaciones, imágenes, colores mejorará los ratios convirtiendo una Web en un sitio de comercio electrónico. Big data permite a un gran número de pruebas para ser ejecutado y analizado, lo que garantiza que los grupos son de tamaño suficiente para detectar estadísticamente significativas diferencias entre el control y los grupos de tratamiento.
Reglas de Asociación. Un conjunto de técnicas para descubrir relaciones interesantes, es decir, «reglas de asociación,» entre las variables en las grandes bases de datos. Estas técnicas consisten en una serie de algoritmos para generar y poner a prueba las reglas posibles. Una de las aplicaciones es el análisis de la compra, en la que un vendedor puede determinar qué productos se compran conjuntamente con frecuencia y usar esta información para la comercialización (un ejemplo que se cita es el descubrimiento de que muchos compradores de supermercados que compran pañales también tienden a comprar cerveza).
Clasificación. Un conjunto de técnicas para identificar las categorías a las que nuevos data points pertenecen, sobre la base de un entrenamiento conjunto que contiene los data points que ya han sido clasificadas. Una aplicación es la predicción de segmentos específicos de comportamiento de los clientes (por ejemplo, las decisiones de compra, tasa de rotación, tasa de consumo), donde hay una hipótesis clara o un resultado objetivo.
El análisis de cluster. Un método estadístico para clasificar los objetos que se divide un grupo diverso en pequeños grupos de objetos similares, cuyas características de similitud no se conocen de antemano. Un ejemplo de análisis de cluster es la segmentación de los consumidores en grupos de auto-similares para la comercialización directa. Este es un tipo de aprendizaje no supervisado, porque los datos de entrenamiento no se utilizan. Esta técnica está en contraste con la clasificación, un tipo de aprendizaje supervisado.
Crowdsourcing. Una técnica de recogida de datos presentados por un gran grupo de personas o comunidad (es decir, la «multitud») a través de una convocatoria abierta, por lo general a través de los medios de comunicación en red, tales como la Web. Estees un tipo de colaboración masiva y un ejemplo del uso de Internet 2.0.
Fusión de datos e integración de datos. Un conjunto de técnicas para integrar y analizar datos de múltiples fuentes con el fin de desarrollar ideas en formas que sean más eficientes y potencialmente más precisas que si se han desarrollado mediante el análisis de una sola fuente de datos. Los datos de los medios de comunicación social, analizados por el procesamiento del lenguaje natural, se puede combinar con datos en tiempo real las ventas, con el fin de determinar el efecto que una campaña de marketing está teniendo sobre la confianza del cliente y el comportamiento de compra.
La minería de datos. Un conjunto de técnicas para extraer patrones a partir de grandes conjuntos de datos mediante la combinación de los métodos de estadística y de aprendizaje de máquina con la gestión de bases de datos. Estas técnicas incluyen el aprendizaje de reglas de asociación, análisis de cluster, la clasificación y regresión. Las aplicaciones incluyen la minería de datos del cliente para determinar los segmentos más propensos a responder a una oferta, la minería de datos de recursos humanos para identificar las características de la mayoría de los empleados con éxito, o el análisis de cesta de la compra para modelar el comportamiento de compra de los clientes.
Conjunto de aprendizaje. El uso de varios modelos de predicción (cada uno desarrollado con estadísticas y / o aprendizaje de máquina) para obtener un mejor rendimiento de predicción. Este es un tipo de aprendizaje supervisado.
Los algoritmos genéticos. Una técnica utilizada para la optimización que se inspira en el proceso de evolución natural o «supervivencia del más apto». En esta técnica, las posibles soluciones se codifican como «cromosomas» que se pueden combinar y mutar. Estos cromosomas individuales se seleccionan para la supervivencia en un modelo «medio ambiente» que determina la idoneidad o el rendimiento de cada individuo de la población. A menudo descrito como una especie de «algoritmo evolutivo», estos algoritmos son muy adecuados para la solución de problemas no lineales. Ejemplos de aplicaciones incluyen mejorar la planificación de tareas en la fabricación y optimizar el rendimiento de una cartera de inversiones.
De aprendizaje automático. Una sub-especialidad de la informática (dentro de un campo históricamente llamada «inteligencia artificial») relacionados con el diseño y desarrollo de algoritmos que permiten a los ordenadores evolucionan los comportamientos basados en datos empíricos. Un aspecto importante de la investigación de la máquina es aprender de forma automática a reconocer patrones complejos y tomar decisiones inteligentes sobre la base de datos. El procesamiento del lenguaje natural es un ejemplo de aprendizaje de máquinas.
Procesamiento del lenguaje natural (NLP). Un conjunto de técnicas de una subespecialidad de la informática (dentro de un campo históricamente llamada «inteligencia artificial») y de la lingüística que utiliza algoritmos computacionales para analizar el lenguaje humano (natural). Muchas de las técnicas de PNL son los tipos de aprendizaje automático. Una de las aplicaciones dela PNLse utiliza el análisis de los sentimientos de los medios de comunicación social para determinar cómo los clientes potenciales están reaccionando a una campaña de marca.
Las redes neuronales. Los modelos computacionales, inspirados en la estructura y el funcionamiento de redes neuronales biológicas (es decir, las células y conexiones en el cerebro), para encontrar patrones en los datos. Las redes neuronales son muy adecuadas para la búsqueda de patrones no lineales. Pueden ser utilizados para el reconocimiento de patrones y su optimización. Ejemplos de aplicaciones incluyen la identificación de clientes de alto valor que están en riesgo de dejar una empresa en particular y la identificación de reclamos fraudulentos de seguros.
Análisis de redes. Un conjunto de técnicas utilizadas para caracterizar las relaciones entre los nodos discretos en un gráfico o una red. En el análisis de redes sociales, las conexiones entre los individuos en una comunidad u organización se analizan, por ejemplo, cómo viaja la información, o quién tiene más influencia sobre quién. Ejemplos de aplicaciones incluyen la identificación de líderes de opinión para orientar a la comercialización, y la identificación de cuellos de botella en los flujos de información de la empresa.
Optimización. Una cartera de técnicas numéricas utilizadas para rediseñar los sistemas y procesos complejos que mejoran su rendimiento de acuerdo a una o más medidas objetivas (por ejemplo, el costo, la velocidad o fiabilidad). Ejemplos de aplicaciones incluyen la mejora de los procesos operativos, como la programación, el enrutamiento y distribución en planta, y la toma de decisiones estratégicas, como la estrategia de la gama de productos, análisis de inversión vinculados, y de I + D estrategia de cartera. Los algoritmos genéticos son un ejemplo de optimización.
Reconocimiento de patrones. Un conjunto de técnicas de aprendizaje automático para asignar algún tipo de valor de la producción (o etiqueta) a un valor de entrada dado (o instancia) de acuerdo a un algoritmo específico. Las técnicas de clasificación son un ejemplo.
Modelos de predicción. Un conjunto de técnicas en el que se crea un modelo matemático para predecir mejor las probabilidades de un resultado. La regresión es un ejemplo de las técnicas de modelado predictivo.
Regresión. Un conjunto de técnicas estadísticas para determinar cómo el valor de la variable dependiente cuando una o más variables independientes se ha modificado. A menudo se utiliza para el pronóstico o la predicción. Ejemplos de aplicaciones incluyen el volumen de ventas de predicción basado en el mercado y otras variables económicas o la determinación de los parámetros de fabricación al medir la satisfacción del cliente. Se utiliza para Data mining.
Análisis del Sentimiento. Aplicación de procesamiento de lenguaje natural y otras técnicas analíticas para identificar y extraer la información subjetiva de material de origen del texto. Los aspectos clave de estos análisis incluyen la identificación de la función, aspecto o producto sobre el cual se expresa un sentimiento, y determinar el tipo, la «polaridad» (es decir, positivo, negativo o neutro) y el grado y la fuerza del sentimiento. Ejemplos de aplicaciones incluyen las empresas que solicitan el análisis de los sentimientos de los medios de comunicación social (por ejemplo, blogs, micro blogs y redes sociales) para determinar cómo los diferentes segmentos de clientes y partes interesadas están reaccionando a sus productos y acciones.
Procesamiento de señales. Un conjunto de técnicas de ingeniería eléctrica y matemática aplicada, originalmente desarrollado para analizar las señales continuas y discretas, es decir, las representaciones de las magnitudes físicas analógicas (incluso si están representados digitalmente), como señales de radio, sonidos e imágenes. Esta categoría incluye las técnicas de la teoría de detección de señales, que cuantifica la capacidad de discernir entre señal y ruido. Ejemplos de aplicación incluyen modelos para el análisis de series de tiempo o de fusión de datos para determinar la aplicación de una lectura más precisa mediante la combinación de los datos de un conjunto de fuentes menos datos precisos (es decir, la extracción de la señal del ruido).
El análisis espacial. Un conjunto de técnicas, algunas aplicadas a la estadística, que analizan las propiedades topológicas, geométricas, o geográficos codificados en un conjunto de datos. A menudo, los datos para el análisis espacial provienen de los sistemas de información geográfica (GIS) en que la captura de datos incluye información sobre la ubicación, por ejemplo, direcciones o latitud / longitud. Ejemplos de aplicaciones incluyen la incorporación de los datos espaciales en regresiones espaciales (por ejemplo, cómo es la disposición del consumidor a comprar un producto relacionada con la ubicación).
Estadísticas. La ciencia de la recopilación, organización e interpretación de datos, incluyendo el diseño de encuestas y experimentos. Las técnicas estadísticas se utilizan a menudo para hacer juicios sobre que las relaciones entre variables podría haber ocurrido por casualidad (la «hipótesis nula»), y que las relaciones entre las variables de resultado probable de algún tipo de relación causal subyacente (es decir, que son «estadísticamente significativos») . Las técnicas estadísticas se utilizan también para reducir la probabilidad de errores de tipo I («falsos positivos») y errores de tipo II («falsos negativos»). Un ejemplo de una aplicación es las pruebas A / B para determinar qué tipo de material de marketing que la mayoría de aumentar los ingresos.
Aprendizaje supervisado. El conjunto de técnicas de aprendizaje automático que infieren una función o relación de un conjunto de datos de entrenamiento. Los ejemplos incluyen la clasificación y el vector de apoyo machines.
Simulación. Modelar el comportamiento de sistemas complejos, a menudo utilizado para el pronóstico, la predicción y planificación de escenarios. Simulaciones de Monte Carlo, por ejemplo, son una clase de algoritmos que se basan en un muestreo repetido al azar, es decir, miles de simulaciones, cada una basada en supuestos diferentes. El resultado es un histograma que proporciona una distribución de probabilidad de los resultados. Una aplicación es la evaluación de la probabilidad de alcanzar las metas financieras dadas las incertidumbres sobre el éxito de varias iniciativas.
Análisis de series. Conjunto de técnicas estadísticas y de procesamiento de señales para el análisis de secuencias de puntos de datos, que representan los valores en tiempos sucesivos, para extraer las características significativas de los datos. Ejemplos de análisis de series de tiempo incluye el valor por hora de un índice bursátil o el número de pacientes diagnosticados con una enfermedad determinada todos los días.
Predicción de series es el uso de un modelo para predecir los valores futuros de una serie sobre la base de los valores anteriores o de otra índole. Algunas de estas técnicas, por ejemplo, el modelado estructural, estudio de la tendencia de una serie durante un tiempo, y los componentes residuales, que pueden ser útiles para la identificación de patrones cíclicos en los datos. Ejemplos de aplicaciones incluyen previsiones cifras de ventas, o la predicción del número de personas que serán diagnosticadas con una enfermedad infecciosa.
Aprendizaje no supervisado. Un conjunto de técnicas de aprendizaje automático que se encuentra escondida en la estructura de datos sin etiquetar. El análisis de conglomerados es un ejemplo de aprendizaje no supervisado.
Visualización. Las técnicas utilizadas para la creación de imágenes, diagramas o animaciones para comunicarse, entender y mejorar los resultados de los análisis de grandes volúmenes de datos.
BIG DATA en Ibermática
Aplicando sistemas híbridos de tratamiento avanzado de datos, con el objetivo de dar un apoyo a la decisión en tiempo real a los usuarios, de forma que se puedan abstraer del análisis de la información, para centrarse en el conocimiento implícito de los mismo, tanto en sus vertientes de comportamientos usuales, como anómalos, y que permita optimizar los esfuerzos en solucionar los problemas y mejorar los procesos detectados como «desviaciones», y no en la búsqueda de las anomalías en un mar de datos, Ibermática ha creado su plataforma GuiDes.
“Big data” plantea básicamente tres retos sobre el flujo de datos:
- Volumen: saber cómo gestionar e integrar grandes volúmenes de datos, procedentes de fuentes heterogéneas.
- Velocidad: poder acceder a la plataforma desde cualquier lugar, de forma autónoma por cualquier usuario de negocio, para mejorar y agilizar la toma de decisiones mediante la automatización: programación de acciones, eventos y alarmas.
- Variedad: conseguir unificar contenidos dispersos y no estructurados, con datos históricos, actuales y/o predictivos para un manejo óptimo de los mismos y para extraer de ellos información de valor.
La plataforma GuiDeS, posee unos claros objetivos que permite abordar los retos anteriores, ofreciendo el rendimiento y la flexibilidad necesaria para identificar patrones, entregar el conocimiento, la visión adecuada y a tiempo, sobre los datos, a los responsables en la toma de decisión.
GuiDes permite:
- Gestionar una gran variedad y volumen de datos en tiempo real: es decir, con rapidez y en su contexto
- Procesar datos altamente estructurados, semi-estructurados o poco estructurados mediante soporte XML nativo
- Ayuda a los técnicos en la instrumentación de reglas para el seguimiento y control de alertas en su negocio.
- Permite la detección de anomalías en las pautas de comportamiento.
- Genera un sistema de alertas sobre casos inciertos.
- Permite un sistema de representación gráfica de zonas con probabilidad alta de incidencias sobre los objetivos buscados.
- Es una plataforma de integración de información y seguimiento de la correcta resolución de las alertas generadas.
- Contiene capacidad de aprendizaje automático ante las acciones correctivas.
- Acceso desde terminales móviles a toda la gestión inteligente de apoyo a la decisión en tiempo real.
En resumen, permite de forma ágil y sencilla convertir los datos simples en información de valor para que los responsables puedan tomar decisiones cuando realmente importan. Los cuadros de mando son más dinámicos e interactivos, dando al usuario la posibilidad de encadenar, sobre la información tiempo real con la que están trabajando, acciones de resolución, correctivas, preventivas y de manera inmediata.
Gestiona, por lo tanto, la integración de grandes volúmenes de datos, desorganizados y procedentes de fuentes heterogéneas, internas y externas, su análisis en tiempo real y la toma de decisión inmediata, para alcanzar la máxima eficiencia en el negocio en tiempo real.
En siguientes «posts», iremos desgranando cada una de estas problemáticas, y sus soluciones….
Sistema inteligente de gestión del conocimiento de laboratorios para procesado de cultivos microbiológicos
El objetivo general ha sido llevar a cabo una investigación en tecnologías de visión y de inteligencia artificial donde hemos desarrollado un nuevo sistema inteligente de procesado de cultivos microbiológicos.
Se ha resuelto el problema de los cuellos de botella que el procesado de cultivos microbiológicos representa para los laboratorios clínicos.
Los procedimientos manuales tienen un impacto negativo en la eficiencia y productividad del laboratorio, dificultan la integración del diagnóstico con el historial del paciente y alargan el tiempo de espera del paciente.
Los retos principales han sido:
• El diseño de un sistema inteligente que controle de una forma integral las fases de preparación, incubación y diagnóstico de cultivos mediante técnicas de visión artificial y otros.
• La definición de un sistema inteligente de análisis de datos que permita implementar la previsión de epidemias.
Se han estudiado nuevas soluciones para manipular los cultivos, analizar el crecimiento de microorganismos y procesar toda esta información para realizar un diagnóstico rápido y fiable.
En este sentido, el proyecto ha estado orientado a los siguientes objetivos tecnológicos parciales:
• El diseño de un sistema integral de manejo de cultivos.
• La definición de un modelo de reconocimiento de imagen para controlar y analizar el crecimiento de las colonias.
• El diseño de un sistema inteligente de procesado y análisis de datos que permita predecir alarmas sanitarias.
Todas estas mejoras se han traducido principalmente en:
Reducción de errores, aumento de la productividad, aumento de la seguridad, y aumento de la satisfacción laboral.
Los avances científicos y técnicos que han supuesto la consecución de los objetivos del proyecto son los siguientes:
– Nuevos modelos de análisis de imagen para el control y análisis de colonias de bacterias.
– Un sistema inteligente de análisis de datos y detección de alertas sanitarias.
Se han integrado diferentes agentes inteligentes utilizando técnicas de razonamiento y de gestión del conocimiento (web semántica, ontología OWL, minería de datos, sistema experto), de manera que puedan entender el contexto local y compartir esta información para el correcto funcionamiento de aplicaciones e interfaces inteligentes en un laboratorio clínico.
La utilización de la tecnología de ontologías en este proyecto es clave debido a que el conocimiento que un técnico de laboratorio posee sobre un diagnóstico es difícilmente transferible.
Es muy importante disponer en todo momento de los datos sanitarios de un paciente. Gracias a los estándares sanitarios, entre los cuales el HL7 es el más extendido, la información sanitaria de un paciente está disponible en cualquier momento. Es por ello que este proyecto ha contribuido al estudio de estas interfaces en este área de operaciones.
También este proyecto ha permitido avanzar en la investigación de la aplicación de la minería de datos y en el proceso de extracción de conocimiento KDD, realizando análisis sobre datos históricos y aplicando algoritmos de descubrimiento de conocimiento de forma que han generado un conjunto de patrones sobre los datos.
Este proyecto ha permitido la investigación de estas tecnologías en el ámbito de laboratorios de análisis clínicos.
La Inteligencia Artificial se ha convertido en un componente básico en los procesos de negocio
Estamos en un momento en el que las empresas cada vez demandan más control y conocimiento sobre toda la información que les compete, sobre todo aquella que está en formato no estructurado (actas, correos, documentación, webs, etc…), y que cada vez, debido a sus volúmenes, es más intratable. Sin embargo, en los ambientes académicos y universitarios (así como en las administraciones anglosajonas, entornos económicos, militares y de seguridad), las herramientas que permiten tratar dicha información ha alcanzado una edad muy madura. Está ocurriendo algo similar que recuerda a la evolución del Business Intelligence en las empresas. No hace demasiados años, mientras en el mundo de la información en general se destinaban ingentes esfuerzos en obtener informes estáticos que cambiaban cada pocos días en función de las necesidades del cliente (¿quién no lo ha vivido?), se empezaba a hablar de cubos, dimensiones, medidas, DatawareHouse, cosas que sonaban más o menos a chino. Y aquellos que supieron estar atentos, (leáse Cognos), fueron los que se llevaron el gato al agua. Hoy en día, ¿qué empresa que presuma de tener un buen sistema de gestión prescinde de sus cubitos? Pues lo mismo está empezando a ocurrir con el DataMining y las búsquedas semánticas. Y los primeros indicadores ya está ahí, Oracle publicita su producto OracleDataMining, para detectar relaciones entre sus datos y análisis de predicción, SAP ha comprado a BusinessObject Enterprise para liderar este movimiento, Microsoft incorpora Datamining en SQL Server, IBM ha comprado a SPSS Clementine para lo mismo, Google ha desarrollado sus propias herramientas para detectar quién sabe qué en la red, y no sigo contando. Es decir, que auguro que dentro de cinco años, aquel que no tenga algo de Datamining en su sistema, (que no deja de ser una explotación inteligente del DatawareHouse, pero automática), no será nadie en sistemas de gestión.
En Ibermática llevamos años tratando grandes volúmenes de datos de forma automatizada en base a algoritmos estadísticos, de aprendizaje supervisado y no supervisado, de forma que las «reglas de negocio» extraidas en base a estos estudios automatizados, se integran con sitemas expertos que son capaces de analizar en tiempo real nuevos volúmenes de información, detectando:
– Anomalías sobre la información
– Relaciones no evidentes entre los datos
– Perfiles de agrupamientos de atributos que defininen «de forma autónoma» agentes dentro del negocio.
– Predicciones sobre lo que va a ocurrir en el futuro, en base a los datos actuales y los históricos tratados.
Estas funcionalidades se pueden aplicar en todos los contextos empresariales, en industria para optimizar las planificacione sy los mantenimientos (mantenimientos predictivos), en medicina (los humanos somos máquinas complejas), en banca, seguros, y todo lo que se nos demande.
La Inteligencia Artificial (IA) se está imponiendo en diversas disciplinas tecnológicas y forma parte del software, la minería de datos o los asistentes virtuales, sin que tenga una visibilidad clara para el usuario. De ahí reside la necesidad de conectar el mundo de la investigación y la universidad con el de la empresa, como postula Ibermática. Su relevancia en el mundo corporativo es crucial como elemento integrado en áreas como el marketing, la gestión de la información o la prospección de redes sociales.
El estado actual de la Inteligencia Artificial (IA) y su aplicación en el negocio fueron los ejes centrales del encuentro organizado por Computing, en colaboración con Ibermática, y en la que participaron expertos en la materia tanto del entorno empresarial como universitario y de I+D. La IA es una materia que se puede definir como una rama de la Computación dedicada al desarrollo de agentes racionales no vivos que buscan emular el comportamiento humano a través de algoritmos capaces de obtener respuesta de datos de cualquier procedencia. Una ciencia por tanto que para el común de los mortales parece vivir en el plano de la ciencia ficción y alejada del mundo real, pero que sin embargo está más incorporada al entorno cotidiano de lo que puede parecer. Así lo constata Aitor Moreno de Leceta, responsable de Sistemas Inteligentes de Control y Gestión de Ibermática, “la IA se está imponiendo en casi todas las disciplinas informáticas. Las grandes empresas están integrando en sus paquetes minería de datos, reconocimiento de voz, asistentes virtuales, algoritmos genéticos para racionalizar procesos, reconocimiento de caracteres…”. Y es que aunque el usuario no lo ve, según Moreno, “utiliza buscadores, reconocimiento de matrículas, radares, agentes virtuales, semántica en redes virtuales, voz para acceso de minusvalías”, lo cual indica que se va imponiendo de forma silenciosa.
Desde Ibermática también se aprecia que existen muchas aplicaciones interesantes desarrolladas en centros y universidades pero que son difíciles de conectar con el tejido empresarial, “bien porque el mercado tiene las demandas pero no conoce estas soluciones, bien porque el ámbito universitario está más preocupado por publicar y tener sus índices de referencias, por lo que no se avanza más allá de la investigación básica y no llegan a la parte industrial”.
Entradas recientes
- Sonificación de datos para la supervisión de procesos en tiempo real / 1
- Tratamiento del Lenguaje Natural en Medicina mediante técnicas de IA. Caso de Uso de Hedai.
- El Futuro en Blockchain: IA & Semántica & Blockchain.
- «Semantic Learning» en Salud. Un ejemplo de Minería sobre Estructuras Semánticas
- Ibermática desarrolla un Sistema de Soporte a la Decisión Clínica para pacientes con cáncer de mama