Browsing articles tagged with " web semántica"

“Semantic Learning” en Salud. Un ejemplo de Minería sobre Estructuras Semánticas

Feb 9, 2018   //   by oa.usun   //   Minería de Datos, Semántica  //  1 Comment

Introducción

Con el actual crecimiento de información, cada vez más se hace necesario contar con nuevos métodos de procesamiento de datos y nuevas tecnologías de análisis de información que permitan crear procesos de búsqueda de conocimiento a partir de fuentes datos no explotadas hasta ahora. La Web recoge cada vez más el conocimiento humano, y los conceptos de WEB Semántica y de Minería Web entran en juego para dar interpretación sobre la información encontrada y generar modelos que representen algún tipo de valor agregado.

Desde el Instituto de Innovación de Ibermática (I3B) llevamos años realizando proyectos de todo tipo donde desarrollamos modelos de Minería de Datos sobre estructuras tradicionales de bases de datos relacionales, o “aplanando” estructuras jerárquicas del tipo xml, json y otras, y, por otro lado, inferimos conocimiento y generamos consultas basadas en la gestión, la inferencia y el acceso a Estructuras Semánticas en forma de grafos. Y claramente, cada vez se observa y demanda una mayor necesidad de unir ambos conocimientos.

El objetivo final es poder “atacar” de forma directa la información “sita” en estructuras jerárquicas ya ordenadas (en otras palabras, conocimiento sobre un contexto poblado con instancias que particularizan dicho conocimiento en casos de uso particulares), buscando un nuevo modelo de análisis avanzado (minería semántica), que saque provecho de la extración directa de modelos supervisados y no supervisados directamente sobre el conocimiento jerarquizado y en grafo, sin necesidad de “aplanar” dichas estructuras en tablas relacionales “clásicas”, dado que dicho “aplanamiento” produce una reducción importante del conocimiento anterior. La idea es poder aplicar minería directamente sobre la estructura de grafos, sea la que sea, dado que dicha estructura, en base a su topología, contiene ya información relevante sobre qué indicadores son los que han de ser los primeros en analizarse, cuáles son los secundarios, y cómo se organizan los indicadores entre ellos.

Para lograr este reto, se debe tener conocimientos profundos de la gestión de algoritmos no supervisados sobre estructuras jerárquicas, y en procesos de análisis recurrentes por niveles, así como una gestión matemática de los análisis de componentes principales por capas, en dos direcciones, la reducción de información capa por capa, y la traducción de esta “reducción” y su consecuente ganancia de información a indicadores comprensibles semánticamente, puesto que el resultado de esta segmentación semántica debe poder trasladarse a un conjunto de hechos en la ontología original, para poder ser comprendida por los consumidores de la información, en este caso, facultativos médicos.

La estructura de los pacientes no es un estructura plana, relacional, en la que cada paciente tiene un diagnóstico, un tratamiento, unas dosis, sino que su vida clínica se compone de múltiples episodios, cada uno de ellos con información diversa, algunos se corresponden con el diagnóstico de episodios anteriores, otros se corresponden con reacciones adversas a un tratamiento anterior, referente a un diagnóstico que no es el inicial, sino que es secundario, otros se refieren a actuaciones médicos, pruebas analíticas, etc… En definitiva, los sistemas actuales de entidad-relación que modelan la historia clínica  de un paciente es una “simplificación” de la historia clínica actual.

La tecnología actual (bases de datos en forma de grafo), permiten almacenar la información clínica en estructuras de información denominadas “grafo”, o “tripletas”, que permiten estructurar el conocimiento en distintas jerarquías, que representan de forma muy fidedigna lo que ocurre en la realidad. Las ventajas de esta tecnología es la plasticidad del almacenamiento de la información, la posibilidad de “navegar” por la información en forma de consultas sobre enlaces de un nodo a otro, la velocidad de recuperación de la misma, la facilidad de plasmar la particularidad de cada individuo en un sistema de base de datos, y por último, la posibilidad de aplicar sobre dichas estructuras matemática muy concreta de análisis de grafos (similaridad), y de poder aplicar reglas que generen nuevo conocimiento sobre dicha información de base.

Modelo Digital del Paciente.

                                                Modelo Digital del Paciente.

El problema de esta tecnología, esta en el lado de la analítica. Así como realizar consultas muy especializadas, del tipo “devuélveme los pacientes entre estos rangos de edad, que alguna vez hayan tenido este tratamiento, más de dos meses, después de haber pasado por estos dos diagnósticos previos concretos”, es relativamente sencillo, puesto que el acceso a la información tiene una lógica muy similar a cómo lo expresamos en lenguaje natural, (SPARQL),  generar patrones automáticos en base a tecnología “Machine Learning”, es decir, generalizar patrones inductivos que perfilen la información de una forma más general, y de forma automática, es complicado para las máquinas cuando la base de la información no está normalizada en atributos y dimensiones.  Lo habitual (como se explicará en siguientes “posts”), es aplanar esta información en una tablón de análisis, al estilo clásico, para luego aplicar Minería de datos sobre dicho tablón.

Aplanamiento de la Información Semántica

                                Aplanamiento de la Información Semántica

Pero en este proceso, perdemos la particularidad de la información, con un problema adicional, ¿qué atributos consideramos como representativos de la generalidad de un base de datos estructurada en distintos niveles jerárquicos? ¿Con cuántos niveles nos quedamos? ¿Qué hacemos con los datos de los niveles más inferiores? Otra estrategia en este sentido es realizar análisis por capas de niveles, pero, ¿por dónde empezamos el análisis? ¿Por los tratamientos? ¿Por los diagnósticos? ¿Por la zona geográfica?

Para ello, desde I3b hemos implementado un nuevo método que analiza directamente los datos desde las estructuras semánticas de una ontología, sin tener que realizar el paso previo de “traducir” las jerarquías en una base de datos relacional o un cubo de BI. Así, la generación de una nueva tecnología que genere patrones, reglas y modelos directamente sobre consultas semánticas (SPARQL), o sobre estructuras de grafos (RDF) es un nuevo reto, que nos va a permitir, además, realizar todos los procesos de minería clásica sobre dichas estructuras y comprobar qué ventajas y desventajas nos pueden aportar.

Web Semántica

La web semántica es un conjunto de tecnologías que nos permiten publicar datos legibles por aplicaciones informáticas y que se basa en la idea de añadir metadatos semánticos y ontológicos.

La Web Semántica se basa en dos puntos fundamentales:

  1. a)  La descripción del significado. Donde se definen los conceptos; y
  2. b)  La manipulación  automática  de  estas descripciones. Se efectúa mediante  lógica y motores de inferencia.

Estructura de la WEB Semántica

La figura muestra la capa de lenguajes y tecnologías recogidas por el campo de la Web Semántica. Estos esfuerzos por la definición de estándares se llevan a cabo en el contexto de la W3C. Aunque muchos de sus componentes están finalizados y son estables, algunas de sus partes aún están en desarrollo.

Estas capas centrales definen los lenguajes para describir recursos de una forma adecuada para que puedan ser procesado por máquinas y el objetivo de nuestro estudio.

Estos lenguajes y las capas superiores son:

  • XML: Aporta la sintaxis superficial para los documentos estructurados, pero sin dotarles de ninguna restricción sobre el significado.
  • Resource Description Framework (RDF): esta capa define un modelo de datos abstracto para el intercambio de información en la Web.
  • RDF Schema (RDFS): este componente extiende RDF con un vocabulario que puede ser empleado para describir propiedades RDF y relaciones entre esas propiedades y otros recursos.
  • Web Ontology Language (OWL): esta capa extiende RDFS para obtener un lenguaje completo para la definición de ontologías.
  • Rule Interface Format (RIF): esta capa tiene como meta proporcionar un lenguaje común para representar y expresar reglas.
  • SPARQL Protocol and RDF Query Language (SPARQL): este componente proporciona un protocolo y lenguaje de consulta para la gestión de los datos semánticos de la Web.

La minería de Estructuras Semánticas se puede definir como aquella disciplina extendida de la minería de datos en la que es posible descubrir y extraer información automáticamente de los datos presentes en el contexto de la WEB.

Fases del Descubrimiento de Conocimiento

 

Los procedimientos típicos para la selección y la transformación de datos en la Minería WEB son los siguientes:

  1. La localización y descubrimiento de fuentes de información sobre la que se aplicará el proceso de minería.
  2. Selección y pre – procesado, en la cual se extrae de forma automática información específica de las fuentes antes mencionadas por medio de procesos de selección y transformación de datos.
  3. Reconocimiento de patrones generales encontrados durante la etapa de extracción, como el agrupamiento de clúster y reglas de asociación para diagnosticar la secuencia de patrones.
  4. Proceso de análisis, en la cual se desarrollan técnicas y herramientas que permitan modelar la forma en que se utiliza el conocimiento.

Herramientas

Para analizar las diferentes opciones que nos permiten trabajar con datos no estructurados y jerarquizados hemos estado investigando diferentes “plugins” que ofrece la herramienta Rapidminer, como:

  1. Linked Open Data Extension

Es una extensión del software de minería de datos de código abierto que permite el uso de datos de datos abiertos vinculados tanto como una entrada para la minería de datos, así como para enriquecer los conjuntos de datos existentes con conocimientos de fondo.

Proporciona tres categorías principales de operadores:

  • Importadores de datos que cargan datos de Linked Open Data para su procesamiento posterior.
  • Enlaces que crean vínculos desde un conjunto de datos dado a un conjunto de datos en Linked Open Data (por ejemplo, vinculando un archivo CSV a DBpedia).
  • Generadores que recopilan datos de Linked Open Data y lo añaden como atributos en el conjunto de datos a mano.
  1. Semweb

Transforma las triplas de RDF en un conjunto de ejemplos y luego se puede aplicar cualquier tipo de aprendizaje sobre dichos datos. Proporciona dos operadores de transformación de datos con algoritmos ‘FastMap’ y ‘Correspondence Analysis’ y un operador de visualización para ver el proceso subyacente mediante la visualización de la matriz de distancia y la matriz de datos transformados. Estas técnicas de transformación de datos utilizan las cuatro métricas de distancia Levenshtein, Dice-coefficient, VDM and VDM-SetValue, que también forman parte del proyecto.

Proceso con operadores Semweb
  1. RMONTO

Es un framework fácilmente extensible, actualmente provee soporte para clustering no supervisado con métodos de kernel y modelación de patrones en bases de conocimiento. Una característica importante de RMonto es que permite trabajar directamente en datos estructurados y relacionales. Además, sus implementaciones de algoritmos personalizados pueden combinarse con la potencia de RapidMiner a través de la transformación / extracción de los datos ontológicos a los datos de valor de atributo.

Como triplestore se ha elegido a Virtuoso para almacenar las anotaciones de las ontologías.

Virtuoso es una solución moderna para el acceso a datos, integración y gestión de bases de datos relacionales (tablas SQL y/o RDF basados en gráficos de propiedades/predicados).

 

 

Modelo Semántico de Segmentación

El clustering o segmentación se caracteriza por ser una técnica de aprendizaje automático no supervisado. Esto significa que un algoritmo de clustering deberá ser capaz de establecer por sí mismo patrones de comportamiento genérico en la muestra de datos y a su vez categorizar cada instancia de datos en alguno de los grupos formados.

Todas las pruebas y ejemplos las hemos realizado con los operadores de RMonto y una ontología de cáncer de mama.

Operadores utilizados:

Selector SPARQL ( Ejemplo de query para seleccionar los datos a tratar):

select distinct
?paciente ?pc ?historial ?edad ?episodio ?fecha_episodio ?diagnostico_valor ?fecha_diagnostico ?tratamiento_valor ?farmaco
where {
?paciente historial:hasHistory ?his.
?paciente historial:hasPatientCode ?pc.
FILTER(regex(?pc,’MAMA’))
?paciente historial:hasHistory> ?historial.
?paciente historial:hasAge ?edad.
?historial historial:hasEpisode ?episodio.
?episodio historial:hasDate ?fecha_episodio.
?episodio historial:hasDisease ?diagnostico.
?diagnostico historial:hasDiseaseValue ?diagnostico_valor.
?diagnostico historial:hasDate ?fecha_diagnostico.
?diagnostico historial:hasTreatment ?tratamiento.
?tratamiento historial:hasTreatmentValue ?tratamiento_valor.
?tratamiento historial:hasPharmacologicSubstance ?farmaco.
}
order by ASC(?his) ASC(?episodio)

Fr-ONT-Qu: Descubre patrones frecuentes en la Knowledge Base semántica en formas de patrones SPARQL. El espacio de búsqueda está restringido sólo a las partes especificadas en Classes, Abstract properties y Concrete properties parameters. La selección de los mejores patrones se puede hacer de manera no supervisada (Support on KB) o supervisada (el resto de las medidas).

 

 

 

Los patrones generados por este operador a partir de la consulta Sparql, teniendo en cuenta las clases y las propiedades de la ontología seleccionadas, nos genera una tabla con los patrones más frecuentes que serán utilizados por el operador Propositionalisation para transformar estos ejemplos de aprendizaje ó patrones frecuentes en una tabla de atributos-valor.

 

Propositionalisation: Convierte la lista de patrones y ejemplos frecuentes obtenidos por el operador Fr-ONT-Qu  en una tabla de atributos-valor, donde los atributos son los patrones obtenidos y los valores puede ser 0 (si el ejemplo no satisface el patrón) ó 1 (si el ejemplo satisface el patrón), como puede verse aquí arriba.

 

Procesamos el modelo de Clustering.

URI attributes: Lista de atributos con URI de individuos a ser utilizados. (Se seleccionan manualmente, una mejora al sistema sería la selección automática de los mismos por medios analíticos).

Normal attributes: Lista de atributos con valores concretos a utilizar.

Probamos con k= 5,  Kernel function= Identity, obteniendo estos resultados:

Clusters: (por cada cluster, nos muestra el centroide o perfil representativo de cada muestra, y se basa en el diagnóstico, tratamiento, tipo de acción médica, y edad)
1:    [http://www.HOBC.org/clinicalrecords#Breast_Carcinoma,http://www.HOBC.org/clinicalrecords#Zoladex_,http://www.HOBC.org/clinicalrecords#Revision_procedure,34]
2:    [http://www.HOBC.org/clinicalrecords#Endometrial_Polyp,http://www.HOBC.org/clinicalrecords#Tamoxifen_,http://www.HOBC.org/clinicalrecords#Therapeutic_procedure,34]
3:    [http://www.HOBC.org/clinicalrecords#Infiltrating_Ductal_Carcinoma,http://www.HOBC.org/clinicalrecords#Tamoxifen_,http://www.HOBC.org/clinicalrecords#Hormone_Therapy_Procedure,57]
4:    [http://www.HOBC.org/clinicalrecords#Secondary_malignant_neoplasm_of_bone,http://www.HOBC.org/clinicalrecords#Analgesics_,http://www.HOBC.org/clinicalrecords#Exploration_procedure,57]
5:    [http://www.HOBC.org/clinicalrecords#Secondary_malignant_neoplasm_of_bone,http://www.HOBC.org/clinicalrecords#Analgesics_,http://www.HOBC.org/clinicalrecords#Therapeutic_procedure,57]

Probamos con k= 3, Kernel function= Identity, obteniendo estos resultados:

Clusters:
1:    [http://www.HOBC.org/clinicalrecords#Breast_Carcinoma,http://www.HOBC.org/clinicalrecords#Zoladex_,http://www.HOBC.org/clinicalrecords#Revision_procedure,34]
2:    [http://www.HOBC.org/clinicalrecords#Endometrial_Polyp,http://www.HOBC.org/clinicalrecords#Tamoxifen_,http://www.HOBC.org/clinicalrecords#Therapeutic_procedure,34]
3:    [http://www.HOBC.org/clinicalrecords#Secondary_malignant_neoplasm_of_bone,http://www.HOBC.org/clinicalrecords#Analgesics_,http://www.HOBC.org/clinicalrecords#Therapeutic_procedure,57]

 

 

Y finalmente con k= 2, Kernel function= Identity, que nos dan este resultado:

Clusters:
1:    [http://www.HOBC.org/clinicalrecords#Secondary_malignant_neoplasm_of_bone,http://www.HOBC.org/clinicalrecords#Analgesics_,http://www.HOBC.org/clinicalrecords#Therapeutic_procedure,57]
2:    [http://www.HOBC.org/clinicalrecords#Breast_Carcinoma,http://www.HOBC.org/clinicalrecords#Zoladex_,http://www.HOBC.org/clinicalrecords#Revision_procedure,34]

Midiendo estadísticos de comparativa entre las distintas segmentaciones, el sistema nos indica que la mejor “ganancia de información” se obtiene con las segmentación K=2.

Obtenemos un clúster de procedimiento terapéutico y otro clúster de procedimiento de revisión, como podemos ver en el gráfico:

 

Eliminamos el filtro de ‘MAMA’ para obtener una segmentación de todos los historiales y volvemos a procesar la segmentación con K=2, Kernel function= Identity, obteniendo estos resultados:

Clusters:
1:
[http://www.HOBC.org/clinicalrecords#Meningeal_Carcinomatosis,http://www.HOBC.org/clinicalrecords#Acetaminophen_,http://www.HOBC.org/clinicalrecords#Sedation_procedure,59]
2:
[http://www.HOBC.org/clinicalrecords#Malignant_neoplasm_of_breast,http://www.HOBC.org/clinicalrecords#Nolvadex_,http://www.HOBC.org/clinicalrecords#Hormone_Therapy_Procedure,53]

Ahora vamos a investigar cada una de las segmentaciones obtenidas para ver si a su vez existe la posibilidad de afinar más el modelo obteniendo sub segmentaciones de cada segmento.

Para generar estas sub segmentaciones, he intentado utilizar el mismo modelo de RMonto, pero no ha sido posible por lo que al final utilizo un modelo k-Means pero usando los atributos semánticos:

 

 

El segmento_nivel 0 de menores de 56 años se divide en 3 clúster:

Objetivo: ?tratamiento_valor

Objetivo: ?farmaco

 

El segmento_nivel de los mayores de 55 años nos da el siguiente resultado:

 

Objetivo: ?tratamiento_valor

 

Objetivo: ?farmaco

 

 

Resultados:

  • Se genera un sistema de segmentación en jerarquía, en dos niveles….
    • El primer nivel devuelve 2 segmentos diferentes (Segmento_nivel0), uno con los pacientes mayores de 55 años y el otro con los menores de 56 años.
    • El segundo nivel, devuelve 3 subsegmentos (clúster) por cada uno de los segmentos principales.

Otros operadores:

Epistemic kernel: Núcleo semántico utilizando un conjunto de características. El conjunto de características se puede construir con operadores en el grupo TBox.

EL++ Convolution kernel: Núcleo semántico derivado de núcleos de gráfos.

ALCN kernel: Núcleo semántico para el lenguaje ALCN que trabaja en forma normal disyuntiva.

Calculate Gram/distance matrix: Calcula Matriz de valores de núcleo (o distancias) entre cada una de las tuplas dadas. Una tupla contiene al menos un URI que identifica un individuo en Knowledge Base y cero o más valores literales. El resultado es un EjemploSet con tres columnas, las dos primeras contienen descripciones de las tuplas comparadas y la tercera contiene kernel o valor de distancia.

Transform Semantic Clustering Model: transforma el modelo de agrupación semántica en modelo normal.

Add label from KB: Extiende los ejemplos dados con valores de propiedad de tipo de datos recuperados de la base de conocimientos dada.

Extract all clases: Genera una lista de todas las clases, nombradas y sin nombre, que están disponibles en KB.

Create TBox features: Le ayuda a crear un conjunto de funciones TBox.

Modelo Semántico de Anomalías

Al modelo de Segmentación le añadimos el operador Local Outlier Probablity (LoOP) y obtenemos el modelo semántico de anomalías.

Al operador Local Outlier Probablity (LoOP) le rellenamos estos parámetros:

 

Obtenemos este resultado, donde al lado del cluster nos aparece el outlier.

 

En este gráfico podemos ver claramente los outlier que indican una anomalía:

 

 

Modelo Semántico Árbol de Decisión

Como objetivo utilizamos el atributo ?diagnostico_valor y utilizamos el operador Decision Tree.

El operador de Correlación nos da como resultado estos atributos como los que tienen más correlación con nuestro label.

Siendo el principal el fármaco.

 

El resultado del Árbol de Decisión:

Tree
?edad = 28: Malignant_neoplasm_of_breast
?edad = 34
|   ?tratamiento_valor = Revision_procedure: Breast_Carcinoma
|   ?tratamiento_valor = Therapeutic_procedure
|   |   ?farmaco = Gonadorelin_: Neoplasm
|   |   ?farmaco = Tamoxifen_: Neoplasm
|   |   ?farmaco = Zoladex_: Endometrial_Polyp
?edad = 46: Adenocarcinoma
?edad = 53: Malignant_neoplasm_of_breast
?edad = 54
|   ?tratamiento_valor = Hormone_Therapy_Procedure: Invasive_Ductal_Breast_Carcinoma
|   ?tratamiento_valor = Revision_procedure: Infiltrating_Ductal_Carcinoma
|   ?tratamiento_valor = Therapeutic_Radiology_Procedure
|   |   ?farmaco = capecitabine_: Adenocarcinoma
|   |   ?farmaco = letrozole_: Invasive_Ductal_Breast_Carcinoma
|   ?tratamiento_valor = Therapeutic_procedure: Invasive_Ductal_Breast_Carcinoma
?edad = 55: Neoplasm_Metastasis
?edad = 56: Carcinomatosis_of_peritoneal_cavity
?edad = 57
|   ?tratamiento_valor = Demand_clinical: Neoplasm_Metastasis
|   ?tratamiento_valor = Drainage_procedure: Ductal_Carcinoma_
|   ?tratamiento_valor = Exploration_procedure: Secondary_malignant_neoplasm_of_bone
|   ?tratamiento_valor = Hormone_Therapy_Procedure: Infiltrating_Ductal_Carcinoma
|   ?tratamiento_valor = Therapeutic_procedure
|   |   ?farmaco = Analgesics_: Secondary_malignant_neoplasm_of_bone
|   |   ?farmaco = Hyrex_Brand_of_Dimenhydrinate: Secondary_malignant_neoplasm_of_bone
|   |   ?farmaco = Lyrica_: Neoplasm_Metastasis
|   |   ?farmaco = Omeprazole_: Neoplasm_Metastasis
?edad = 59: Meningeal_Carcinomatosis
?edad = 62: Neoplasm_Metastasis
?edad = 66: Colon_Carcinoma
?edad = 69: Adenocarcinoma
?edad = 76: Carcinoma
?edad = 77: Disseminated_carcinoma
 

Modelo Semántico de Reglas de Clasificación

Seguimos con nuestro objetivo de ?DiagnosticoValor.

Utilizamos el operador Rule Induction e utilizamos estos parámetros:

 

 

La correlación de atributos es la misma que el modelo del Árbol de Decisión y obtenemos estas reglas de clasificación:

RuleModel
if ?edad = 55 then Neoplasm_Metastasis
if ?edad = 54 and ?tratamiento_valor = Therapeutic_procedure then Invasive_Ductal_Breast_Carcinoma
if ?edad = 59 then Meningeal_Carcinomatosis
if ?edad = 57 and ?tratamiento_valor = Therapeutic_procedure then Neoplasm_Metastasis
if ?edad = 76 then Carcinoma
if ?edad = 46 then Adenocarcinoma
if ?tratamiento_valor = Hormone_Therapy_Procedure and ?edad = 57 then Infiltrating_Ductal_Carcinoma
if ?edad = 66 then Colon_Carcinoma
if ?farmaco = Zoladex_ and ?tratamiento_valor = Revision_procedure then Breast_Carcinoma
if ?edad = 28 then Malignant_neoplasm_of_breast
if ?edad = 34 and ?farmaco = Gonadorelin_ then Neoplasm
if ?edad = 34 and ?farmaco = Zoladex_ then Endometrial_Polyp
if ?edad = 62 then Neoplasm_Metastasis
if ?edad = 77 then Disseminated_carcinoma
if ?edad = 69 then Adenocarcinoma
if ?tratamiento_valor = Revision_procedure then Infiltrating_Ductal_Carcinoma
if ?edad = 54 and ?tratamiento_valor = Hormone_Therapy_Procedure then Invasive_Ductal_Breast_Carcinoma
if ?tratamiento_valor = Exploration_procedure then Secondary_malignant_neoplasm_of_bone
if ?tratamiento_valor = Demand_clinical then Neoplasm_Metastasis
if ?edad = 57 then Ductal_Carcinoma_
if ?edad = 34 and ?tratamiento_valor = Therapeutic_procedure then Neoplasm
if ?edad = 56 then Carcinomatosis_of_peritoneal_cavity
if ?farmaco = capecitabine_ then Adenocarcinoma
if ?edad = 54 then Invasive_Ductal_Breast_Carcinoma  else Malignant_neoplasm_of_breast
correct: 47 out of 50 training examples.

Consideramos que las reglas de clasificación son más fáciles de anotar en la ontología, pero no existe ningún operador que actualice la ontología con los resultados obtenidos.

 

Conclusiones

 

Los tiempos de respuesta obtenidos como resultado de las pruebas efectuadas nos hacen pensar que el Modelado sobre Estructuras Semánticas puede ser una muy buena alternativa para abordar estos temas sobre fuentes semánticas de información.
Sin embargo y pese a todas las bondades que parece tener el uso de arquitecturas basadas en tecnologías como SPARQL, RDF,  y que sin lugar a dudas, representan la mejor opción en temas de consulta semántica de información, existen problemas de actualización de las herramientas y de sus compatibilidades.
Algunos de los argumentos a  favor o en contra que permiten sustentar esta afirmación, se mencionan a continuación:
  1. Nos permite manejar una gran cantidad de datos.
  2. Datos limpios. Los datos con ruido y corruptos pueden esconder las predicciones y hacerlas más difíciles. La entrada de los datos de forma manual y la integración con los sistemas de envío pueden introducir inconsistencias y anomalías.
  3. El contenido semántico de los documentos que se coloca en Internet, permite una mejor organización de la información, mucho más definida, ya que se lleva a cabo a través de conceptos, “garantizando búsquedas por significado y no por contenido textual”.
  4. Mejora la obtención de conocimiento hasta el momento reservada a las personas y hace posible el uso de modelos de inteligencia artificial.
  5. Una desventaja, es la complejidad de la codificación semántica, es necesario unificar los estándares semánticos, otro laborioso proceso.
  6. Otra desventaja es que la sintaxis RDF/ZML no es muy fácil de leer.
  7. RMonto no ha sido actualizado desde 2012 y las demás herramientas están en fase de experimentación y sería necesario utilizar otros software (Python, R, …) para poder realizar lo que hemos visto en estas pruebas.
  8. Este software no permite realizar inserciones en la ontología, es decir, que no podemos actualizar el conocimiento y deberemos apoyarnos en otro software para ello.
  9. Finalmente, el sistema desarrollado pone de manifiesto la importancia de la Web Semántica como futuro de Internet, demostrando la capacidad del modelo RDF para la comunicación de conocimiento y de las ontologías para expresarlo.
  10. No existen prácticamente diferencias con la minería clásica en los algoritmos utilizados para realizar los modelos. Solamente hay que realizar una doble selección separada de atributos, por un lado los semánticos y por otro los datos normales.

Monitorización e investigación en la web 2.0 para la toma de decisiones

Mar 1, 2012   //   by oa.usun   //   Semántica  //  Comentarios desactivados en Monitorización e investigación en la web 2.0 para la toma de decisiones

El uso de la Red y del ciberespacio construido sobre ella ha supuesto la reorganización en apenas dos décadas de las costumbres de millones de personas. También ha influido en asuntos como la toma de decisiones empresariales, la economía, la expresión de la identidad, la sociabilidad, el ocio y la educación formal, el activismo, el aprendizaje, y por supuesto el acceso, organización, distribución, consumo, gestión y recuperación de la información.

Las redes sociales son el fenómeno emergente más significativo de lo que se denomina web 2.0 y la eclosión de la comunicación de masas como nueva forma de comunicación en red.

Esto ha facilitado la producción de una gran cantidad de medios y contenidos por parte de los usuarios (Blogger, WordPress, Twitter, Facebook, …), que ha entrado en competencia directa con los medios de comunicación tradicionales, que se han visto obligados a adaptarse y a realizar cambios en sus redacciones, la tecnología usada, los contenidos o las condiciones de trabajo. Esto ha creado un nuevo contexto para la comunicación, la participación y el intercambio de información.

Esta web 2.0 provee a los individuos de plataformas que le permiten mejorar sus capacidades y le facilitan el acceso a información diversificada desde múltiples fuentes. Es un factor acelerador y amplificador de la extraordinaria habilidad de las personas para comunicar significados e ideas abstractas de forma social y colectiva. La Red está cambiando también el escenario de la investigación, ahora Internet se estudia como una estructura social o se utilizan tecnologías basadas en internet como herramientas para la investigación.

El ciberespacio es un campo de investigación idóneo donde es preciso acceder con una metodología científica tanto para la comprensión como para la elaboración de nuevas teorías o ampliaciones conceptuales de otras ya existentes. Lo más característico es que los sujetos investigados expresan sus opiniones en la web 2.0 sin la obligación de ceñirse a cuestionarios estandarizados o a guiones que restrinjan su experiencia a favor de las cuestiones decididas por un investigador.

Todo esto se puede investigar mediante un modelo, que propone dos horizontes temporales a la hora de abordar una investigación online. La información disponible en la web 2.0 se recolecta con aplicaciones de web mining y la investigación tiene dos fases:

1. La monitorización, que es la recopilación sistemática de la información delimitada tras seleccionar una serie de keywords o palabras clave estableciendo un corte temporal, un hipotético hoy, y haciendo un control diario y acumulativo de la información.

2. La investigación, que supone remontarnos hacia atrás en e tiempo entre uno y dos años o simplemente meses en función del volumen de información resultante.

Tanto la monitorización como la investigación tienen a su vez dos subfases:

–          La primera es de extracción, y en ella se rastrea la información textual o text mining, aunque también puede hacerse un rastreo multimedia o media mining.

–          La segunda es de clasificación automática para la monitorización, y automática y manual para la investigación, con el objetivo de no perder la sutileza de las ideas abstractas y los aspectos simbólicos inferibles del lenguaje no analizable por la tecnología.

Bajo la denominación de minería web o web mining se engloba todo un conjunto de técnicas encaminadas a la extracción de la información no trivial que reside de manera implícita en los datos. El web mining se usa para identificar y capturar información sobre una temática, marcas, productos o servicios de organizaciones y competidores; y en un sentido más amplio para realizar búsquedas más inteligentes (Ver El futuro del Text Mining se llama T2k  (Text to Knowledge) Tucán – Un extractor automático de información relacionada  y  Programación Neurolingüística (PNL) y los mapas mentales, procesos que cartografían el conocimiento y pueden facilitar la creación de ontoligías).

La información disponible en la Red es multimedia: texto, sonido, imágenes y bases de datos, pero este modelo se centra en la minería de datos textuales, que hoy son dominantes. El valor de esta tecnología está limitado por:

a) el estado del saber en cada momento del procesamiento de lenguaje natural.

b) la disponibilidad y acceso a tecnologías semánticas.

 

La monitorización consiste en la definición y creación de una estrategia de búsqueda y rastreo web, el establecimiento de un patrón de reconocimiento basado en las características del texto e independiente del tipo de medio online donde se encuentre. Es necesario establecer filtros, reglas de inclusión y exclusión de los resultados, que extraigan información propia y significativa de la temática objetivo.

El web mining semántico en la web 2.0 está también condicionado por el desarrollo de la estructura, arquitectura y posibilidades de navegación semántica de internet, cosa que depende de la aceptación y difusión de los estándares propuestos en el proyecto Semantic Web del W3C. La mayor limitación en internet no reside en el acceso al contenido sino a su sentido y significados. Tras el web mining se dispone de datos y referencias que conforman el universo objetivo. Debido al volumen de información puede ser oportuna la selección de una muestra tanto para la fase cuantitativa como la cualitativa.

En el web mining nos encontramos con dos unidades básicas:

Referencia, que  es la unidad básica de publicación de información (una noticia en un medio de comunicación online, un comentario en un foro, un post en un blog, etc.) extraída de la monitorización, en formato texto, que contiene al menos una de las palabras clave que delimitan el objeto de investigación desde un punto de vista sintáctico. Las referencias pueden ser limpias o falsos positivos. Una referencia limpia es todo bloque de información extraído de la monitorización en formato texto, relevante para la investigación desde el punto de vista sintáctico y semántico; todas las referencias que no cumplan esta condición son referencias no válidas o falsos positivos.

Opinión, es la unidad mínima de análisis informacional textual significativa siempre que contenga elementos informativos y/o valorativos relevantes para el objeto de estudio. Las referencias se pueden desagregar en opiniones.

Una vez codificadas las referencias y opiniones se diseña un plan de explotación y se genera información estadística para dimensionar bajo parámetros científicos los resultados de la investigación.

Tras la fase cuantitativa del modelo pasamos a una fase cualitativa, que permite conocer una parcela del objeto de estudio. Se trata de analizar las referencias para generar percepciones y/o puntos de vista útiles para la toma de decisiones. Para esta fase cualitativa el método se deberá elegir en función de los objetivos de la investigación y se optará por una o diferentes aproximaciones dentro de las amplias posibilidades que se ofrecen.

Así este modelo propuesto abre un nuevo campo de investigación al tener acceso desde una perspectiva científica a la expresión natural de las personas sobre organizaciones, marcas, productos, servicios, competidores, etc. (Ver  Redes Sociales, análisis, Marketing Personalizado, Líderes Virtuales, Topología, Datos Abiertos Y LinkedData. ¿Cómo se modelan los comportamientos para ofertarte lo que realmente necesitas?).

El tratamiento masivo de datos (Big Data): La próxima frontera para la innovación, la competencia, y la productividad

Sep 5, 2011   //   by oa.usun   //   Minería de Datos  //  6 Comments

 

La cantidad de datos en nuestro mundo ha sufrido una gran explosión y el análisis de grandes conjuntos de datos-el llamado big data- va a convertirse en una base clave de la competencia, que sustentan las nuevas olas de crecimiento de la productividad, la innovación y el excelencia.

Un completo informe de MGI y McKinsey apunta al “big data”, el tratamiento masivo de datos, como uno de los negocios con mayor futuro. De hecho, lo llega a calificar como “la próxima revolución informática”, en la medida en que crea nuevas oportunidades y todo un sector que ya se está poblando de empresas como Cloudera, Hadapt, Mapr, Factual, Apixio, Datastax, Zettaset, Acunu, Couchbase o 10gen.

El “big data” consiste en analizar y explotar grandes masas de datos para crear nuevos productos o mejorar la competitividad y la productividad. Hoy es posible realizar este trabajo por la proliferación de información en Internet pero también porque existe software libre específicamente diseñado para esta labor, como Hadoop o MongoDB, y porque el coste del almacenamiento informático se ha reducido sustancialmente.

MGI estudiaron los datos en cinco grandes ámbitos: Sanidad en los Estados Unidos, el sector público en Europa, el comercio minorista en los Estados Unidos, y la fabricación y ubicación de los datos personales a nivel mundial.

El aprovechamiento del tratamiento masivo de datos en el sector público tiene un enorme potencial.

La geolocalización continua que generan los smartphones, los resultados de análisis de constantes vitales, las compras online, los comentarios en redes sociales o las transacciones con chips NFC. Esta información se genera constantemente pero apenas se trata, pese a que puede resultar muy útil para múltiples actividades empresariales.

La investigación ofrece siete ideas clave.

  1. Los datos se han extendido en todas las industrias y funciones de negocios y ahora son un factor importante de la producción, junto a la mano de obra y el capital.
  2. Hay cinco formas amplias en las que a partir del tratamiento masivo de datos se pueden crear valor. Primero, hacer la información transparente y utilizable más frecuentemente. Segundo, las organizaciones crean y almacenan más datos transaccionales en forma digital, pueden recopilar información de rendimiento más precisa y detallada, y por lo tanto, mejorar el rendimiento. Tercero, el tratamiento masivo de datos permite la segmentación cada vez más estrecha de los clientes y por lo tanto, los productos pueden ofrecerse de forma más precisa a medida como así los servicios. Cuarto, puede mejorar sustancialmente la toma de decisiones. Finalmente, el tratamiento masivo de datos se pueden utilizar para mejorar el desarrollo de la próxima generación de productos y servicios.
  3. El uso del tratamiento masivo de datos se convertirá en una base clave de la competencia y el crecimiento de las empresas. Desde el punto de vista de la competitividad y la captura potencial de valor, todas las empresas deben tomar el tratamiento masivo de datos con seriedad.
  4. El uso del tratamiento masivo de datos sustenta las nuevas olas de crecimiento de la productividad.
  5. Aunque el uso del tratamiento masivo de datos se implementa en todos los sectores, en algunos se obtienen mayores ganancias. Los sectores de productos informáticos y electrónicos y de la información, así como finanzas y seguros, y relacionados con la administración pública, son los que más pueden beneficiarse de la utilización del tratamiento masivo de datos. Especialmentela Sanidadpodría rebajar los costes de los procedimientos un 15% y en el ámbito industrial, sería posible aumentar la productividad hasta un 60% al mejorar el diseño, calidad, marketing, previsión de demanda o la distribución.
  6. Habrá escasez del talento necesario para que las organizaciones puedan aprovechar el tratamiento masivo de datos.
  7. Varias cuestiones tendrán que ser dirigidas para aprovechar todo el potencial del tratamiento masivo de datos. Las políticas relacionadas con la privacidad, seguridad, propiedad intelectual, y la responsabilidad, tendrán que ser abordadas en el entorno del tratamiento masivo de datos. Las organizaciones necesitan no sólo poner el talento y la tecnología, sino también los flujos de trabajo y la estructura de incentivos para optimizar el uso del tratamiento masivo de datos. El acceso a los datos es crítica, las empresas cada vez tienen más necesidad de integrar la información de múltiples fuentes de datos, a menudo por parte de terceros, y los incentivos tienen que estar en su lugar para permitir esto.

Estas ideas clave se resumen en las siguientes: optimización de procesos, toma de decisiones, captación de tendencias, minimización de riesgos, análisis de opiniones, creación de nuevos nichos de mercado.

Uno de los ejemplos que se menciona entre líneas es el de Inditex, propietario de varias firmas de distribución y que ya emplea desde hace años el tratamiento masivo de datos para analizar qué productos tienen mayor demanda, con el fin de incrementar su producción. El informe habla, de todas formas, de muchas otras posibilidades en este sector, como poder incrementar los precios en tiempo real en ciertas tiendas, ofrecer uno u otro artículo en función de la localización concreta de una persona o innovar con la información obtenida de los clientes.

Y entre los nuevos negocios que empiezan a ser viables, además de los intermediarios en el análisis de los datos, se citan expresamente las pólizas de seguro que solo se activan cuando un vehículo está en movimiento, los servicios de tasación de propiedad inmobiliaria en base a la geolocalización de un posible comprador, las webs de comparación de precios o el análisis de sentimientos de lo que opinan los consumidores.

TECNICAS PARA ANALIZAR BIG DATA

Hay muchas técnicas que se basan en disciplinas como la estadística y la informática que se pueden utilizar para analizar conjuntos de datos. Aquí ofrecemos una lista de algunas de las técnicas aplicables en una amplia gama de industrias. Sin embargo, todas las técnicas que la lista se puede aplicar al tratamiento masivo de datos.

A / B testing. Una técnica en la que se compara un grupo de control con una variedad de grupos de prueba para determinar qué cambios mejoran una variable objetivo determinado. Esta técnica también se conoce como split testing o bucket testing. Un ejemplo de aplicación es determinar qué textos, presentaciones, imágenes, colores mejorará los ratios convirtiendo una Web en un sitio de comercio electrónico. Big data permite a un gran número de pruebas para ser ejecutado y analizado, lo que garantiza que los grupos son de tamaño suficiente para detectar estadísticamente significativas diferencias entre el control y los grupos de tratamiento.

Reglas de Asociación. Un conjunto de técnicas para descubrir relaciones interesantes, es decir, “reglas de asociación,” entre las variables en las grandes bases de datos. Estas técnicas consisten en una serie de algoritmos para generar y poner a prueba las reglas posibles. Una de las aplicaciones es el análisis de la compra, en la que un vendedor puede determinar qué productos se compran conjuntamente con frecuencia y usar esta información para la comercialización (un ejemplo que se cita es el descubrimiento de que muchos compradores de supermercados que compran pañales también tienden a comprar cerveza).

Clasificación. Un conjunto de técnicas para identificar las categorías a las que nuevos data points pertenecen, sobre la base de un entrenamiento conjunto que contiene los data points que ya han sido clasificadas. Una aplicación es la predicción de segmentos específicos de comportamiento de los clientes (por ejemplo, las decisiones de compra, tasa de rotación, tasa de consumo), donde hay una hipótesis clara o un resultado objetivo.

El análisis de cluster. Un método estadístico para clasificar los objetos que se divide un grupo diverso en pequeños grupos de objetos similares, cuyas características de similitud no se conocen de antemano. Un ejemplo de análisis de cluster es la segmentación de los consumidores en grupos de auto-similares para la comercialización directa. Este es un tipo de aprendizaje no supervisado, porque los datos de entrenamiento no se utilizan. Esta técnica está en contraste con la clasificación, un tipo de aprendizaje supervisado.

Crowdsourcing. Una técnica de recogida de datos presentados por un gran grupo de personas o comunidad (es decir, la “multitud”) a través de una convocatoria abierta, por lo general a través de los medios de comunicación en red, tales como la Web. Estees un tipo de colaboración masiva y un ejemplo del uso de Internet 2.0.

Fusión de datos e integración de datos. Un conjunto de técnicas para integrar y analizar datos de múltiples fuentes con el fin de desarrollar ideas en formas que sean más eficientes y potencialmente más precisas que si se han desarrollado mediante el análisis de una sola fuente de datos. Los datos de los medios de comunicación social, analizados por el procesamiento del lenguaje natural, se puede combinar con datos en tiempo real las ventas, con el fin de determinar el efecto que una campaña de marketing está teniendo sobre la confianza del cliente y el comportamiento de compra.

La minería de datos. Un conjunto de técnicas para extraer patrones a partir de grandes conjuntos de datos mediante la combinación de los métodos de estadística y de aprendizaje de máquina con la gestión de bases de datos. Estas técnicas incluyen el aprendizaje de reglas de asociación, análisis de cluster, la clasificación y regresión. Las aplicaciones incluyen la minería de datos del cliente para determinar los segmentos más propensos a responder a una oferta, la minería de datos de recursos humanos para identificar las características de la mayoría de los empleados con éxito, o el análisis de cesta de la compra para modelar el comportamiento de compra de los clientes.

Conjunto de aprendizaje. El uso de varios modelos de predicción (cada uno desarrollado con estadísticas y / o aprendizaje de máquina) para obtener un mejor rendimiento de predicción. Este es un tipo de aprendizaje supervisado.

Los algoritmos genéticos. Una técnica utilizada para la optimización que se inspira en el proceso de evolución natural o “supervivencia del más apto”. En esta técnica, las posibles soluciones se codifican como “cromosomas” que se pueden combinar y mutar. Estos cromosomas individuales se seleccionan para la supervivencia en un modelo “medio ambiente” que determina la idoneidad o el rendimiento de cada individuo de la población. A menudo descrito como una especie de “algoritmo evolutivo”, estos algoritmos son muy adecuados para la solución de problemas no lineales. Ejemplos de aplicaciones incluyen mejorar la planificación de tareas en la fabricación y optimizar el rendimiento de una cartera de inversiones.

De aprendizaje automático. Una sub-especialidad de la informática (dentro de un campo históricamente llamada “inteligencia artificial”) relacionados con el diseño y desarrollo de algoritmos que permiten a los ordenadores evolucionan los comportamientos basados en datos empíricos. Un aspecto importante de la investigación de la máquina es aprender de forma automática a reconocer patrones complejos y tomar decisiones inteligentes sobre la base de datos. El procesamiento del lenguaje natural es un ejemplo de aprendizaje de máquinas.

Procesamiento del lenguaje natural (NLP). Un conjunto de técnicas de una subespecialidad de la informática (dentro de un campo históricamente llamada “inteligencia artificial”) y de la lingüística que utiliza algoritmos computacionales para analizar el lenguaje humano (natural). Muchas de las técnicas de PNL son los tipos de aprendizaje automático. Una de las aplicaciones dela PNLse utiliza el análisis de los sentimientos de los medios de comunicación social para determinar cómo los clientes potenciales están reaccionando a una campaña de marca.

Las redes neuronales. Los modelos computacionales, inspirados en la estructura y el funcionamiento de redes neuronales biológicas (es decir, las células y conexiones en el cerebro), para encontrar patrones en los datos. Las redes neuronales son muy adecuadas para la búsqueda de patrones no lineales. Pueden ser utilizados para el reconocimiento de patrones y su optimización. Ejemplos de aplicaciones incluyen la identificación de clientes de alto valor que están en riesgo de dejar una empresa en particular y la identificación de reclamos fraudulentos de seguros.

Análisis de redes. Un conjunto de técnicas utilizadas para caracterizar las relaciones entre los nodos discretos en un gráfico o una red. En el análisis de redes sociales, las conexiones entre los individuos en una comunidad u organización se analizan, por ejemplo, cómo viaja la información, o quién tiene más influencia sobre quién. Ejemplos de aplicaciones incluyen la identificación de líderes de opinión para orientar a la comercialización, y la identificación de cuellos de botella en los flujos de información de la empresa.

Optimización. Una cartera de técnicas numéricas utilizadas para rediseñar los sistemas y procesos complejos que mejoran su rendimiento de acuerdo a una o más medidas objetivas (por ejemplo, el costo, la velocidad o fiabilidad). Ejemplos de aplicaciones incluyen la mejora de los procesos operativos, como la programación, el enrutamiento y distribución en planta, y la toma de decisiones estratégicas, como la estrategia de la gama de productos, análisis de inversión vinculados, y de I + D estrategia de cartera. Los algoritmos genéticos son un ejemplo de optimización.

Reconocimiento de patrones. Un conjunto de técnicas de aprendizaje automático para asignar algún tipo de valor de la producción (o etiqueta) a un valor de entrada dado (o instancia) de acuerdo a un algoritmo específico. Las técnicas de clasificación son un ejemplo.

Modelos de predicción. Un conjunto de técnicas en el que se crea un modelo matemático para predecir mejor las probabilidades de un resultado. La regresión es un ejemplo de las técnicas de modelado predictivo.

Regresión. Un conjunto de técnicas estadísticas para determinar cómo el valor de la variable dependiente cuando una o más variables independientes se ha modificado. A menudo se utiliza para el pronóstico o la predicción. Ejemplos de aplicaciones incluyen el volumen de ventas de predicción basado en el mercado y otras variables económicas o la determinación de los parámetros de fabricación al medir la satisfacción del cliente. Se utiliza para Data mining.

Análisis del Sentimiento. Aplicación de procesamiento de lenguaje natural y otras técnicas analíticas para identificar y extraer la información subjetiva de material de origen del texto. Los aspectos clave de estos análisis incluyen la identificación de la función, aspecto o producto sobre el cual se expresa un sentimiento, y determinar el tipo, la “polaridad” (es decir, positivo, negativo o neutro) y el grado y la fuerza del sentimiento. Ejemplos de aplicaciones incluyen las empresas que solicitan el análisis de los sentimientos de los medios de comunicación social (por ejemplo, blogs, micro blogs y redes sociales) para determinar cómo los diferentes segmentos de clientes y partes interesadas están reaccionando a sus productos y acciones.

Procesamiento de señales. Un conjunto de técnicas de ingeniería eléctrica y matemática aplicada, originalmente desarrollado para analizar las señales continuas y discretas, es decir, las representaciones de las magnitudes físicas analógicas (incluso si están representados digitalmente), como señales de radio, sonidos e imágenes. Esta categoría incluye las técnicas de la teoría de detección de señales, que cuantifica la capacidad de discernir entre señal y ruido. Ejemplos de aplicación incluyen modelos para el análisis de series de tiempo o de fusión de datos para determinar la aplicación de una lectura más precisa mediante la combinación de los datos de un conjunto de fuentes menos datos precisos (es decir, la extracción de la señal del ruido).

El análisis espacial. Un conjunto de técnicas, algunas aplicadas a la estadística, que analizan las propiedades topológicas, geométricas, o geográficos codificados en un conjunto de datos. A menudo, los datos para el análisis espacial provienen de los sistemas de información geográfica (GIS) en que la captura de datos incluye información sobre la ubicación, por ejemplo, direcciones o latitud / longitud. Ejemplos de aplicaciones incluyen la incorporación de los datos espaciales en regresiones espaciales (por ejemplo, cómo es la disposición del consumidor a comprar un producto relacionada con la ubicación).

Estadísticas. La ciencia de la recopilación, organización e interpretación de datos, incluyendo el diseño de encuestas y experimentos. Las técnicas estadísticas se utilizan a menudo para hacer juicios sobre que las relaciones entre variables podría haber ocurrido por casualidad (la “hipótesis nula”), y que las relaciones entre las variables de resultado probable de algún tipo de relación causal subyacente (es decir, que son “estadísticamente significativos”) . Las técnicas estadísticas se utilizan también para reducir la probabilidad de errores de tipo I (“falsos positivos”) y errores de tipo II (“falsos negativos”). Un ejemplo de una aplicación es las pruebas A / B para determinar qué tipo de material de marketing que la mayoría de aumentar los ingresos.

Aprendizaje supervisado. El conjunto de técnicas de aprendizaje automático que infieren una función o relación de un conjunto de datos de entrenamiento. Los ejemplos incluyen la clasificación y el vector de apoyo machines.

Simulación. Modelar el comportamiento de sistemas complejos, a menudo utilizado para el pronóstico, la predicción y planificación de escenarios. Simulaciones de Monte Carlo, por ejemplo, son una clase de algoritmos que se basan en un muestreo repetido al azar, es decir, miles de simulaciones, cada una basada en supuestos diferentes. El resultado es un histograma que proporciona una distribución de probabilidad de los resultados. Una aplicación es la evaluación de la probabilidad de alcanzar las metas financieras dadas las incertidumbres sobre el éxito de varias iniciativas.

Análisis de series. Conjunto de técnicas estadísticas y de procesamiento de señales para el análisis de secuencias de puntos de datos, que representan los valores en tiempos sucesivos, para extraer las características significativas de los datos. Ejemplos de análisis de series de tiempo incluye el valor por hora de un índice bursátil o el número de pacientes diagnosticados con una enfermedad determinada todos los días.

Predicción de series es el uso de un modelo para predecir los valores futuros de una serie sobre la base de los valores anteriores o de otra índole. Algunas de estas técnicas, por ejemplo, el modelado estructural, estudio de la tendencia de una serie durante un tiempo, y los componentes residuales, que pueden ser útiles para la identificación de patrones cíclicos en los datos. Ejemplos de aplicaciones incluyen previsiones cifras de ventas, o la predicción del número de personas que serán diagnosticadas con una enfermedad infecciosa.

Aprendizaje no supervisado. Un conjunto de técnicas de aprendizaje automático que se encuentra escondida en la estructura de datos sin etiquetar. El análisis de conglomerados es un ejemplo de aprendizaje no supervisado.

Visualización. Las técnicas utilizadas para la creación de imágenes, diagramas o animaciones para comunicarse, entender y mejorar los resultados de los análisis de grandes volúmenes de datos.

BIG DATA en Ibermática

Aplicando sistemas híbridos de tratamiento avanzado de datos, con el objetivo de dar un apoyo a la decisión en tiempo real a los usuarios, de forma que se puedan abstraer del análisis de la información, para centrarse en el conocimiento implícito de los mismo, tanto en sus vertientes de comportamientos usuales, como anómalos, y que permita optimizar los esfuerzos en solucionar los problemas y mejorar los procesos detectados como “desviaciones”, y no en la búsqueda de las anomalías en un mar de datos,  Ibermática ha creado su plataforma GuiDes.

Big data” plantea básicamente tres retos sobre el flujo de datos:

  • Volumen: saber cómo gestionar e integrar grandes volúmenes de datos, procedentes de fuentes heterogéneas.
  • Velocidad: poder acceder a la plataforma desde cualquier lugar, de forma autónoma por cualquier usuario de negocio, para mejorar y agilizar la toma de decisiones mediante la automatización: programación de acciones, eventos y alarmas.
  • Variedad: conseguir unificar contenidos dispersos y no estructurados, con datos históricos, actuales y/o predictivos para un manejo óptimo de los mismos y para extraer de ellos información de valor.
Pero existe uno más, que es la extracción automática del conocimiento relevante dentro de dichos datos.

La plataforma GuiDeS,  posee unos claros objetivos que permite abordar los retos anteriores,  ofreciendo el rendimiento y la flexibilidad necesaria para identificar patrones, entregar el conocimiento, la visión adecuada y a tiempo, sobre los datos, a los responsables en la toma de decisión.

 

 

 

GuiDes permite:

  • Gestionar una gran variedad y volumen de datos en tiempo real: es decir, con rapidez y en su contexto
  • Procesar datos altamente estructurados, semi-estructurados o poco estructurados mediante soporte XML nativo
  • Ayuda a los técnicos en la instrumentación de reglas para el seguimiento y control de alertas en su negocio.
  • Permite la detección de anomalías en las pautas de comportamiento.
  • Genera un sistema de alertas sobre casos inciertos.
  • Permite un sistema de representación gráfica de zonas con probabilidad alta de incidencias sobre los objetivos buscados.
  • Es una plataforma de integración de información y seguimiento de la correcta resolución de las alertas generadas.
  • Contiene capacidad de aprendizaje automático ante las acciones correctivas.
  • Acceso desde terminales móviles a toda la gestión inteligente de apoyo a la decisión en tiempo real.

En resumen, permite de forma ágil y sencilla convertir los datos simples en información de valor para que los responsables puedan tomar decisiones cuando realmente importan. Los cuadros de mando son más dinámicos e interactivos, dando al usuario la posibilidad de encadenar, sobre la información tiempo real con la que están trabajando, acciones de resolución, correctivas, preventivas y de manera inmediata.

 Gestiona, por lo tanto, la integración de grandes volúmenes de datos, desorganizados y procedentes de fuentes heterogéneas, internas y externas, su análisis en tiempo real y la toma de decisión inmediata, para alcanzar la máxima eficiencia en el negocio en tiempo real.

En siguientes “posts”, iremos desgranando cada una de estas problemáticas, y sus soluciones….