Browsing articles in "Interacción"

Anotación de Objetos y Escenas en vuelos no tripulados y vehículos terrestres (Showorld)

Jun 19, 2015   //   by wpuser   //   Interacción  //  Comentarios desactivados en Anotación de Objetos y Escenas en vuelos no tripulados y vehículos terrestres (Showorld)

Hace unos meses nos hacíamos eco de la aplicación de tecnología de Visión Artificial de I3b (ObjectMining), en aplicativos con Drones, gracias a la colaboración entre I3b y AirStudio, en el proyecto Showorld.

Aquí adjunto algunos vídeos de muestra y más documentación. Espero que les guste.

 

 

Los drones aterrizan en Ibermática

May 8, 2014   //   by wpuser   //   Interacción  //  Comentarios desactivados en Los drones aterrizan en Ibermática

¿Necesita encontrar objetos en ambientes hostiles, como en naufragios, embarcaciones sospechosas, conatos de incendios en bosques, seguimiento de personas en zonas forestales o en entornos de seguridad, búsqueda de personas perdidas en zonas de riesgo?

¿O realizar clasificaciones sobre mapas o imágenes aéreas para detectar e interpretar qué aparecen en las imágenes a vista de pájaro…?

Ibermática, con técnicas avanzadas de inteligencia Artificial, Visión artificial, y BigData, da solución a estos problemas de una manera óptima, sencilla y ajustada.  I3B junto a AIRESTUDIO Geoinformation Technologies lidera el proyecto SHOWORLD, en el que pone a disposición de sus clientes toda una la flota de drones o aeronaves no tripuladas con múltiples posibilidades de captación de diferentes tipos de información (visual, termográfica, escáneres láser, unidades inerciales, cámaras multiespectrales, etc.), configurables para cada caso y necesidad particular, todo ello acoplado a una plataforma de software de almacenamiento y gestión de la información masiva que se recoge en cada uno de los vuelos. La utilización de drones permite mayor agilidad, facilidad de acceso y con costes más económicos (y más seguros) con respecto a los vuelos tripulados, principalmente, para la inspección de zonas críticas.

Foto Drones Proyecto

La interpretación de toda la información recogida, históricamente, se ha realizado de forma manual, en base a “anotaciones” sobre los datos, imágenes, nubes de puntos, etc., siendo una tarea costosa, no trivial y muy laboriosa. Esta tarea determina el valor añadido del proyecto en sí, puesto que la extracción de patrones sobre los datos (aunando el etiquetado de objetos seleccionados en las imágenes sobre sus posiciones GPS) son los que dan valor añadido a los datos en bruto recogidos.

En este sentido, AIRESTUDIO Geoinformation Technologies, líder en proyectos de extracción de información aérea, ha confiado en i3B para acoplar a su plataforma de control y seguimiento automático de vuelos no tripulados, las capacidades de la plataforma “ObjectMining” de i3B, que es capaz de extractar automáticamente de las imágenes (datos en bruto), objetos, detalles, características, etc… y de clasificar y anotar lo que aparece en la información recogida por los “drones”, georeferenciarla y mostrar al usuario de la aplicación sólo aquella información relevante, ya anotada y acotada, de las zonas de interés que aparecen en el vuelo, en tiempo real, para que los gestores puedan tomar decisiones inmediatas sobre dichas detecciones.

La plataforma ofrece, por tanto, un control total sobre los vuelos no tripulados, el almacenamiento automático de la información recogida y, al mismo tiempo, mostrar dónde están los objetos de interés, cómo se mueven, cómo se comportan y si hay indicios de alertas o gravedad en base a dicha información de forma totalmente autónoma. Las posibles aplicaciones de esta plataforma son:

  • CARTOGRAFÍA
    • Orto-foto y restitución vectorial. MDT
    • Información sobre la morfología del terreno para su edición, gestión y análisis en diferentes aplicaciones.
  • OBRA
    • Seguimiento de obras de infraestructuras. Comparación con proyecto, certificaciones, toma de decisiones.
  • SEGUIMIENTO de transformaciones ambientales, líneas de costa, evolución de dunas y de vegetación…
  • CONTROL de explotaciones, como minas a cielo abierto.
  • CATÁSTROFES
    • Evaluación de daños y toma de decisiones.
  • OBRAS LINEALES
    • Toma de datos para una mejor evaluación previa del terreno para proyectos de tendido eléctrico, ferrocarril u otras obras lineales.
  • LOCALIZACIÓN de averías en líneas eléctricas.
  • HIDROLOGÍA
    • Cálculo de modelos para simulación de procesos, estudio de cuencas, estado de reservas de agua, estudios de inundabilidad…
  • MODELOS de visibilidad para el análisis de impacto visual, diseño de redes de comunicación, ubicación de torres de vigilancia.
  • CLIMATOLOGÍA
    • Estudio de pendientes, orientaciones, toma de datos atmosféricos, análisis de insolación potencial, de irradiación. Establecimiento de modelos meteorológicos.
  • PROBABILIDAD
    • Creación de modelos de probabilidad de suceso en base a datos reales y predicción de posibles daños.
  • CULTURA
    • Arqueología, gestión del patrimonio.
  • URBANISMO
    • Obtención de datos para gestión y planificación. Control de la legalidad. Catastro.
  • GEOLOGÍA
    • Yacimientos mineros, corrimientos de tierras, aludes.
  • FORESTAL
    • Evolución de masas, cálculo de densidades, identificación del arbolado, control de plagas.
  • AGRICULTURA
    • Gestión de cultivos, eficiencia de regadíos.
  • MEDIO AMBIENTE
    • Estudio de polución, contaminación lumínica.

BigData – La palabra de moda en el mundo de la informática

Ago 9, 2013   //   by wpuser   //   Interacción  //  Comentarios desactivados en BigData – La palabra de moda en el mundo de la informática

bigdatacloud

Big Data es desde hace un año el término de moda dentro del mundo de la informática. Dicho de otra manera, durante 2012 y parte de 2013 el 60% de los artículos de opinión de tecnología avanzada hablan de Big Data como la nueva estrategia indispensable para las empresas de cualquier sector, declarando, poco menos, que aquéllos que no se sumen a este nuevo movimiento se quedarán “obsoletos” en cuanto a la capacidad de reacción en sus decisiones, perdiendo competitividad y oportunidades de negocio contra su competencia.

De momento, en España, según asegura IDC en un informe presentado a finales de 2012, sólo un 4,8% de las empresas utiliza ya la tecnología de Big Data y un 14,6% considera utilizarla en un futuro inmediato. No obstante, la consultora confía en que su adopción será exponencial en nuestro país y vaticina que el 19,4% de las empresas la habrán incorporado a sus procesos en 2014.

  • Introducción

 Big Data es desde hace un año el término de moda dentro del mundo de la informática. Dicho de otra manera, durante 2012 y parte de 2013 el 60% de los artículos de opinión de tecnología avanzada hablan de Big Data como la nueva estrategia indispensable para las empresas de cualquier sector, declarando, poco menos, que aquéllos que no se sumen a este nuevo movimiento se quedarán “obsoletos” en cuanto a la capacidad de reacción en sus decisiones, perdiendo competitividad y oportunidades de negocio contra su competencia.

Sin embargo, existe una gran confusión en el mercado sobre este término. A priori las empresas no entienden muy bien de qué se está hablando, qué es este nuevo paradigma y en qué les puede beneficiar. De esta forma, y a nivel más particular, los comerciales y gestores de las TIC están divididos entre aquéllos que ven Big Data como una oportunidad y aquéllos que lo ven como una moda más, sin gran futuro, sin aplicabilidad real y directa, y más aún, con dificultades de penetración en el contexto económico en el que nos encontramos.

Para entender un poco la situación real en la que nos encontramos, primero debemos entender qué es Big Data, de una manera lo más despegada posible a las “siglas de tres letras”. Big Data no es fácil de definir ya que es un nuevo término “inventado para el marketing” que aúna múltiples tecnologías que hasta hace unos meses tenían su propia denominación, y que “alguien” ha unificado bajo un mismo concepto. Por eso mismo ahora todo es “Big Data”, creándose una burbuja que está llevando no a pocos equívocos a la hora de su divulgación, venta y publicación.

Esta situación, lógicamente, está provocando en un corto lapso de tiempo que estemos ya en la primera fase de “desilusión” dentro de la famosa campana de Hype Cycle.

  • Respuesta y problema

Big Data es básicamente la respuesta más actual a una demanda y un problema tecnológico:

La demanda principalmente viene dada por la necesidad de adelantarse a la competencia en el conocimiento de su negocio. El conocimiento es poder, pero en un tiempo, situación y lugar muy precisos. Una vez pasada esa oportunidad, esa misma información se convierte en obsoleta y en un lastre. Pensemos en los anuncios, mensajes, correos o banners de cualquier tipo. Si ocurren en el momento preciso y “aciertan” con mis necesidades en ese instante, serán bienvenidos e incluso tendrán éxito. Pero si, como usuario, me bombardean con información que no estoy demandando, terminaré por “odiarlos” y, por extensión, a la compañía que me los ofrece.

Sin embargo, cuando hablamos de cliente no sólo pensamos en un ámbito comercial. Si mi médico me está diagnosticando erróneamente fuera de tiempo, si mi sistema me está alertando sobre posibles incidencias cuando ya han ocurrido, o cuando no son reales, o mi sistema de optimización en producción tiene que ser revisado prácticamente en cada carga porque las necesidades del cliente cambian constantemente y nos enteramos en el almacén, los sistemas de apoyo a la decisión, en vez de ayudar, suponen un estorbo. Para ello se necesita un análisis de información ingente, agregada en tiempo real y con posibilidad de acceso a la información granular también en tiempo real, para evidenciar las conclusiones. Es una ruptura sobre el análisis clásico: se trata de cambiar el estudio reactivo de la información por un análisis proactivo y predictivo.

Y aquí surge el problema tecnológico: el volumen de información a tratar por los sistemas informáticos es cada vez más complejo e intratable, debido principalmente a dos causas:

La información digital existente, principalmente por la extensión del uso de tecnologías 2.0 (blogs). Se estima que el 90% de la información existente a lo largo del planeta en toda su historia se ha generado en los últimos dos años.

Dicha información, en un 80% está almacenada en formato textual, escrita en lenguaje natural, no estructurada, lo que implica que su análisis es aún más complejo y, lo que es peor, es mucho más variable e incomprensible para los agentes (ya sean máquinas o expertos).

Pensemos que la información más relevante sobre los sistemas en producción es la que el operario escribe en las observaciones, la que el médico redacta en el historial clínico con su propio lenguaje, las impresiones “anotadas” sobre los candidatos por Recursos Humanos en sus entrevistas, las opiniones que los clientes dejan “grabadas” en las conversaciones con los Centros de Atención al Cliente, en los correos que comparten con los servicios de “contacto” de las empresas, o en la documentación comercial y técnica de los profesionales… Qué dicen de nosotros en la red, qué buscan nuestros clientes, cuáles son los indicadores válidos de entre los cientos de variables que tiene mi sistema para optimizar mis procesos en este momento y lugar precisos, y cómo puedo tomar la decisión correcta… Ése es el mayor reto al que se enfrentan las empresas hoy en día.

  • ¿Qué es Big Data?

Big Data es tan amplio, que si preguntamos al departamento de Infraestructuras nos dirá que es una nueva forma de recoger (vía redes de sensores, cuadros eléctricos, estaciones de datos, etcétera), almacenar y distribuir grandes cantidades de información en tiempo real, y en un entorno también de moda: en “la nube”, sin necesidad de tener que comprar hardware para dicha gestión. Mucho mejor contratar la infraestructura necesaria en cada momento y que sea el sistema el que se amolde a los picos de demanda.

Si preguntamos a Comunicaciones, nos dirá que es una nueva manera de poder acceder a datos concretos en entornos masivos de información en tiempo real, solucionando los problemas de volumen, velocidad y persistencia, que son históricamente cuellos de botella en la accesibilidad a la información.

Si preguntamos a los técnicos, nos dirán que es una nueva forma de programar procesos de preguntas o queries sobre grandes bases de datos, de forma que muchos servidores trabajen en paralelo, con el objetivo de minimizar el costo de dichos accesos y devolvernos la información en un tiempo récord.

bigdataweb

Evolución de Big Data en menciones

Si preguntamos a los expertos en Inteligencia de Negocio, nos dirán que es una nueva forma de visualizar resultados concretos en grandes cubos de cientos de dimensiones, de una forma rápida, barata y dinámica, sin necesidad de procesos de agregación “por las noches”, como se hacía ¿antiguamente?, ya que podemos aplicar técnicas de Minería de Datos, Business Intelligence o Análisis Predictivos (términos ya obsoletos), en tiempo real y en entornos distribuidos.

En realidad, Big Data es todo ello junto. Es un término que aúna algoritmos de gestión de archivos en múltiples servidores (al más puro estilo Google) con un sistema operativo propio que gestiona dichos archivos en granjas de servidores distribuidas de forma transparente.

También es un sistema de programación en paralelo que permite “trocear” las tareas en dos flujos principales, así como el “mapeo” o la selección de las fuentes de datos de forma directa, el tratamiento de dicha información de forma individualizada y la agrupación de los resultados en un proceso final denominado Reduce.

Y por último, es un conjunto de utilidades clásicas (SQL, operaciones aritméticas, operaciones estadísticas, operaciones predictivas y de análisis avanzado, operaciones de visualización y tratamiento de gráficos en entornos móviles) reprogramadas sobre este nuevo concepto de paralelización de procesos.

  • Un ejemplo práctico

Para verlo más claro, un ejemplo simple: Tenemos un millón de documentos, correos en los que queremos detectar cuáles son las palabras que más se repiten para descubrir cuáles son las incidencias más habituales de nuestros clientes. Supongamos que cada documento tiene una media de cien palabras y tenemos un servidor normal que tarda en contar las palabras que aparecen en cada documento un segundo. Necesitaríamos un millón de segundos para almacenar en una tabla las palabras, suponiendo que vamos calculando la suma cada vez que aparece una palabra. Necesitaríamos aproximadamente 12 días para hacer este proceso.

Ahora bien, si disponemos de cien ordenadores que leen en paralelo cada uno diez mil documentos, tardaríamos en procesar todas las palabras alrededor de 3 horas, incluyendo el proceso de sumar los resultados parciales de los cien servidores, unas diez mil sumas. Alquilaríamos cien servidores en “la nube” para hacer este proceso durante tres horas y luego analizaríamos la información en nuestro servidor propio.

El problema es que los indicadores que podemos tener en nuestro sistema no se reducen a un millón de documentos, sino a la relación de estos documentos con los datos de los perfiles de nuestros clientes, usuarios o equipos (edad, sexo, patología, ubicación, potencia, consumo, desgaste, incidencias, currículum, coste, tiempo de vida efectiva, correctivos, evolutivos, indicadores de no asistencia, picos de demanda…), y toda esta información está en nuestros sistemas, pero usualmente en distintos sistemas de información, sin enlaces entre ellos, y aún menos con la información normalizada.

Y esto sólo en nuestros sistemas internos, sin intentar buscar en Internet información relacionada. En estos casos Big Data proporciona herramientas de análisis automático que permiten, por un lado, tratar toda esta información no estructurada, convirtiendo el texto en códigos normalizados en base a técnicas de tratamiento de Lenguaje Natural y semántico.

Por otro lado, la parte de analítica avanzada se hace cargo de la extracción de patrones estadísticos, agrupando los datos por segmentos normales y “extraños”, permitiendo generar alertas sobre eventos que el propio sistema determina como “anormales”, en base a una ponderación de predicción (posibilidad de que se produzca una incidencia, de que existan fugas, tanto de sistemas de flujo como de personas, deserciones a la competencia, fraude, recaídas en enfermedades, descontento del personal, lanzamiento de ofertas personalizadas, recomendaciones de rutas turísticas, etcétera), y todo ello de forma desasistida y tratando cada nueva entrada al sistema como una nueva información a tener en cuenta a la hora de personalizar las decisiones en un contexto determinado.

  • La ventaja de la anticipación

La posibilidad de anticipar las necesidades de un cliente o las incidencias de un equipo o sistema, generando una acción correctiva u oportunidad de negocio antes de que ocurra, es la gran ventaja de este nuevo paradigma. Pero tiene un precio, necesitamos datos previos, necesitamos históricos que alimenten el sistema para que pueda extraer estas conclusiones que nos permitan “acertar” en el momento y situación oportunos. Los datos cuentan una historia en su naturaleza intrínseca que además siempre es cierta con una probabilidad determinada, “los datos nunca mienten”, siempre que no estemos mezclando “peras con manzanas”, en cuyo caso, no tendremos soporte para la correlación entre dichos indicadores y nos pueden llevar a conclusiones erróneas.

Además, y lo que es más importante, el conocimiento no está en la cantidad de datos, sino en el número de relaciones entre los conceptos que aúnan dichos datos. Y las máquinas son muy buenas cuantificando el valor (fortaleza y veracidad de los datos) de dichas correlaciones, que nos van a servir de guía para saber si los objetivos que buscamos (el porqué de determinadas ventas, incidencias o actuaciones) tienen relación con los cientos de indicadores asociados a dichas respuestas, cuáles son los indicadores que más relevancia tienen, y a partir de qué valores se da una determinada situación. Una vez extraídas estas reglas de forma automática, las podemos aplicar sobre nuevas transacciones para ver qué es lo que realmente debemos hacer con esa nueva situación.

Por otro lado, necesitamos un conocimiento experto del negocio previo importante, principalmente en la estructuración semántica de la información textual. No es lo mismo detectar que un potencial cliente nuestro ha escrito en Facebook que “necesito un pastor alemán”, si nuestra empresa es de recursos humanos, de venta de animales o de sistemas de alambrados eléctricos. Por ello es fundamental el contexto.

La usabilidad masiva de redes sociales, unida a la información de sus propios CRM y sistemas de gestión, y la aplicación de técnicas de segmentación y asociación sobre dicha información, permite adquirir un conocimiento personalizado de las situaciones asequible para las empresas en forma de Big Data. Como complemento, la utilización de dispositivos móviles en las transacciones, tanto en la adquisición de información como en el conocimiento de la situación física de los usuarios y equipos, permite incorporar al conocimiento de patrones de comportamiento un conocimiento extra de patrones de movimiento y “situacionalidad” que, si es bien aprovechado, puede dar a nuestros expertos en la toma de decisiones un valor añadido hasta ahora poco explorado.

bigdataclouddirecciones

Direcciones en el análisis de datos

  • ¿Para todo tipo de empresas?

Pero, ¿es Big Data una tecnología apta para cualquier empresa? La definición formal de Big Data es “conjunto de volúmenes de datos tan grandes y complejos que su procesamiento por medios tradicionales presentan grandes dificultades”. Bajo esta premisa, desde Ibermática tenemos clara la obligación de guiar a nuestros clientes en la adquisición de estas tecnologías con sentido común, evitando resolver problemas tratables con sistemas tradicionales u otros más avanzados, como minería de datos y texto o análisis predictivos.

Este tipo de tecnología, si bien es muy avanzada, no es aplicable a todo tipo de problemas. De otro modo, y como ocurre a menudo, llevaremos a dar una solución que al final termina en la fase de desilusión con el desgaste en las expectativas que ello conlleva. Big Data también tiene sus contrapartidas, que deben ser bien explicitadas a la hora de implantar un proyecto de este estilo.

La implantación de sistemas de Big Data requiere una nueva tipología de expertos que se ha venido a denominar data scientists, una mezcla entre consultores de negocio, analistas estadísticos y expertos en tecnologías de minería de datos y semántica que impactará en la externalización de servicios y, además, minimizará el otro aspecto a tener en cuenta en esta problemática: el análisis de la calidad de los datos que se manejan.

Ibermática es buena conocedora de todas estas tecnologías, dando soporte a sus clientes como partner tecnológico de las mayores plataformas Big Data existentes en el mercado (Oracle, IBM, SAP, SAS, QlickView, Hadoop, Mahout…) y con amplia experiencia en la innovación e implantación de soluciones de sistemas de decisión en tiempo real, principalmente a partir del trabajo de investigación desarrollado por el Instituto Ibermática de Innovación (i3B), aplicando estas tecnologías en los contextos más demandantes del tratamiento inteligente de grandes volúmenes de datos (Medicina, Energía, Telcos, Utilities, Banca, Marketing, Social Media, Industria y Administraciones Públicas). En concreto, estas últimas están embarcándose en otro concepto complementario a Big Data, denominado Open Data. La idea es la de publicar datos institucionales de interés público “en abierto” para su reutilización. Todo ello unido, generalmente, a la creación de servicios de valor añadido, ya sea por parte de la propia Administración como de empresas que quieran crear nuevas utilidades basadas en los datos. Y la forma de dar valor a estos datos es, de nuevo, la aplicación de estrategias de extracción de aquella información interesante, resultado de la unión de distintas fuentes Open Data. Como se dice habitualmente, “Open Data nos hará más ricos, pero Big Data nos hará más listos.

El espíritu de Ibermática, con metodología propia en la implantación de estos sistemas de innovación (Big Data, Open Data, Linked Data), es el de aconsejar a sus clientes en la mejor solución a la hora de abordar esta nueva oportunidad de “navegar” por los datos relevantes, pero solamente por aquéllos que generan conocimiento, permitiéndoles anticiparse al futuro inmediato. El análisis de lo que ha ocurrido en el pasado sólo es relevante si podemos aplicarlo en una mejor oferta de servicios a nuestros clientes internos, que son los gestores de decisión en el momento, lugar y situación concreta, permitiéndoles ser el centro de una decisión inteligente, rápida y efectiva.

Predecir es fácil, lo difícil es acertar” (Groucho Marx).

  • Garantía Ibermática

Ibermática es una de las principales compañías de servicios en Tecnologías de la Información (TIC) del mercado español. Creada en 1973, su actividad se centra en las siguientes áreas: Consultoría TIC, servicios de infraestructuras, integración de sistemas de información, outsourcing e implantación de soluciones integradas de gestión empresarial. Asimismo, está presente en los principales sectores de actividad: finanzas, seguros, industria, servicios, telecomunicaciones, sanidad, utilities y administración pública, donde ofrece soluciones sectoriales específicas. Completa su oferta con soluciones tecnológicas como Business Intelligence, ERP y CRM, gestión de procesos (BPM), recursos humanos, movilidad, gestión de contenidos (ECM), Social Business / Gov 2.0, gestión de personas (HCM), Arquitecturas SOA, trazabilidad, accesibilidad, seguridad e inteligencia artificial, así como servicios Cloud Computing.

Con 40 años de actividad en el sector de las TIC, Ibermática se ha consolidado como una de las primeras empresas de servicios de TI de capital español. Actualmente agrupa a 3.278 profesionales y representa un volumen de negocio de 247,7 millones de euros.

http://ibermatica.com/innovacion

 

Transkriptor: Gestión Inteligente de transcripciones de contenidos y Patrones de comportamientos asociados

Abr 23, 2013   //   by wpuser   //   Interacción  //  Comentarios desactivados en Transkriptor: Gestión Inteligente de transcripciones de contenidos y Patrones de comportamientos asociados

TRanskriptor_Logo

Su sistema de Atención a Clientes está funcionando correctamente. Cientos de llamadas se reciben en distintas franjas horarias en relación a los servicios que provee a sus clientes y a terceros. Antonio, CEO clave de uno de sus principales clientes, con poder sobre la toma de decisiones, está llamando por tercera vez a su Central para que le solventen una duda al respecto de un problema técnico. ¿Sabía que el 80% de las terceras llamadas realizadas por un perfil similar a Antonio, en la zona Norte, y sobre dudas técnicas, son las últimas llamadas que el cliente hace, si no son resolutivas, antes de “marcharse” definitivamente de su compañía? ¿Sabía que si, a Antonio, en vez de atenderle Ángel, con el que, personalmente, no se entiende, le hubiese atendido Cármen, hubiese evitado una falta en el Acuerdo de Nivel de Servicio preestablecido? ¿Sabía que el 76% de los clientes, cuando reclaman a su centro de llamadas los viernes a la tarde, incurren en faltas de servicio independientemente del operador que les atienda, si la empresa que llama es del sector logístico?

Puede que usted no, pero Transkriptor lo sabe, y en preciso momento en el que la llamada se está realizando, y se registra la misma, le avisa de forma pro-activa para que pueda evitar estas situaciones, sugiriéndole las mejores opciones de actuación en cada momento.

Pero, ¿qué es y cómo funciona Transkriptor? Transkriptor es la unión de distintas tecnologías avanzadas que confortan una plataforma inteligente que “aprende” de pautas históricas en base al análisis automático de eventos pasados en sus servicios (llamadas, incidencias, clientes), y que en base a ese conocimiento, sugiere alertas de propensión a anomalías sobre el correcto funcionamiento, y permite adelantarse al futuro inmediato. Veamos cómo funciona:

Transkriptor, en un primer estadio, permite, con tecnología basada en identificación de voz y técnicas semánticas, extractar a texto las llamadas que se producen en el sistema. Pero además de extractar el texto en diferentes idiomas y con diferencia prosodia (acentos latinos, dialectos, giros en la lengua…), además, es capaz de identificar los siguientes metadatos que se incorporan a la información textual:

  • Detección de Género (masculino, femenino), del agente que atiende, y del cliente que consulta.
  • Separación de locutores automáticamente en la transcripción. Se separa claramente en la salida del texto los momentos de habla del Agente de los momentos de habla del cliente
  • Distribución temporal de la llamada: se identifican los momentos de voz, los momentos de música y los momentos de silencio
  • Indicadores Subjetivos del cliente y del agente: (Gratitud, Enfado,  Disconformidades,…

Transkriptor_audio

Una vez que las grabaciones han sido normalizadas y estructuradas a texto con los “metadatos” anteriores asociados a las entradas, Transkriptor realiza un análisis semántico de la información, ya sobre el conjunto de transcripciones de una o varias conversaciones, extractando nueva información,  como:

Empresas y Personas relacionadas con la conversación, e incluso referencias a terceras personas no presentes en la conversación.
Fechas a las que se hace referencia en la conversación
Temáticas y Tendencias
Tipologia de Problemas / Incidencias (Servicio, Departamento, Temática…)

Razón de la llamada (Reclamación, Incidencia, Consulta….)
Duración de las llamadas (Duración Excesiva, Reintentos de localización…)
Reclamaciones Tipo (Cuentas, Hogar, Seguros, Productos…)
Problemas no resueltos y relación con Transcripciones pasadas
•Número de Interacciones con los agentes sobre la misma Incidencia
Transkriptor_Análisis_previo
Toda esta información se extrae y genera de forma automática. Cabe señalar, de forma especial, las Temáticas y Tendencias. Temáticas son agrupaciones de conceptos (“tags”, palabras o conjuntos de palabras), que de forma automática, el sistema detecta como relevantes. Estos grupos de conceptos se extraen analizando todas las conversaciones, bien de un determinado servicio en una franja de tiempo, bien de un determinado cliente, o de todas las conversaciones. Este punto es configurable por el usuario experto del sistema. Las temáticas reflejan de forma automática, transparente a los usuarios, precisa y en tiempo real, de qué están hablando mis clientes, y cuáles son sus preocupaciones.  Por ejemplo, podemos saber que en la última semana, en nuestro servicio de Seguros, las temáticas que más preocupan a nuestros clientes son las relacionadas con Siniestros-Averías, seguidas aquellas relacionadas con la figura del “Gestor Refórmula”, y por las consultas sobre Asistencia en Carretera. Y además, podemos ver la progresión de dichas temáticas  a lo largo del tiempo. Pero estas temáticas, extraídas por Transkriptor de forma automática, pueden variar, y la semana que viene, pueden estar referidas a Promociones, Siniestros en el Hogar, e Inundaciones, debido a algún factor externo.
Transkriptor_Tematicas
Las Temáticas también se puede definir de forma manual. Es decir, el gestor experto de Transkriptor puede definir unas categorías de forma manual, en base a su conocimiento, y en base a ciertos conceptos que quiere analizar, independientemente de lo que hablen los clientes en sus transcripciones. El proceso es tan sencillo como asignar a unas “Categorías”, una serie de conceptos, que el sistema chequeará si están o no presentes en las transcripciones. Pero no sólo eso, sino que Transkriptor contiene, en su motor interno, toda una gestión semántica de sinónimos y equivalencias, que permite al gestor incluir cualquier concepto dentro de la Categoría, pero que se “expandirá” en la clasificación de llamadas por todos sus términos equivalentes.  Por ejemplo, si en la categoría de Siniestros, introducimos el término “coche”, Transkriptor, automáticamente, asignara conceptos como “automóvil”, “carro”, “transporte”, etc… dentro de dicha categoría.
Transkriptor_Categorías
Pero además, Transkriptor realiza un análisis automático para dar respuesta directa a las siguientes preguntas:
  • ¿Quiénes son mis clientes? ¿De qué hablan? ¿Cuándo?  ¿Con Quién? ¿Para qué?  ¿Cuáles son sus intenciones?  

El conocimiento personalizado de los clientes, sus estados subjetivos (contento, enfadado, cansado…), sus intenciones, sus relaciones con nuestros agentes, y sus problemas diarios, es “oro” para el sistema de gestión. Pero extractar este conocimiento de forma manual es un proceso intratable. Sin embargo, Transkriptor no tiene ningún problema en realizarlo. Dotado de los últimos algoritmos en Minería de datos y sistemas de recomendaciones , Transkriptor “conoce” personalmente a cada cliente y agente, sabe cuál es su situación en cada instante, y deduce si las conversaciones van por buen o mal camino.
¿Cómo lo hace?
Transkriptor, constantemente, con cada transacción que entra al sistema, segmenta a los clientes en perfiles generales, y a partir de esta segmentación general, particulariza os comportamientos generales al caso concreto que está sucediendo en ese concreto momento. Para ello, busca las relaciones de ese cliente, con los patrones usuales que se producen, y las compara con las acciones personales que ha realizado últimamente, para analizar si es propenso a la “deserción”, para “contextualizar” de forma automática una llamada con una incidencia en concreto, para relacionarle con los agentes con los que mejor “sensaciones” tiene, y por último, para predecir el resultado inmediato que dicha transacción va a tener. Toda esta información es presentada al Agente de una forma gráfica y usable. Si la predicción es mala, Transkriptor sugiere la mejor forma de “atajarla”, en base a experiencias positivas de clientes similares, en incidencias similares, con situaciones similares ocurridas en el pasado. Para ello, Transkriptor presentará sus conclusiones al Agente, como decisiones a tener en cuenta,. por ejemplo”, “pasar la llamada a Cármen o a la oficina técnica de forma prioritaria”.
Transkriptor_Segmentacion
Todo este razonamiento, técnicamente está basado en procesamiento de “segmentaciones”  y reglas extraídas de forma automática por el sistema en base a los históricos de incidencias y resoluciones. Transkriptor busca las correlaciones que existen entre los cientos de variables (día, mes, fecha, estado subjetivo, Temática, incidencia, duración de llamada, etc…), para ver cuáles son aquellos indicadores que, en ese momento, tienen importancia, y sobre ellos, intenta predecir, en base a las reglas modeladas anteriormente, cuál va a ser el final de dicha conversación o transacción. Si encuentra algo “anormal”, o la tendencia (valorada por la probabilidad de que un evento negativo se produzca), Transkriptor avisará inmediatamente al agente. En este proceso, se toma en cuenta, también, el estado subjetivo del cliente, y el “positivismo o negativismo” de las frases que se están transcribiendo, en un proceso típico de “Sentimental Analisys” agregado al resto de la información.
Transkriptor_reglas
Por supuesto, todo este proceso es transparente para el gestor, que sólo recibe las alertas y sugerencias propuestas por TranskriptorFinalmente, Transkriptor oferta todo un conjunto de informes, ya sobre lo que ha ocurrido, en relación a los indicadores de incidencias ocurridas, nivel de ANS, registro de llamadas por perfil de cliente, por estados subjetivos, por probabilidad de “deserción”, de incidencias futuras, de mala asignación de número de agentes por servicio, número de clientes insatisfechos, de forma que el gestor pueda analizar de una forma más pro-activa lo que está ocurriendo en su negocio.
Transkriptor_SOM
En cuanto a su arquitectura, Transkriptor se configura totalmente en base a servicios Web, en la “nube”, con lo que es posible integrarlo en cualquier plataforma CRM, ERP, o sistema de Atención a clientes que se desee. Tiene una API propia de llamadas a servicios, que se suministra con el producto.
Desde I3B, estaremos encantados de mostrar Transkriptor a todo aquel que esté interesado en conocer mejor a sus clientes, su negocio, y anticiparse a situaciones y eventos, a la larga, desagradables y contraproducentes para el nivel de servicio deseado, de una forma gráfica, sencilla y automática.
 Transkriptor_Análisis_proactivo

FaceId – Identificación Facial de Personas en Entornos Multimedia

Sep 17, 2012   //   by wpuser   //   Interacción  //  Comentarios desactivados en FaceId – Identificación Facial de Personas en Entornos Multimedia

I3B lleva años especializándose en la catalogación automática de objetos (edificios, señales, automóviles), dentro de entornos multimedia (vídeos, imágenes, fotografías, streaming), a partir de su plataforma ObjectMining.

ObjectMining

Una de las especializaciones de dicha plataforma es la catalogación automática de personas en dichos entornos, de forma automátizada, que es lo que hemos denominado FaceId.

FaceId

 

¿Qué es exáctamente FaceId?

FaceId es una API que permite a las aplicaciones tener acceso al aprendizaje, clasificación e identificación de personas en base al tratamiento de la información extraída de su cara, con las siguientes características:

  •  FaceId extrae de las escenas las zonas de interés relevantes (en este caso, las caras), independientemente del número de personas que existan en la imagen.  Indirectamente, ya tenemos una primera aplicación práctica, el conteo de personas.
  •  Las personas en la escena no tienen porqué mirar directamente a la cámara, la extracción puede ser en distintos grados de giro, y el sistema identifica igualmente la persona a la que pertence dicha sección.
  •  Los indivíduos identificados pueden estar a cualquier profundidad de la imagen (cerca, lejos). El sistema FaceId, internamente, normaliza la zona de la cara a una matriz fija, por lo que la distancia a la cámara no es relevante, aunque cuanto más cerca, evidentemente, la calidad es mejor, al igual que en la vida real ocurre con nuestra visión.
  •  FaceId etiqueta al las personas en tiempo real, no existe un retraso en el proceso de clasificación, que es inmediato.
  •  FaceId funciona con cualquier tipo de cámara, si estamos hablando de entornos de monitorización en tiempo real. No es necesario un hardware específico, sino que con cualquier cámara (incluidas Webcams), el sistema funciona.
  • FaceId es poco sensible a los cambios de luminosidad, ya que la información lumínica también se normaliza en la entrada.
  • FaceId es capaz de seguir el movimiento de las personas (caras), en tiempo real, e ir identificando cada una de las personas que entran en las escena. 
  • FaceId sólo trata la cara, esto es, es independiente de peinados, sombreros, barba/bigote, etc…

Entrenamiento

¿Cómo funciona?

Entrenamiento.

El primer paso para poder ejecutar FaceId, es el aprendizaje. Para ello, simplemente hay que mostrar imágenes de las personas que queremos tener “almacenadas” en nuestra base de datos, e identificar por cada fotografía, a quién pertenece dicha imagen.

Una vez que tengamos el conjunto de entrenamiento, (tan sencillo como presentar  a FaceId una lista de ubicaciones de fotografías, y un Id del usuario), FaceId procesa todas las fotografías, y crea un modelo de cada una de las personas para su posterior análisis.

Patrones de entrenamiento

Para realizar el modelo, FaceId toma aquellos puntos relevantes de las caras de cada una de las personas (y es el propio FaceId quién decide qué puntos son los relevantes para cada una de ellas), y los almacena internamente. Lo interesante de este proceso es que no es un algoritmo prefijado, sino que FaceId determina qué puntos son los que distinguen una persona del resto. Por ejemplo, si alguien tiene una mancha en la cara, FaceId puede determinar que esa es la característica especial que lo distingue del resto del mundo, y así, con las distintas formas de ojos, mentones, etc…

Cuantas más fotografías de cada uno de los individuos a almacenar tengamos, mejor funcionará el sistema, pero sin embargo, se necesitan un mínimo de tres fotografías para que el sistema establezca dichas diferencias entre los indivíduos. FaceId es capaz de tomar dichas tres fotografías en tiempo real, de un nuevo individuo, para “memorizarlo” a futuro.

Una vez almacenada dicha información (encriptada y totalmente numérica), la información original no es necesaria, de forma que es imposible, a partir de los datos de características especiales, reproducir la imagen el individuo en cuestión, de forma que dicha información esta totalmente “anonimizada“.

El entrenamiento es dinámico, es decir, que podemos, en cualquier momento, añadir nuevos usuarios al sistema, sin que esta acción paralice el servicio de identificación. Los nuevos individuos se van agregando al conocimiento interno del sistema, de forma transparente al funcionamiento del mismo.

La Identificación.

Una vez que el sistema está entrenado, (o en paralelo a la inclusión de nuevos miembros), sólo falta presentar a FaceId la imagen, vídeo o streaming que queremos analizar, y FaceId, buscará entre todos los frames, las caras a tratar, y cotejará las características extraídas de las mismas con su base de conocimiento, devolviendo el “id” del usuario que más concordancia tiene con lo mostrado en la imagen, y un porcentaje de similitud.

Identificación y cojeto en FaceID

Internamente, para que el porcentaje sea lo más válido posible, se ejecutan hasta cuatro algoritmos de clasificación basados en técnicas de Minería de Datos (no de “patter-maching” de visión artificial), para que la confianza sea lo más alta posible.

Validación de los modelos en FaceId

Existen dos modalidades de funcionamiento:

  • Determinar si la persona en la imagen es quién dice ser (cotejo de 1 a 1)

Si, por ejemplo, la persona, a la vez que aparece en la imagen, presenta un identificador (una clave, en el acceso al sistema, por ejemplo), o una tarjeta de acceso, el sistema cotejará, en su base de concomiento, si la imagen de entrada coincide con la de ese usuario en su sistema de análisis, de forma unívoca, devolviendo un porcentaje de confianza sobre si dicho usuario es quién dice ser. Esta modalidad es más ágil, ya que sólo chequeamos una imagen contra un patrón concreto.

FaceId en Autorización

  • Determinar la persona de la imagen qué es, de un conjunto de “n” personas (de 1 a n).

Si lo que queremos es catalogar de forma automática cualquier imagen con el conjunto de nuestros patrones, FaceId lanzará cada cara contra su base de conocimiento, extrayendo, de forma inmediata, aquel patrón que más se parece a la cara propuesta, y su porcentaje de similitud. Además de la catalogación automática de imágenes, por ejemplo, en redes sociales, otra aplicación divertida, por ejemplo, podría ser saber cuánto parecido eres a tus familiares directos, por ejemplo…

En definitiva, FaceId extrae los elemntos de interés del conjunto de la imagen, la normaliza, la presenta a su base de conocimiento, y devuelve el patrón con más similitud, y la confianza de que ese patrón sea el mismo. A partir de ahí, ya tenemos la posibilidad de catalogar lo individuos de forma automática.

La API

El funcionamiento es muy sencillo y transparente para los desarrolladores. Sólo tienen que llamar  unos pocos métodos, desde sus aplicaciones, para que el sistema comience a funcionar. Un ejemplo de la llamada a dichos métodos, es la inicialización del modelo, la validación de usuarios, y el aprendizaje:

Inicialización del Modelo

Identificación del Individuo

Aprendizaje

Las llamadas a la API pueden ser, bien, en base a servicios SaaS, con un servidor Web centralizado, o en local, en cualquier lenguaje (extensiones a SAP, C++, Java, .NET,) e incluso en sistemas móviles (Android).

Si desean más información, desean una demo, o están interesados en FaceId, no duden en contactar con nosotros.

Sistema de seguimiento de la mirada

Nov 21, 2011   //   by Alexeiw   //   Interacción  //  1 Comment

Desde hace una década los sistemas de detección mediante computadora han avanzado a pasos agigantados, llegando a incluirse con gran aceptación en diversos aspectos de la vida cotidiana como puede ser el reconocimiento de matrículas, en biometría o simplemente para que un escáner convierta un documento escrito a mano en uno digital mediante el reconocimiento de los caracteres.

Gracias a los grandes avances en hardware de los últimos tiempos es posible integrar fácilmente estos sistemas sin tener que pagar un precio elevado por ello. En este progreso han ayudado las tecnologías de clasificación de patrones, como las redes neuronales, que combinadas con técnicas como Adaboost alcanzan unas altas cotas de reconocimiento con bajas probabilidades de falsos positivos. Sin embargo para algunos casos concretos en los que la generalización de la imagen no es tan clara debido a que la resolución de la cámara con la que se capturan las imágenes es baja se puede optar por utilizar transformadas matemáticas como la de Hough para encontrar los objetos deseados.

Con estas premisas estamos desarrollando un sistema cuyo objetivo es mover el ratón de nuestro PC con la mirada. Los componentes físicos son:

     -Una cámara web con sensibilidad al infrarrojo

     -Dos emisores de infrarrojos (IR)

La primera fase de nuestro sistema de detección de la mirada consiste en aplicar las técnicas mencionadas anteriormente para desarrollar un detector facial/ocular en tiempo real, el cual proporciona con alto porcentaje de acierto la imagen y posición de uno de nuestros ojos, de los cuales se extraerán las posiciones de los reflejos de los emisores IR en ellos.

Como los movimientos del ojo requieren una rapidez de detección muy alta, hemos desarrollado un algoritmo para optimizar este proceso:

1. Primero nos centramos en obtener la cara del sujeto, para ello utilizamos el algoritmo de Viola-Jones, una explicación básica de lo que hace este algoritmo es esta:

       1.1 Se transforma la imagen a escala de grises

       1.2 Recorre la imagen a procesar mediante ventanas de 24×24 pixeles a diferentes escalas.

       1.3 Para cada una de estas imágenes obtiene una serie de características, que son los resultados de la diferencia de los valores de sus pixeles entre áreas.

Caracteristicas de Haar utilizadas en el algoritmo Viola-Jones para la detección de caras

      1.4 Las características de cada una de estas imágenes se procesan en un sistema de  varios clasificadores que están puestos en cascada para que así si una imagen no es válida (no es cara) descarte dicha imagen y pase a la siguiente. Si el ultimo clasificador la valida, será considerada como cara.

Disposición de los clasificadores para acelerar el proceso de selección

Este sistema de clasificadores dispuestos en cascada son el verdadero motor del algoritmo, ya que cada uno de ellos ha sido entrenado mediante el algoritmo “Adaboost” con una serie de miles de imágenes de caras, y su rapidez a la hora de descartar imágenes consiste en “endurecer” cada clasificador de la jerarquía dispuesta, es decir, si una imagen que no se parece nada a una cara llega al primer clasificador de la jerarquía, este la descartará inmediatamente, pero en cambio una imagen que se parezca a una cara irá pasando por la jerarquía de clasificadores hasta que uno la descarte. Esta disposición nos ahorra mucho tiempo ya que los clasificadores menos “duros” requieren muy poco tiempo de procesamiento.

2. Una vez obtenida la cara del sujeto nos centraremos en procesar la imagen de la cara para obtener la posición del ojo. Para ello utilizaremos nuevamente el algoritmo de Viola-Jones anteriormente mencionado pero entrenado en este caso para detectar el ojo humano. A la imagen ocular aplicaremos una transformada matemática llamada “transformada de Hough”, con ello obtenemos los círculos de la imagen, de la cual el más oscuro corresponde a la pupila y los mas claros a los brillos de los emisores IR. Con estas referencias se concluye la fase 1.

Cabe destacar que hasta ahora el tiempo de procesamiento ha sido mínimo, y se ha conseguido mantener un framerate estable de 30fps (frames por segundo).

Cara detectada mediante algoritmo Viola-Jones

Ojo y brillo detectados mediante la transformada de Hough

La segunda fase consiste en calibrar en sistema para que ubique la posición y las marcas de los emisores IR respecto de la pantalla en la cual queremos detectar donde mira el sujeto. Esta calibración se realiza instando a la persona que utiliza el sistema a mirar una serie de puntos en momentos determinados. Una vez calibrado, el sistema triangula los datos (posición de pupila, posiciones de brillos IR en el ojo) y consigue la detección de la mirada.

En este punto se nos surge una problemática, que ha sido la falta de precisión, ya que el sistema tiende a perder su calibración si la cara se mueve de sitio o no mantiene una distancia constante respecto a la pantalla. Para solucionarlo extraemos las  características SURF (caracteristicas que se obtienen de manera parecida a las que utilizamos en la parte de reconocimiento facial) de la imagen de la cara para poder triangular mediante ellas la posición en las tres coordenadas de la ubicación del usuario. Estas características se obtienen con una rapidez muy alta.

Ejemplo en el que se muestra la correspondencia de las caracteristicas entre dos imagenes

Las aplicaciones que puede tener este sistema son muy variadas:

     – Ayudar a personas incapacitadas para manejar de manera convencional un PC a hacerlo mediante la vista

     – En publicidad:

               Estadisticas de areas visualizadas en pantalla

               Orden de visita de contenidos dentro de una página web o cualquier documento en pantalla (periodicos digitales, etc …)

      Puede resultar muy util saber cuando y que áreas visita un potencial cliente para realizar un analisis y asi poder perfeccionar una pagina web, un periodico digital, una publicación, etc …)

     – Observar las reacciones de la pupila ante diferentes situaciones ( medicina, seguridad vial, etc …)

Para mas información:

Papers:

    Viola-Jones

    http://research.microsoft.com/en-us/um/people/viola/Pubs/Detect/violaJones_IJCV.pdf

    Caracteristicas SURF

    http://www.vision.ee.ethz.ch/~surf/eccv06.pdf

Webs sobre tracking:

    http://en.wikipedia.org/wiki/Eye_tracking

    http://eyetrackingupdate.com/2010/12/07/eye-tracking-research-delves-eye-detection-algorithm/

 

Ibermática crea una novedosa tecnología que reconoce el rostro humano.

Oct 21, 2011   //   by wpuser   //   Interacción  //  1 Comment
Entrevista de Aitor Moreno. de I3b, para “El Mundo”.

Aitor Moreno, responsable del área de Sistemas Inteligentes en Ibermática. | Iñaki AndrésAitor Moreno, responsable del área de Sistemas Inteligentes en Ibermática. | Iñaki Andrés

  • La firma vasca ha desarrollado un sistema de inteligencia artificial
  • Permite a los empleados entrar a trabajar sin necesidad de tarjetas
Patxi Arostegi | Bilbao
La inteligencia artificial es una tecnología que cada día gana más presencia en nuestra vida más cotidiana. Las grandes multinacionales como Google o Microsoft la emplean para poder predecir las preferencias de potenciales internautas y ofrecerles una publicidad personalizada en sus buscadores.

La empresa vasca Ibermática ha dado un paso adelante en diversificar las utilidades que se le pueden extraer a esta ciencia a través de un innovador sistema informático capaz de reconocer objetos y personas con una gran precisión.

“Vimos que no existía ningún buscador que pudiera identificar imágenes en la Red. Hasta ahora se han hecho buscadores con texto, pero faltaba un sistema que pudiera clasificar las imágenes de Internet para realizar las búsquedas de otras imágenes”, explica Aitor Moreno, responsable del área de Sistemas Inteligentes en Ibermática.

En la práctica el pionero sistema ideado por la firma tecnológica vasca se basa en la imitación del funcionamiento del cerebro humano. No en vano, el programa al igual que ocurre con la mente se le entrena a través de un mecanismo de «ensayo y error que le ayuda a asociar la información que recibe a través de un proceso de aprendizaje interno”, indica.

“Como sucede en un entrenamiento deportivo cuando tiramos a la canasta, nuestro cerebro relaciona la parábola correcta con un enceste. El sistema artificial también se entrena para asociar la imagen de la persona con un NIF o un código concreto”.

Para ello, los responsables del proyecto han desarrollado un sistema basado en ‘redes neuronales artificiales’ que, al enseñarles diez fotografías diferentes de una persona u objeto pueden reconocerlo con una gran exactitud.

“El programa contiene una malla de píxeles en la que se identificará la imagen mostrada que será clasificada y vinculada a un código determinado para diferenciarlo de otros ciudadanos”.

Entre las múltiples aplicaciones que ofrece esta novedosa aplicación destaca la identificación facial de las personas. Una prestación que puede ponerse en práctica en los controles de acceso de edificios públicos y privados.

Así, el sistema creado por Ibermática permite a los empleados de una empresa entrar a su edificio sin necesidad de tener que enseñar su tarjeta identificativa personal.

“El sistema reconoce el rostro registrado del trabajador y automáticamente emite una señal que abre la barrera de la entrada”, describe el responsable del proyecto en Ibermática.

Junto a la identificación facial otros beneficios prácticos que ofrece este invento reside en poder controlar posibles fallas productivas en entornos industriales. “Su precisión posibilita detectar si los tubos salen con errores o no del horno o si las piezas han sido fabricadas con la calidad precisa”.

A esta utilidad, une la posibilidad de catalogar imágenes en cualquier ámbito. No en vano podría identificar matrículas de vehículos estacionados en los aparcamientos, localizar objetos en vídeos de la Red o poder “controlar el cambio de etiquetas que puedan hacerse en supermercados”.

“Los códigos de barras pueden dejar pasar productos con etiqueta modificadas, pero nuestro programa permite identificar el código original con el producto asignado, lo que evita la picaresca del cambio de etiquetas”, concluye.

Más información: (En Teknopolis)

http://teknopolis.elhuyar.org/ikusi.asp?Multi_Kodea=650&atala=erreportajeak&lang=ES

 

 

 

Tratamiento de sonidos mediante métodos de IA y los principios del algoritmo de Shazam

Oct 21, 2011   //   by Alexeiw   //   Interacción  //  1 Comment

En Ibermática hemos desarrollando un producto para la detección e identificación de patrones en sonidos basándonos en métodos de IA y algoritmos que ya se utilizan pero modificados para adaptarlos a nuestras necesidades ( Es el caso de la aplicación Shazam, que reconoce canciones en base a una pequeña muestra que envía el usuario ).

Unos ejemplos de los posibles usos de este tipo de aplicaciones pueden ser:

Reducción o eliminación de ruido:

Se pueden identificar,  y por lo tanto eliminar, los patrones de ruido en una señal de audio, ya sea para poder hacer la   señal más audible o para programáticamente poder centrarse en procesar la información deseada.

Detección de sonidos:

-Identificar un sonido concreto para actuar en consecuencia (comandos por voz, etc…).

-En base a una serie de datos almacenados relacionar un sonido con una entidad ( canciones, cantos de animales, una persona,  etc…).

-En telemedicina se pueden detectar patrones de sonidos anómalos en los pacientes, esta información puede ser de gran utilidad combinada con otros datos para la obtención de un diagnostico adecuado para el paciente. (Por ejemplo, análisis de llanto en bebés, petición de ayuda, identificación de emociones…)

Para poder realizar este tipo de aplicaciones aplicamos una serie de técnicas y métodos sobre una representación del sonido a procesar, el espectrograma.

En la imagen de arriba se puede observar el espectrograma generado por la señal que aparece en la imagen de abajo. El espectrograma se representa mediante la frecuencia (eje y), el tiempo (eje x) y la intensidad de la señal (representado por el color, más claro más intensidad).

Las técnicas de análisis mediante algoritmos habituales de IA  son la combinación de los diferentes resultados de procesar el espectrograma mediante SVM (support vector machines), Template Matching y Redes neuronales (perceptrón multicapa entrenado con backpropagation)

Para la clasificación de SVM, primero generamos los vectores correspondientes a los sonidos de los modelos, estos vectores son la representación normalizada de los datos de su espectro centrado en la zona más relevante. Con estos vectores entrenamos el sistema mediante el algoritmo SVM para que después a la hora de clasificar, el sistema decida cuál es el sonido que más probabilidades tiene de ser el introducido por el usuario.

El Template Matching es una técnica que no produce resultados muy determinantes pero puede ayudar en la clasificación si se combina con otras técnicas. Básicamente consiste en comparar “cuanto” se parece el espectro de entrada con una serie de plantillas de otros espectros anteriormente obtenidas de los modelos que deseamos clasificar. Este “cuanto” se obtiene correlacionando los puntos de intensidad entre los espectros.

Para la clasificación mediante redes neuronales hemos decidido utilizar un MLP (perceptrón multicapa) el cual se entrena mediante la regla Backpropagation. Los datos utilizados para el entrenamiento son los mismos que utilizamos para la técnica SVM, es decir, la representación vectorizada del espectrograma centrado en la zona más relevante. La principal ventaja de utilizar una red neuronal para nuestro clasificador consiste en la rapidez de respuesta, además de que después de realizar varias pruebas hemos deducido que este tipo de red concretamente nos aporta mejores resultados que los SVM.

Por último hemos utilizado los principios del algoritmo que utiliza Shazam para la clasificación de canciones. Este algoritmo consiste en obtener una tabla “hash” en la cual se relacionan los picos de frecuencia con intervalos de tiempo en los que se producen, estos datos se obtienen del espectrograma. Con esta información se puede correlacionar una nueva entrada mediante Template Matching y asi obtener un resultado.

A diferencia de cómo lo hace Shazam, en nuestro sistema hemos obtenido mejores resultados utilizando los valores de picos de frecuencia de intervalos progresivamente más amplios.

Otra diferencia característica de nuestro sistema en comparación con el de Shazam es que este último recibe un intervalo de la canción, que si no coincide con el hash que contienen en sus bases de datos la canción no es detectada. Sin embargo nuestro sistema, al utilizar técnicas predictivas,  puede generalizar el patrón recibido para asi correlacionarlo con alguna de nuestras entradas de la base de datos, es decir, nos devolverá el sonido “que más se parezca”.

Object Mining – Reconocimiento de objetos en entornos multimedia

Jul 4, 2011   //   by wpuser   //   Interacción  //  1 Comment

Desde Ibermática,  la unidad de Sistemas Inteligentes de Control y Gestión, a partir de librería gráficas y técnicas de I.A, ha ofertado un nuevo producto cuya funcionalidad consiste en la posibilidad de detectar objetos (indivíduos, automóviles, edificios) en fotografía y vídeos, de forma que sirva como ayuda a la documentación de soportes multimedia. Además de identificar los objetos en las imágenes, también permite identificar (si existe una base de datos entrenada) personas dentro de los soportes, o de qué edificio se está hablando.

Se basan en tres tipos de clasificadores, cada uno aporta una carcaterística especial, en función de la rapidez de aprendizaje, ratio de acierto y extracción de carcaterísticas principales. Los métodos son redes neuronales backpropagation, redes neuronales con un flitro PCA aplicado anteriormente (EigenVectores), Knn cercanos y SVM. La media de los cuatro métodos identifican la certeza de la identificación del objeto.

En el futuro, y debido a los cambios legales (LOPD) que suponen que los usuarios puedan demandar la identificación e incluso el borrado de aquellos archivos y vídeos en los que aparezcan sin su consentimiento, este tipo de aplicaciones será cada vez más demandado.

 

 

 

 

 

 

 

 

 

 

 

 

 

En este sentido, la aplicación utiliza, para la detección de personas, reconocimiento facial. Los métodos de control de acceso biométricos están actualmente en auge debido al incremento del control de seguridad en los distintos ámbitos empresariales y organizativos. Pertenecen a este ámbito aplicaciones basadas en huellas dactilares e iris de los ojos, entro otros. Sin embargo, a pesar de que existen múltiples trabajos relacionados con el reconocimiento facial, es difícil aplicar dicho reconocimiento a aplicaciones en el mundo real debido a los problemas de variación en la iluminación, posición y cambio de expresiones y aspecto. Además, los sistemas propuestos en laboratorio usualmente no contienen un volumen amplio de muestras ni de variaciones en las mismas que puedan utilizarse en aplicaciones dentro de entornos reales. Los trabajos realizados se enmarcan en el problema del reconocimiento del individuo, pero no en la autorización de accesos basada únicamente en el control facial, a pesar de que existen aplicaciones que combinan tarjetas con reconocimiento facial, centrándose más en la verificación que en la identificación. En este trabajo se propone un sistema robusto de clasificación en base a una red neuronal multicapa, cuya entrada serán fotografías de muestras faciales con distintas variaciones de iluminación, posición, e incluso de individuos con muestras tomadas en épocas diferentes, con un volumen de muestras que simula un entorno real. La salida no es el reconocimiento del individuo, sino la pertenencia de éste a la clase de autorizados o no autorizados. A través de estos experimentos, se demostrará que esta estructura relativamente sencilla es suficiente a la hora de seleccionar las características principales de los individuos, que posteriormente, y en el mismo proceso, permitirá a la red clasificar a los individuos correctamente ante la entrada en un control de accesos.

Se ha realizado un aplicativo que en base a redes neuronales, es capaz de identificar la “huella” facial de un usuario, y comparalar con el resto del “mundo”, para determinar la autorización o no del acceso di dicho usuario.

Para leer más:
http://www.springerlink.com/content/w034n675236665xl

Vídeos de  ejemplos en aplicaciones reales:

Detección Facial:

Entornos Multimedia: