Browsing articles tagged with " social_análisis"

Monitorización e investigación en la web 2.0 para la toma de decisiones

Mar 1, 2012   //   by oa.usun   //   Sin categoría  //  Comentarios desactivados en Monitorización e investigación en la web 2.0 para la toma de decisiones

El uso de la Red y del ciberespacio construido sobre ella ha supuesto la reorganización en apenas dos décadas de las costumbres de millones de personas. También ha influido en asuntos como la toma de decisiones empresariales, la economía, la expresión de la identidad, la sociabilidad, el ocio y la educación formal, el activismo, el aprendizaje, y por supuesto el acceso, organización, distribución, consumo, gestión y recuperación de la información.

Las redes sociales son el fenómeno emergente más significativo de lo que se denomina web 2.0 y la eclosión de la comunicación de masas como nueva forma de comunicación en red.

Esto ha facilitado la producción de una gran cantidad de medios y contenidos por parte de los usuarios (Blogger, WordPress, Twitter, Facebook, …), que ha entrado en competencia directa con los medios de comunicación tradicionales, que se han visto obligados a adaptarse y a realizar cambios en sus redacciones, la tecnología usada, los contenidos o las condiciones de trabajo. Esto ha creado un nuevo contexto para la comunicación, la participación y el intercambio de información.

Esta web 2.0 provee a los individuos de plataformas que le permiten mejorar sus capacidades y le facilitan el acceso a información diversificada desde múltiples fuentes. Es un factor acelerador y amplificador de la extraordinaria habilidad de las personas para comunicar significados e ideas abstractas de forma social y colectiva. La Red está cambiando también el escenario de la investigación, ahora Internet se estudia como una estructura social o se utilizan tecnologías basadas en internet como herramientas para la investigación.

El ciberespacio es un campo de investigación idóneo donde es preciso acceder con una metodología científica tanto para la comprensión como para la elaboración de nuevas teorías o ampliaciones conceptuales de otras ya existentes. Lo más característico es que los sujetos investigados expresan sus opiniones en la web 2.0 sin la obligación de ceñirse a cuestionarios estandarizados o a guiones que restrinjan su experiencia a favor de las cuestiones decididas por un investigador.

Todo esto se puede investigar mediante un modelo, que propone dos horizontes temporales a la hora de abordar una investigación online. La información disponible en la web 2.0 se recolecta con aplicaciones de web mining y la investigación tiene dos fases:

1. La monitorización, que es la recopilación sistemática de la información delimitada tras seleccionar una serie de keywords o palabras clave estableciendo un corte temporal, un hipotético hoy, y haciendo un control diario y acumulativo de la información.

2. La investigación, que supone remontarnos hacia atrás en e tiempo entre uno y dos años o simplemente meses en función del volumen de información resultante.

Tanto la monitorización como la investigación tienen a su vez dos subfases:

–          La primera es de extracción, y en ella se rastrea la información textual o text mining, aunque también puede hacerse un rastreo multimedia o media mining.

–          La segunda es de clasificación automática para la monitorización, y automática y manual para la investigación, con el objetivo de no perder la sutileza de las ideas abstractas y los aspectos simbólicos inferibles del lenguaje no analizable por la tecnología.

Bajo la denominación de minería web o web mining se engloba todo un conjunto de técnicas encaminadas a la extracción de la información no trivial que reside de manera implícita en los datos. El web mining se usa para identificar y capturar información sobre una temática, marcas, productos o servicios de organizaciones y competidores; y en un sentido más amplio para realizar búsquedas más inteligentes (Ver El futuro del Text Mining se llama T2k  (Text to Knowledge) Tucán – Un extractor automático de información relacionada  y  Programación Neurolingüística (PNL) y los mapas mentales, procesos que cartografían el conocimiento y pueden facilitar la creación de ontoligías).

La información disponible en la Red es multimedia: texto, sonido, imágenes y bases de datos, pero este modelo se centra en la minería de datos textuales, que hoy son dominantes. El valor de esta tecnología está limitado por:

a) el estado del saber en cada momento del procesamiento de lenguaje natural.

b) la disponibilidad y acceso a tecnologías semánticas.

 

La monitorización consiste en la definición y creación de una estrategia de búsqueda y rastreo web, el establecimiento de un patrón de reconocimiento basado en las características del texto e independiente del tipo de medio online donde se encuentre. Es necesario establecer filtros, reglas de inclusión y exclusión de los resultados, que extraigan información propia y significativa de la temática objetivo.

El web mining semántico en la web 2.0 está también condicionado por el desarrollo de la estructura, arquitectura y posibilidades de navegación semántica de internet, cosa que depende de la aceptación y difusión de los estándares propuestos en el proyecto Semantic Web del W3C. La mayor limitación en internet no reside en el acceso al contenido sino a su sentido y significados. Tras el web mining se dispone de datos y referencias que conforman el universo objetivo. Debido al volumen de información puede ser oportuna la selección de una muestra tanto para la fase cuantitativa como la cualitativa.

En el web mining nos encontramos con dos unidades básicas:

Referencia, que  es la unidad básica de publicación de información (una noticia en un medio de comunicación online, un comentario en un foro, un post en un blog, etc.) extraída de la monitorización, en formato texto, que contiene al menos una de las palabras clave que delimitan el objeto de investigación desde un punto de vista sintáctico. Las referencias pueden ser limpias o falsos positivos. Una referencia limpia es todo bloque de información extraído de la monitorización en formato texto, relevante para la investigación desde el punto de vista sintáctico y semántico; todas las referencias que no cumplan esta condición son referencias no válidas o falsos positivos.

Opinión, es la unidad mínima de análisis informacional textual significativa siempre que contenga elementos informativos y/o valorativos relevantes para el objeto de estudio. Las referencias se pueden desagregar en opiniones.

Una vez codificadas las referencias y opiniones se diseña un plan de explotación y se genera información estadística para dimensionar bajo parámetros científicos los resultados de la investigación.

Tras la fase cuantitativa del modelo pasamos a una fase cualitativa, que permite conocer una parcela del objeto de estudio. Se trata de analizar las referencias para generar percepciones y/o puntos de vista útiles para la toma de decisiones. Para esta fase cualitativa el método se deberá elegir en función de los objetivos de la investigación y se optará por una o diferentes aproximaciones dentro de las amplias posibilidades que se ofrecen.

Así este modelo propuesto abre un nuevo campo de investigación al tener acceso desde una perspectiva científica a la expresión natural de las personas sobre organizaciones, marcas, productos, servicios, competidores, etc. (Ver  Redes Sociales, análisis, Marketing Personalizado, Líderes Virtuales, Topología, Datos Abiertos Y LinkedData. ¿Cómo se modelan los comportamientos para ofertarte lo que realmente necesitas?).

Redes Sociales, análisis, Marketing Personalizado, Líderes Virtuales, Topología, Datos Abiertos Y LinkedData. ¿Cómo se modelan los comportamientos para ofertarte lo que realmente necesitas?

Oct 4, 2011   //   by wpuser   //   Sin categoría  //  3 Comments

¿Qué nos puede contar Twitter sobre el futuro? ¿Cómo influyen las redes sociales en los mecanismos de marketing empresariales? ¿Y en los consumidores? ¿Podemos entender el origen y predecir cambios sociopolíticos? ¿Es posible crear modelos de comportamiento y detectar anomalías en base a la ingente cantidad de información que circula por la red? ¿Pueden las Administraciones Públicas utilizar los medios digitales para aumentar la confianza ciudadana de forma efectiva? ¿Es medible el impacto de las opiniones en las redes? ¿Existen mecanismos participativos alternativos a la democracia actual? ¿Sirven los modelos epidémicos y sus protocolos para gestionar el la crisis actual?

 “Predecir es fácil, lo difícil es acertar”. Woody Allen.

Figura 1. Análisis del Caos…

Parece claro que hay que estar en redes sociales, pero: ¿Qué quiere decir “estar”?, ¿Cuánto cuesta? ¿Cómo puedo medir la rentabilidad?, y lo más importante, ¿para qué?.

Antendiendo a las tendencias de uso de redes sociales, tenemos los siguientes datos:

●       Los usuarios hemos pasado de dedicarle un 10% de nuestro tiempo en Internet a las redes sociales en 2009, a un 22% en 2010.

●       En España el 80% pertenece a alguna red social y 20 millones las utiliza a diario.

●       Facebook ha pasado de 350 millones de usuarios en 2009 a 700 millones en 2010, 550 millones se consideran activos, y ya es la web más visitada por delante de Google.

●       Tuenti es la red social más popular en España, con una edad media de usuarios de 23 años.

Por todo ello las redes sociales constituyen la ventanilla única de acceso al usuario y una barrera de acceso a todo aquel servicio o información externa a la red social favorita del usuario, ya que el usuario tiende a utilizar los servicios de las redes sociales frente a otros servicios externos. Prueba de ello es que existen servicios ofertados en redes sociales cuyo gran porcentaje de accesos se realiza a través de las redes sociales, como facebook, a pesar de ofrecer canales propios incluso con mayores funcionalidades.

El Instituto Español de Analistas Financieros (IEAF) ha presentado un estudio, que ha sido realizado, entre los meses de marzo y diciembre de 2010, con la colaboración de la firma de consultoría DAEMON QUEST, experta en marketing estratégico, bajo la dirección de Jose Luis Cayuela, vocal de la  Junta Directiva del IEAF, y el patrocinio de BBVA Banca Privada. En el estudio se hace un repaso exhaustivo a las tecnologías que están modificando el modelo de aportación de valor en banca privada (lo que llaman Internet 3.0):

●       Sistemas de soporte a la planificación personal financiera.

●       Las redes sociales, como nuevo entorno de información y conocimiento que permite:

○       Conocer tendencias y determinar pautas de comportamiento.

○       Estudiar y predecir el comportamiento de la demanda y analizar con modelos sofisticados la evolución de los mercados.

○       Escuchar opiniones de mercado y trabajar en la construcción de una reputación e imagen de marca alineadas con los valores que demanda el cliente actual de banca privada: transparencia, confianza, competitividad, agilidad y respuesta.

○       Segmentar nuestros mercados para definir productos y servicios específicos.

○       Lanzar campañas de marketing ajustadas a los clientes potenciales en cada mercado.

○       Formar e informar al cliente para que participe activamente en los procesos de decisión.

●      La movilidad, entendiendo ésta en su versión más amplia de canales de acceso a la información y canales de distribución de productos y servicios.

 Según un reciente informe sobre el estado del arte en las redes sociales, realizado por la Comisión Europea[1] , además de considerarlas como un campo emergente de investigación multidisciplinar denominado “Social Multimedia Computing”, éstas presentan “dozens of research challenges”, especialmente ligados a la inteligencia colectiva aplicada a redes sociales. Los principales retos identificados por la Comisión son:

  • Security by means of Social Networks Analysis
  • Use of Social Networks for business and marketing
  • Social, mobile, pervasive content sharing and live media distribution
  • Information diffusion in Social Networks
  • Dynamics and evolution patterns of social networks, trend prediction
  • Immersive Social Networks
  • Communities discovery and analysis in large scale online and offl ine social networks
  • Personalisation for social interaction
  • Avoiding fragmentation of the social graph through open cross-platform interactions

El reto para las entidades actuales consiste básicamente en «ofrecer los productos adecuados para el cliente adecuado en el momento y poder dirigir un programa en particular o un producto que sólo las cuentas que cumplan con nuestros criterios». El retorno de las inversiones en social business va más allá de las campañas publicitarias y promocionales en redes sociales. Social business abarca mucho más, llega a todos los procesos de las organizaciones, tanto internos como externos: http://www.hcmibermatica.com/blog/?p=2552

Sin embargo, estar en redes sociales es algo muy diferente a comprar un espacio promocional o banners. Tampoco consiste en tener una página corporativa en Facebook o tener un community managermás de la mitad de los bancos que abrieron cuenta en Facebook o Twitter hace más de un año, ya la han cerrado o la tienen totalmente inactiva debido a que no ofrecen ningún servicio a sus usuarios. Estar en redes sociales requiere, antes que nada, una actitud comunicadora hacia empleados, clientes e inversores.

La complejidad de las ofertas puede requerir un equipo de analistas, de ingenieros financieros, y de programadores para trabajar durante días o incluso semanas para desarrollar el modelo de fijación de precios adecuado. Un error de diseño puede costar a la institución millones de dólares, por lo que la precisión y la coherencia de las estrategias de fijación de precios son fundamentales.

Con un repositorio de datos y tecnología de extracción de última generación tecnológica (paradigma de BigData), se está recreando la sensación de intimidad con el cliente lo que permite a las empresas devolver un valor añadido importante a su estrategia de fidelidad y competitividad ante el exterior.

Otro reto a considerar es la comprensión de la información de la cuenta (lo que explica qué tienen, su situación actual), junto con otros datos demográficos (dónde vive el cliente, etc.), y la explicación de los comportamientos de los clientes a la hora de adquirir tal o cual servicio. El envío de información a los clientes que tienen más probabilidades de estar interesados es vital hoy en día. Para ello, se necesita adquirir o completar el conocimiento sobre campañas pasadas, o éxito en determinados productos, en base a saber, por ejemplo, cuántos clientes en la última campaña utilizaron, perfiles de interés, o las pasarelas ofertadas. Este tipo de análisis permite reducir los costes de comercialización y centrarse más en la inversión de la campaña sobre clientes específicos para aumentar las tasas de respuesta.

Actualmente, los almacenes de datos (DatawareHouse) son tan vastos que los métodos tradicionales de análisis no funcionan. «Para algunos clientes, tenemos cerca de 300 atributos diferentes. Con algunas técnicas, sólo se pueden analizar 20  a la vez y no importa qué 20 se elijan, puesto que estás dejando de lado algo potencialmente importante.»(Dyke Garrison).

Pero además, y con una importancia en crecimiento exponencial, la información “subjetiva” que los usuarios van documentando en las redes sociales, no se está teniendo en cuenta como entrada de datos a los procesos de segmentación, y es, precisamente, en estas fuentes de información, en dónde primero los usuarios actuales denotan su situación, tanto anímica, económica, laboral, personal y relacional.

Hay una necesidad de identificar los segmentos de mercado de valor, pero es sólo  el comienzo. Para cada mercado, se pueden ofrecer una gran variedad de paquetes de productos individualizados por las cuotas de ajustar, las características y tipos de interés. Si unimos esto con el número potencial de comercialización de los mensajes entregados a través de numerosos canales en diferentes puntos en el tiempo el resultado es un número enorme de posibles estrategias para llegar a los clientes rentables.

Como ocurre con muchos otros sectores que han mejorado sus tasas de respuesta a campañas de marketing directo, se utiliza la técnica de minería de datos para aumentar los ingresos de los segmentos objetivo, aumentar su cuota de cartera, aumentar la retención, la productividad de ventas incremento de la fuerza y el uso de los canales de distribución alternativos. Recientemente se ha observado que los clientes que pagan una tarifa plana tienden a permanecer fieles durante unos tres años más que los que cobran por el servicio. Ellos creen que a muchos clientes no les gustan las sorpresas y el servicio de tarifa plana se aleja de eso.

                                                                                       Figura 2. Minería de Datos

“La información tiene valor sólo en la medida que el receptor ha realizado un esfuerzo para obtenerlo. La adquisición de información sin levantar un dedo significa que todo el mundo lo está consiguiendo demasiado fácil, lo que significa que es inútil. El valor de la información se relaciona directamente con la medida en que es única y que se puede utilizar para beneficio personal. « (Stewart Alsop New Enterprise Associates).

Hay una tendencia a la comercialización, dentro de muchas organizaciones en, al menos, dos departamentos, gestión de productos y operaciones. Si bien se intentan buscar nuevas necesidades y grupos de afinidad basados en un mercado cada vez más fragmentado, los intentos de ejecutar campañas de manera rentable al tiempo que intenta reducir el riesgo y aumentar la precisión del medio utilizado van en aumento. Los gestores de productos y operaciones están interesados en:

  • Entender lo que beneficia a los clientes, tratar de obtener información de los productos que compran hoy en día y van a querer comprar mañana.
  • Entender qué modelos pueden ser creados para identificar a los clientes con propensión a comprar y lo que provoca el fracaso de ciertas campañas.
  • Saber qué segmentos son sensibles a los precios para definir el esquema de precios que debe aplicarse.
  • Los modelos de uso de construcción de canales que pueden predecir el canal favorece más las relaciones actuales y la oferta de nuevos servicios      y productos.
  • Realizar actividades a los clientes con el mensaje correcto y permitir un diálogo interactivo en su caso.

Para todos estos objetivos, se utilizan una serie de técnicas de Inteligencia Artificial, como lo son:

Anotaciones Semánticas

El concepto de “anotación” trata de unir los nombres, atributos, comentarios, descripciones, a un documento o a una parte seleccionada de un texto, proporcionando información adicional (metadatos) sobre una pieza de datos existentes. Es la base para el análisis de la información no estructurada (fuente principal del conocimiento en redes sociales), y que una vez tratada y filtrada, nos permitirá, por medios de aprendizaje automático y segmentación de intereses, poder realizar decisiones en tiempo real sobre dicho conocimiento.

En comparación con el etiquetado, lo que acelera la búsqueda y le ayuda a encontrar información relevante y precisa, la anotación semántica va un nivel más profundo:

– Enriquece los datos no estructurados o semi-estructuradas con un contexto que es más relacionado con el conocimiento estructurado de un dominio.

– Se permite que los resultados que no están explícitamente relacionados con la búsqueda original.

– Permite, además, en conjunción con técnicas semánticas, realiza inferencias de los datos recogidos con otros datos externos, de forma que podamos incorporar a la información extraída nueva información que los razonadores semánticos convierten en nuevo conocimiento, no incluido “a priori” en el sistema.

Figura 3. Anotación Semántica

Para ello, hay que realizar una serie de procesos previos, que definen la distinción léxica, morfológica y sintáctica de los contenidos, para luego asociarlos a una ontología semántica, que es la que da sentido a los conceptos, y permite realizar “deambiguaciones” sobre conflictos entre diferentes contextos.

                                        Figura 4. Desambiguación

La   Semántica Ontológica (Niremburg y Raskin, 2001[2]) es una teoría que estudia el significado del lenguaje  humano o lenguaje  natural, así como una  aproximación al Procesamiento del Lenguaje Natural (PLN) que utiliza un modelo abstracto del  mundo  –la ontología como recurso central para extraer y representar el  significado de textos en lenguaje natural, al razonar con el conocimiento que se deriva a partir de estos  textos.  Asimismo,  la ontología es también el eje central a la  hora  de generar textos en lenguaje natural basados en  las representaciones de su significado.

Las técnicas aglutinadas dentro de la anotación semántica son las siguientes:

Minería Web

Según Hernández et al. (2005) Etziony (1996) definió la minería Web como el uso de técnicas de minería de datos para descubrir y extraer información automáticamente desde la Word Wide Web utilizando para ello herramientas de minería Web que analizan y procesan los datos de la Web con el fin de producir información significativa. Debido a que los contenidos de Internet se componen de varios tipos de datos, como el texto, imagen, vídeo, metadatos o los enlaces, investigaciones recientes usan el término Multimedia Data Mining (Minería de Datos Multimedia) como una forma de describir la minería Web para tratar ese tipo de información (Zaïane, 1998).

Los accesos totales por dominio, horarios de accesos más frecuentes y visitas por día, entre otros datos, son registrados por herramientas estadísticas que complementan todo el proceso de análisis de la minería de datos. Para lograrlo la minería web se descompone en las siguientes tareas:

a) Descubrimiento de recursos: localización de documentos relevantes o no de la red. Ésta es la función de los índices buscadores (que extraen contenido basándose en palabras, zonas del documento, idioma) y de los índices temáticos (que clasifican los documentos).

b) Extracción de información: extracción de determinada información a partir de un documento, independientemente de su formato (HTML, XML, texto, etc.).

c) Generalización: descubrimiento de patrones generales a partir de sitios web individuales (agrupamiento de documentos o clustering, asociaciones entre documentos).

d) Análisis, validación e interpretación de los patrones.

Por lo tanto la minería web utiliza las técnicas de la minería de datos para descubrir automáticamente los documentos y servicios de la web y extraer información de ellos, información que implica distintos tipos de datos: texto, semi-estructurado, imágenes, audio, entre otros. Así el ámbito de acción intenta involucra problemas que permitan entender mejor la Web, el como aprovechar la información que contiene y facilitar el acceso a ella.

Debido a la creciente cantidad de información que se almacena actualmente, se hace necesario el uso de motores de búsqueda que indexen dicha información y nos permitan acceder a ella de un modo rápido y directo. Las técnicas que tradicionalmente se han utilizado en los motores de búsqueda de Internet se están comenzando a aplicar para indexar la información de servidores o equipos locales con grandes volúmenes de datos.

TextMining.

Text Mining busca patrones en los datos no estructurados: las memorias, actas, correos y documentos. En consecuencia, a menudo se utiliza un lenguaje basado en técnicas, tales como el análisis semántico y de taxonomías, así como aprovechar las estadísticas y la inteligencia artificial.

Dependiendo de la tecnología utilizada, a veces los documentos que deben ser «marcados» – un editor puede necesitar manualmente nota de lo que trata el documento. En otras ocasiones, un sistema de minería de textos puede tener que ser «entrenados» para reconocer un determinado tipo de documento. En este caso, una persona familiarizada con el contenido tendría que reunir un conjunto representativo de los documentos que se de entrada al sistema.

La minería de textos puede discernir los patrones que tienen un valor comercial significativo. Las empresas pueden utilizar la minería de textos para encontrar las tendencias generales en su tesoro de informes de error o de quejas de los clientes. Por ejemplo, la minería de textos puede comprender la diferencia de intención entre el «yo te lo pagaré», «no voy a pagar», «he pagado» y generar una propensión al pago de puntuación – que, a su vez, pueden ser tratados estadísticamente. Otro ejemplo, si un cliente dice: «no puedo pagar porque un árbol cayó sobre mi casa«, es evidente que no es una «desgracia”, sino más bien una oportunidad de ventas para un préstamo hipotecario.

                                        Figura 5. TextMining

Minería de datos

La Minería de Datos (Datamining) se define como el proceso de descubrir los patrones de información interesante y potencialmente útiles, inmersos en una gran base de datos en la que se interactúa constantemente. Minería de datos es una combinación de procesos como:

  • Extracción de datos.
  • Limpieza de datos.
  • Selección de características principales.
  • Algoritmos de clasificación y predicción.
  • Análisis de resultados.

Las herramientas de DataMining exploran una gran cantidad de datos dentro de una gran base de datos o Dataware House, y mediante su análisis predicen posibles tendencias o comportamientos futuros dentro de una entidad, permitiendo al experto tomar decisiones en los negocios de una forma rápida y utilizando un conocimiento que de otra forma no habría encontrado. Algunas de las  posibilidades que ofrecen estas herramientas son:

Predicción automatizada de tendencias y comportamientos.

  • Descubrimiento automatizado de modelos desconocidos.
  • Descubrimiento de anomalías y acciones fraudulentas por parte de clientes.

La minería de datos aventaja a la estadística en los supuestos siguientes:

  • Las técnicas estadísticas se centran en técnicas confirmatorias. Así, cuando el problema al que pretendemos dar respuesta es refutar o confirmar una hipótesis, podremos utilizar ambas ciencias. Sin embargo, cuando el objetivo es meramente exploratorio (para concretar un problema o definir cuáles son las variables más interesantes es un sistema de información) aumenta la necesidad de delegar parte del conocimiento analítico de la empresa a técnicas de aprendizaje (Inteligencia Artificial), utilizando minería de datos. Aquí hemos detectado una primera diferencia de aplicación de ambas herramientas: Minería de datos se utilizará cuando no partimos de supuestos de inicio y pretendemos buscar algún conocimiento nuevo y susceptible de proporcionar información novedosa en la toma de decisiones.
    • Existe una alta dimensionalidad del problema. Cuantas más variables entren en el problema, más difícil resulta encontrar una hipótesis de partida interesante o, aun cuando se pudiera hacer, el tiempo necesario no justificaría la inversión. En ese caso, utilizar técnicas de minería de datos como árboles de decisión nos permitirán encontrar relaciones inéditas para luego concretar la investigación sobre las variables más interesantes.
    • Las técnicas de Data Mining son menos restrictivas que las estadistas. Una vez encontrado un punto de partida interesante y dispuestos a utilizar análisis estadístico en algún particular, puede suceder que los datos no satisfagan los requerimientos del análisis estadístico. Entonces, las variables deberán ser examinadas para determinar qué tratamiento permite adecuarlas al análisis, no se siendo posible o conveniente en todos los casos.
    • Cuando los datos son muy dinámicos. Una base de datos poco dinámica permite una inversión en un análisis estadístico que dé justificación al personal cualificado en estadística, metodología rígida y respuestas a preguntas muy concretas, dado que las conclusiones van a tener un ciclo de vida largo. Sin embargo, en un Dataware House muy dinámico las técnicas de Data Mining permiten cambios de forma ágil y determinar cuándo una regla de negocio ha cambiado. Permite abordar cuestiones a corto / medio plazo.

Una aplicación, por ejemplo, es implementar un proceso que genere una segmentación muy precisa de los clientes. Una vez que el motor del Data Mining ha seleccionado un grupo adecuado de segmentos de clientes de su Data Warehouse, el siguiente paso será extrapolar los perfiles de los consumidores. Cada vez que llega una nueva carga de clientes se aplica de nuevo el conjunto de modelos estadísticos y se ejecuta el programa para comparar contra los segmentos existentes o crear otros nuevos. Aquí estamos enfocando la atención a predecir la lealtad de marca, para citar un ejemplo, pero tenemos muchas otras aplicaciones como son:

  • Segmentación del mercado.
  • Tendencias de deserción de clientes.
  • Descubrimiento de transacciones fraudulentas.
  • Mercadeo directo.
  • Mercadeo interactivo.
  • Análisis de canasta.
  • Análisis de tendencias.
  • Perfiles de clientes.
  • Focalización de clientes y campañas promocionales.

Las técnicas usadas son las siguientes:

Clustering: Es un planteamiento que intenta identificar las características distintivas entre los conjuntos de registros y el lugar en grupos o segmentos. Este proceso es a menudo la intensificación de punto de partida para la minería de datos, ya que conduce a la exploración de relación. Este proceso en particular es un candidato obvio para la segmentación de clientes por agrupación de similitudes.

Asociación: Aquí se encuentran las reglas que le permiten correlacionar la presencia de un conjunto de elementos con otro conjunto. Este método ha demostrado ser eficaz en el comercio minorista, donde el análisis de cesta de la compra le ayuda a encontrar que algunos artículos son siempre comprado en el mismo tiempo. Si usted puede encontrar los patrones de compra natural de un cliente puede utilizar ese modelo para ayudar a comercializar su producto. El resultado de esta asociación es una lista de afinidad de productos.

Asociación secuencial: Patrones relacionados con el tiempo. Este método busca los vínculos que relacionan estas pautas secuenciales. La idea es utilizar los datos asociativos como una cuenta de cheques o de un acontecimiento vital para unir una secuencia de acontecimientos en una serie de tiempo. La vida activa que preceden a sus compras y las compras de precursores se encuentran a menudo a esta metodología. La reducción de grandes cantidades de datos a los resúmenes significativa por el uso de nuevas normas puede extender esto.

La mayoría de las herramientas disponibles utilizan el mismo tipo de algoritmos, uso de la misma base de métodos estadísticos o son variaciones sobre el tema. Algunos han sido acuñados por empresas de consultoría y proveedores de herramientas en un intento de diferenciarse de la competencia. Algunas de las posibles herramientas incluyen la estadística bayesiana, algoritmos genéticos, agentes inteligentes, la programación lineal, el razonamiento (perfil de base, el modelo basado en la restricción basada en el caso y basada en), la lógica difusa, diagramas de influencia, análisis de campo de fuerza, etc.

El diferenciador principal de una organización es la información que almacena sobre sus clientes, con los datos reunidos en un almacén de datos se puede construir la comprensión de su base de clientes. Esa comprensión puede ser utilizada para apoyar las decisiones comerciales, estratégicas y tácticas. Uno de los medios de extracción de conocimiento significativo de grandes cantidades de datos es mediante el uso de técnicas de minería de datos anteriormente descritos.

  • Combinación de técnicas      (DataMining + Textmining)

Mediante el uso de minería de datos y minería de texto en conjunto, las empresas han sido capaces de mejorar la media de resultados alrededor del 20%. Áreas donde el dúo de la minería ha dado sus frutos incluyen el análisis de listas de deseos de producto, patrones de desgaste de los clientes en empresas de telefonía móvil, etc.

Los servicios de recuperación de los bancos y compañías de tarjetas de crédito han utilizado el dúo de la minería con buenos resultados. Se usa la minería de datos para examinar las tendencias de pago, de forma que estas empresas tienen una buena idea de quién va a dejar de pagar un préstamo, por ejemplo.

Las empresas que buscan hacer el dúo de la minería en aplicaciones deben tener cuidado en varios puntos, especialmente en lo que respecta a la minería de texto. En primer lugar, algunas de las tecnologías de minería de texto necesitan grandes cantidades de texto para analizar – notas de varias páginas, por ejemplo -, mientras que los registros de llamadas son a veces sólo fragmentos de texto. En segundo lugar, «derivados», una técnica popular en el análisis de texto en el que las diversas formas de una palabra se destila en una sola palabra – «pagar», «pagado», «pago», «no va a pagar» = «pagar» – pueden ser pocos eficientes. Por lo tanto, las empresas deben garantizar que la tecnología que está utilizando está sintonizada con el problema concreto. Además, las soluciones de algunas empresas son más un conjunto de herramientas orientadas, mientras que otros están más orientados a la aplicación (Resultados inteligentes). ¿Qué es más adecuado? Depende de lo que la empresa quiere hacer y el nivel de la experiencia interna.

  • Sistemas expertos

Los directores financieros podrían utilizar inteligencia artificial (IA) para el apoyo de decisiones una vez que la tecnología está integrada en software back-end. Estos sistemas recuperarían los datos internos y externos sobre una base diaria, para enviar, por ejemplo, mensajes automáticos de notificar a la CFO, si un presupuesto específico es incompleto, o si demasiado dinero en efectivo se pasa de una cuenta en particular.

Los códigos de simulación de una solución de conjunto consisten actualmente en almacenes de ecuaciones diferenciales parciales (PDE), a una solución sujeta a los límites adecuados manualmente, a ciertas condiciones iniciales, ilimitaciones, y  posibles eventos discretos, tales como pagos de dividendos.

Las soluciones son cerradas y no están disponibles salvo en el caso de los ejemplos más triviales de los problemas, por lo tanto, los códigos numéricos de aproximación son insatisfactorios, además de que la programación manual es cara y propensa a errores. Para abordar algunas de estas deficiencias, se ha ideado la generación de un sistema experto orientado a objetos que puedan ofrecer más generalidad mediante la abstracción de datos a una estructura de representaciones, independientes de las ecuaciones específicas que se resuelven o de las propiedades tales como la dimensionalidad del espacio y el orden de precisión del algoritmo.

Actualmente, se tarda aproximadamente 50 minutos de un asegurador para revisar un típico préstamo. Los préstamos más complejos, tales como los de Hipotecas de la FHA y VA, segundas residencias, propiedades de inversión, pueden tardar más tiempo. El asegurador típico es una persona muy cualificada, con muchos años de experiencia en banca hipotecaria. El suscriptor tiene que tener conocimientos específicos sobre cientos de productos y normas de suscripción de los inversores para determinar si el perfil de crédito cumple los requisitos del prestamista y en el último caso, de los inversores.

El volumen de información que tiene que ser considerado, junto con el de la interdependencia de esta información, hace del proceso una toma de decisión complicada. Las tasas de interés más bajo de los últimos dos años  desencadena un aumento sustancial en el número de personas que solicitan préstamos para la vivienda, muchos para refinanciar en mejores términos. Este aumento ha conducido a una grave escasez de personal cualificado como aseguradores, los principales cuellos de botella para la creación de todos los prestamistas. Es aceptable un sistema que rechace un préstamo dudoso que más tarde fue aprobado, sin embargo, es inaceptable que el sistema pueda aprobar un préstamo que normalmente sería denegado.

Con un sistema experto basado en normas, normalmente obtenidas de los procesos de minería anteriores, las normas se pueden añadir o modificar fácil y rápidamente, permitiendo que los nuevos lanzamientos que deben figurar en la demanda se construyan de forma efectiva. La optimización es la velocidad en que un sistema de apoyo de decisiones (DSS) puede procesar correctamente los indicadores de rendimiento clave (KPI).

Los problemas adecuados para su resolución mediante un sistema experto se caracterizan por:

  • El problema no puede ser resuelto con facilidad utilizando las técnicas de programación tradicionales, ya sea porque no se conoce un algoritmo para      su resolución o porque el algoritmo conocido es muy ineficiente.
  • No hay suficientes expertos en la materia, o no están disponibles en la localización adecuada (por su situación remota, por ser un ambiente      peligroso, etc.), o su coste es muy elevado y justifica el gasto del desarrollo del sistema experto, o se necesitan respuestas en tiempo real o para situaciones de emergencia que podrían ser traumatizantes para un experto.
  • El problema está bien estructurado, sobre un campo específico de tamaño razonable y no requiere (demasiado) sentido común (el conocimiento que denominamos “sentido común” es difícil de abarcar y de codificar, incluso en ámbitos limitados).
  • El problema puede resolverse utilizando técnicas de razonamiento simbólico. No precisa de otros tipos de razonamiento, como el espacial, ni requiere habilidades manuales.
  • Existe al menos un experto en la materia que esté dispuesto a cooperar.

Los conocimientos de los sistemas expertos basados en reglas se encuentran codificados de dos formas:

  • Hechos: datos o información cierta que se conoce.
  • Reglas: conocimiento expresado de la forma SI antecedente ENTONCES consecuente.

Formalmente esto significa antecedente -> consecuente. Las reglas además podrían tener cierto grado de incertidumbre y/o incluir conceptos sujetos a borrosidad (fuzzy logic) como joven, frío, sucio, etc.

Para que un sistema experto sea una herramienta efectiva, los usuarios deben interactuar  reuniendo dos capacidades:

  • Explicar sus razonamientos o base del conocimiento: los sistemas expertos se deben realizar siguiendo ciertas reglas o pasos comprensibles de manera que se pueda generar la explicación para cada una de estas reglas, que a la vez se basan en hechos.
  • Adquisición de nuevos conocimientos o integrador del sistema: son mecanismos de razonamiento que sirven para modificar los conocimientos anteriores. Sobre la base de lo anterior se puede decir que los sistemas expertos son el producto de investigaciones en el campo de la inteligencia artificial ya que esta no intenta sustituir a los expertos humanos, sino que se desea ayudarlos a realizar con más rapidez y eficacia todas las tareas que realiza.

En este sentido, la investigación en nuevos sistemas expertos aplicados a la generación de un asistente a la búsqueda, extracción y comprensión de la información contenida en grandes volúmenes de datos es totalmente innovadora, y permite dar un enorme valor añadido a este tipo de proyectos KDD.

Ejemplos de aplicaciones de estas técnicas sobre redes sociales, los tenemos continuamente. Investigadores del MIT (Massachussetts Institute of Technology)  han usado un algoritmo llamado GPOMS (Google-Profile of Mood States) que intenta recopilar el estado mental de ánimo de toda la humanidad a través de Internet. Lo realmente sorprendente es que fueron capaces de encontrar una relación directa entre el GPOMS y el comportamiento del [Dow Jones], un índice bursátil que refleja el comportamiento del precio de la acción para las 30 compañías más importantes de EEUU, entre Marzo y Diciembre de 2008, una tarea que les llevó a analizar 9.7 millones de tweets realizados por 2.7 million de personas. Y es sorprendente porque establece una relación directa entre el humor de la gente y el comportamiento de la economía mundial, o lo que es lo mismo, hay una relación mucho más importante de lo que se pensaba entre felicidad y economía.[3]Así, otro grupo de investigadores de la  Cornell University ha recurrido a Twitter para estudiar la evolución del estado anímico de 2,4 millones de usuarios de la red de microblogs en 84 países. [4]

                                         Figura 6. Twitter aplicada a la Bolsa.

Tecnologías de inteligencia colectiva aplicada a redes sociales

La tecnología en Inteligencia Competitiva está en un estado que, para cualquier proyecto, se requiere de un estudio previo, una consultoría sobre los fines de la misma, una implantación de diversas herramientas para distintos contextos y finalidades, formación, etc… En definitiva, se necesita una medición de Internet, en base a unos indicadores, que «ya son clásicos», como usuarios únicos, páginas vistas, tasa de rebote, etcétera, en la analítica de la web.

                                                Figura 7. Sentimental Analysis

Sin embargo, se necesitan nuevos indicadores más complejos e innovadores, como la influencia en las relaciones entre usuarios en la red, segmentación de redes sociales en función de objetivos predeterminados por los gestores, la influencia de dichas segmentaciones sobre las microsegmentaciones de los clientes, centros de influencia dentro del flujo de la información, influencias externas a los discursos en red, y la posibilidad de poder actuar sobre dichos flujos, que, una vez conocidos, podemos ser capaces de predecir cómo nuestras actuaciones afectarán a la evolución de las opiniones en la generalidad de los usuarios. En definitiva, conceptos tan sutiles como la influencia del mismo en otros blogs o en la comunidad a la que pertenece, la capacidad que tiene ese blog para conseguir que otros reseñen el contenido y, de esta forma, se propague de boca en boca. No existen métricas estándar sobre conceptos como ‘influencia’, ‘viralidad’, etcétera. Por lo que cualquier empresa debe adoptar unas métricas, seguir su evolución, y mejorarlas con el tiempo.

La Reputación Corporativa está tomando un peso específico mayor en todas las compañías, con implicaciones en «branding», relación con accionistas, la sociedad y los clientes. El nuevo entorno online está cambiando el modo en cómo se gestiona la reputación de las compañías. No sólo el Cliente no pertenece a las empresas, uno de los cambios importantes que está sucediendo es que tampoco pertenece a las empresas sus propias marcas, productos y servicios. ¿Por qué? , si atendemos a los datos nos dicen que el 26% de los primeros resultados de búsquedas para las mayores 20 marcas del mundo son…. ¡contenidos generados por consumidores!. El impacto de esta corriente implica que las Compañías deban ampliar capacidades operativas a la hora de poder gestionarlo, y en este proyecto, se pretende generar algoritmia específica para:

1. Poder medir la reputación y el efecto de las acciones que se realizan

2. Disponer de capacidades internas de comunicación junto con una estrategia renovada que ha de entender el nuevo entorno de relación, donde una de las claves es acercarnos al cliente creando un entorno de conversación entre la marca y los consumidores que sea favorable a los mismos.

Las empresas que primero adopten estas técnicas están generando una ventaja competitiva en un plazo muy corto de tiempo, pero aún no todas las compañías tienen la madurez para abordarlo, aunque se prevé que en los próximos años acabará siendo una práctica común y totalmente imbricada en la estrategia y operaciones.

En el estado del arte hay literatura sobre análisis de reviews de productos[5]pero apenas nada sobre el perfilado de redesy clientes que afecten a los sistemas de recomendación[6].

Internet ha hecho posible que se hable de un nuevo concepto que está llamado a ser importante para el mundo empresaria:inteligencia colectiva. Se suele definir como “una forma de inteligencia que surge de la colaboración y concurso de muchos individuos” (Wikipedia).

Actualmente se trata de un concepto al alza. Internet ha logrado conciliar el protagonismo individual del usuario con la acción colectiva. Este es el mérito de las herramientas 2.0 que están llamadas a revolucionar la gestión del conocimiento y de hecho ya están teniendo impactos relevantes en la política, la educación, el ocio, las relaciones sociales.

Ya son muchas las empresas que han abierto un canal en Twitter o en Facebook u otras redes sociales. Algunas lo han hecho a regañadientes y sólo porque hay millones de usuarios en estos sitios. Y también todavía se sorprenden de cómo Wikipedia, una enciclopedia surgida de la “inteligencia colectiva”, ha llegado a superar a otros grandes proyectos sustentados por empresas como Microsoft u otras instituciones de prestigio. Son pasos obligados para integrarse en una nueva cultura digital, aunque sea con reservas.

Wikipedia, Twitter, Facebook y otras muchas son herramientas tienen como principal mérito permitir expresar colectivamente una inteligencia  que no encontraba los canales adecuados a través de los instrumentos existentes hasta la llegada de las herramientas 2.0.

Los resultados logrados por las comunidades de open source, otra expresión de inteligencia colectiva, dejan sin argumentos a los más críticos. Hoy cuestionan la metodología y el negocio de una empresa como Microsoft y alimentan la base estratégica de otras como Google. En las grandes empresas con una masa crítica de empleados y equipos de profesionales directivos altamente cualificados suele predominar un ambiente marcado frecuentemente por una competición correcta, pero también con un transfondo marcado por objetivos, bonus, promoción personal, poder e influencia… En estos entornos prevalece el lema “la información es poder“. Muchos conocimientos valiosos se guardan celosamente para explotarlos a conveniencia individual. En el nuevo Internet compartir información y conocimiento reporta ventajas a todos. Serás valorado (es equivalente a ser visible e incluso existir digitalmente hablando) y participarás en los mutuos beneficios en razón de la importancia y grado de implicación de tus aportaciones en una colectividad.

La inteligencia colectiva es una potente herramienta de transmisión del conocimiento, aún no debidamente aprovechado por las empresas, pero que comprendido y guiado, tiene una potencia de gestión de cambios y opiniones como  no ha existido anteriormente en el mundo del comercio.

Las redes sociales son estructuras sociales compuestas de grupos de personas, las cuales están conectadas por uno o varios tipos de relaciones, tales como amistad, parentesco, intereses comunes o que comparten conocimientos. Por otra parte, las redes son formas de interacción social, definida como un intercambio dinámico entre personas, grupos e instituciones en contextos de complejidad. Un sistema abierto y en construcción permanente que involucra a conjuntos que se identifican en las mismas necesidades y problemáticas y que se organizan para potenciar sus recursos.

En Internet, el concepto de comunidad es cada vez más importante para incrementar la precisión y la eficacia de los contenidos y su distribución. El contenido puede ser etiquetado, valorado y comentado para aumentar el conocimiento de la comunidad, al tiempo que cada usuario es productor de valor añadido a los contenidos al tiempo que permite a los miembros de una determinada comunidad personalizar la oferta y consumo de acuerdo con su perfil. En este contexto, las técnicas apuntadas en el apartado anterior “Tecnologías de microsegmentación de perfiles de usuario” son la base de los análisis previos al estudio de este tipo de interacciones y conocimiento, pero no son suficientes. Se necesita conocer la “situación conceptual” del usuario, es decir, su situación personal en el momento adecuado, incluyendo conceptos subjetivos de análisis, así como su opinión al respecto de los conceptos de interés a estudiar (productos ofertados, sensación con respecto a la entidad financiera, relevancia del sujeto con respecto a otros, e importancia de sus opiniones sobre la red).

Actualmente, se sabe que las preferencias de los usuarios cercanos a los círculos de preferencia de otros usuarios es más efectiva que cualquier campaña de marketing o de campaña, “el boca a boca” digital es una fuente imprescindible de contacto y persuasión, y que no es utilizada por el sector bancario en sus gestiones de acercamiento a sus clientes.

Figura 8. OpinionMining

 Para que este conocimiento distribuido por las redes sociales sea correctamente detectado y procesado, se necesita profundizar en las siguientes tecnologías o técnicas de procesado:

Social Network Analysis

Las denominadas «Redes Sociales» son las herramientas tecnológicas que permiten compartir y discutir los usuarios de la información. La mayoría de medios de comunicación social son aplicaciones basadas en Internet que manejan información textual, como los blogs (Blogger, WordPress), microblogging (Twitter, Pownce), wikis (Wikipedia), foros o redes sociales (Facebook, MySpace, LinkedIn). Pero también existen otros medios de comunicación social las aplicaciones de Internet donde los usuarios comparten más que el texto, como herramientas para compartir fotos (Flickr, Picasa), compartir vídeos (YouTube, Vimeo), livecasting (Ustream), o de audio y compartir música (last.fm, ccMixter , Freesound). Más recientes Medios de Comunicación Social incluye los mundos virtuales (Second Life), juegos en línea (World of Warcraft, Warhammer Online), el intercambio de juego (Miniclip.com) y Mobile Social Media como Nomad Redes Sociales donde los usuarios comparten su posición actual en el mundo real.

Los medios de comunicación social han sido capaces de cambiar la forma en que la información se crea y se consume. Al principio, la información se generó por una persona y  fue «consumida» por mucha gente, pero ahora la información es generada por muchas personas y consumida a su vez por muchas otras personas, modificando las necesidades de acceso a la información y la gestión.  Es también notable que los medios de comunicación social manejan grandes cantidades de datos sobre los usuarios: Facebook y MySpace pueden gestionar entre 100 y 150 millones de usuarios, se calcula que se generan 1 millón de entradas en blogs cada día, un microblogging como Twitter genera 3 millones de mensajes cada día, YouTube gestiona más de 150,000 millones de videos, etc).

En este contexto, los negocios digitales comienzan a integrar sus servicios de promoción, publicidad y venta en las redes sociales de un modo proactivo, en vez de dejar que sea el cliente potencial quién se acerque al portal específico, como seguían las pautas del comercio electrónico hasta hace pocos meses. Y aquí nos encontramos con el primer reto, lamedición de los impactos de las redes sociales sobre el mercado. Principalmente, porque se ha demostrado que esta medición no sólo debe ser analítica, sino que existe una variable poco cuantificable, que se ha venido a denominar «verdad del cliente» o «medición del sentimiento», que marca la tendencia de cómo los medios de comunicación tradicionales (online / offline), influyen (o son influidos por) las fuentes de medios de comunicación social – algo que ninguno de los proveedores de BI actuales ha tratado de solucionar. El fracaso de ciertas métricas como Buzzmetrics, Cymfony, Biz360 se ha debido principalmente a esta razón. Para explorar las posibilidades de negocio, estudios recientes están valorando lo que llaman «la voz de la comunidad social» sobre un tema determinado.[7] Si tenemos en cuenta que, segúnNielsen Online, el 67 por ciento de los internautas a nivel mundial usan redes sociales como Facebook, Twitter y  Linkedin, ya sea con fines personales o profesionales, podemos darnos cuenta del importante volumen de información sobre clientes y  usuarios potenciales que estas redes atesoran. Un usuario que tenga su perfil configurado como “público” en cualquiera de estas redes, estará permitiendo explícitamente que sus contactos, sus datos personales e incluso sus conversaciones en la red estén a disposición de cualquier empresa interesada en ello.

Como resultado, está surgiendo una nueva tendencia denominada SNA (Social Network Analysis), cuya función es la de analizar, mapear, comprender y medir las intenciones e interacciones de las personas a través de las Redes Sociales, dando respuesta a preguntas como ¿Quiénes son las personas clave en una red? ¿Qué están diciendo? ¿Qué nivel de correlación existe entre ellos? ¿Qué están buscando? ¿Qué dicen acerca de mí? 

Y para ello, se utilizan herramientas como:

Opinion Mining (Sentimental Analisys)

En el estado de arte actual, se ha implantado con éxito sistema de “Opinion Mining” o “Sentimental Analisys”, que son técnicas de anotación de lenguaje natural sobre una ontología muy sencilla, que devuelve, en base a dichas anotaciones y procesos de extracción, una ponderación sobre lo “buenas” o “malas”  que son dichas informaciones sobre nuestro producto, empresa o concepto a estudiar.

Según un informe del Economist Intelligence Unit, realizado en colaboración con SAS, el líder en business analytics, reveló que el auge de las redes sociales ha requerido que las compañías reevalúen la forma de determinar el valor del cliente, lo que llevará a replantear las estrategias de fidelización de clientes. Las mediciones de valor del cliente que se centran solo en la actividad de transacción capturan sólo una fracción del comportamiento individual y valor potencial. El informe también identifica una clara necesidad de tecnología para ayudar a las organizaciones a optimizar los esfuerzos en redes sociales.

Este crecimiento ha puesto al cliente en una posición más fuerte. Cualquiera puede tener voz y todos esperan respuestas «humanas» casi en tiempo real. Las organizaciones que están operando sin métricas mejoradas del valor del cliente están contratando personal para monitorizar y responder virtualmente a todo, lo que dificulta escalar, no sólo por los volúmenes totales de actividad, sino también por el riesgo de tener respuestas inconsistentes o personal que no está entrenado en el arte de mitigar los riesgos. Los responsables de marketing reconocen que tratadas correctamente, estas interacciones pueden hacer crecer el negocio, volviéndose críticas a la hora de defender y mejorar tanto la experiencia del cliente como la relevancia.

Sin embargo, es una aproximación, pero insuficiente, si lo que queremos realmente es, no sólo extraer la percepción de qué es lo que se está opinando, sino enlazar dicha percepción con sectores segmentados de clientes, analizar cómo dicha información va influyendo en las acciones de otros usuarios relacionados en la red, cómo dicha percepción enlaza con otra opiniones en círculos de perfiles cercanos, y lo más importante, como potenciar o minimizar el impacto de la misma, en entornos en tiempo real y con un volumen de información intratable por medios manuales.

Para ello, es necesario tener un conocimiento de las conexiones entre los consumidores on-line, y el flujo de información y su red de contactos.

Sistemas de recomendación basados en confianza.

El paradigma de antecederse a los deseos de un usuario, implica, por una parte, tener descrita internamente en los sistemas de forma detallada las preferencias del mismo (microsegmentación), y por otra, conocer sus situación contextual en el momento preciso.  Pero también es importante conocer qué es lo que otros usuarios, en situaciones similares, han demandado de forma positiva, para poder sugerir respuestas más amplias que no se circunscriban solamente al conocimiento particular.

La modelización de los comportamientos de uso y predicción de consumos en base a perfiles y segmentación similar, está, en el estado del arte, solucionada históricamente por algoritmos como la Correlación de Pearson o “Slope One”, pero usualmente, son estáticos, muy centrados en métodos basados en artículos de recursos valorados, y no tanto en los perfiles de usuarios, y que, por lo tanto, no se actualizan correctamente con los intereses de los usuarios. La utilización de algoritmos de recomendación en base a la información que ofertan las redes sociales está generando los denominados “sistemas basados en confianza”, con base en la primeras metodologías basados en ontologías, como el diseñado por Wang y Kong (2007) es un sistema de recomendación personalizado que intenta paliar los problemas de los sistemas de recomendación colaborativos usando, en forma de ontología, la información semántica de las características categóricas de un ítem. La similaridad por pares de usuario se calcula con el método de la media ponderada de tres medidas de similaridad: la similaridad del histórico de evaluaciones de dos usuarios (utilizando el coeficiente de correlación de Pearson sobre información de utilización del sistema en forma de matriz de datos de evaluación usuario-ítem); la similaridad de datos demográficos de dichos usuarios (calculada vía media ponderada); y, la similaridad del interés o preferencia de dichos usuarios basada en las similaridades semánticas de los ítems recuperados y/o evaluados. Al mismo tiempo, el sistema incorpora un mecanismo de cluster de usuarios offline para paliar el problema de la escalabilidad.

Khosravi, Farsani y Nematbakhsh (2006) sugieren una metodología para recomendaciones personalizadas en el contexto del comercio electrónico. Se trata de un procedimiento para recomendar productos a clientes potenciales. El algoritmo propuesto se basa en el modelado de información sobre productos y usuarios con OWL (Ontology Web Language). El proceso se inicia con la clasificación de productos y consumidores mediante OWL, lo que facilitará el análisis de la similaridad producto-cliente. En una segunda fase se seleccionan consumidores activos, teniendo en cuenta recomendaciones anteriores (el sistema no recomienda a un cliente si el número de sus recomendaciones anteriores no sobrepasa un cierto umbral). La clasificación de productos y clientes es utilizada para crear una matriz de evaluaciones productos-clientes. El algoritmo recomienda alguno de los productos de cada clase de entre las clases de productos basándose en el número de evaluaciones en la matriz.

Otro modelo que se aplica en el ámbito del comercio electrónico es el que presenta Ziegler, Lausen y Schmidt-Thieme (2004). El sistema se basa en el paradigma de recomendación colaborativa a través de contenido (Pazzani, 1999) y utiliza una taxonomía de productos a partir de la cual se definen los perfiles de los usuarios (sin necesidad de que estos proporcionen sus valoraciones de forma explícita). El perfil del usuario activo es utilizado para descubrir usuarios con intereses similares, cuyas valoraciones sirven al sistema para generar las recomendaciones.

Una aproximación original es la propuesta de Cantador y Castells (2006) para desarrollar un modelo de red social semántica multicapa que permite definir el sistema desde diferentes perspectivas a partir de los intereses comunes que comparten los integrantes de la  red. A partir de una serie de perfiles de usuario generados utilizando una ontología de conceptos, y teniendo en cuenta sus preferencias comunes, el sistema es capaz de acotar los diferentes grupos de conceptos del dominio. A partir de estos grupos es posible identificar conjuntos de usuarios con intereses similares que se interrelacionan entre sí en diferentes niveles semánticos (de acuerdo a sus preferencias). Esta metodología permite descubrir redes sociales implícitas que pueden ser aprovechadas para definir tanto sistemas de recomendación basados en contenido, como colaborativos.

El uso de ontologías en este tipo de sistemas permite paliar determinados problemas, entre los que se incluyen los siguientes:

  • Garantizan la interoperabilidad de los recursos del sistema y la homogeneidad de la representación de la información.
  • Permiten contextualizar de forma dinámica las preferencias de los usuarios en un dominio específico.
  • Facilitan el trabajo en redes sociales y el filtrado colaborativo.
  • Mejoran los procesos de comunicación entre agentes, y entre agentes y usuarios
  • Permiten paliar el problema de “arranque en frío” al poder completar la información incompleta mediante inferencias.
  • Posibilitan extender semánticamente las descripciones de los factores contextuales en que se encuentra el usuario.
  • Mejoran la representación y descripción de los diferentes elementos del sistema.
  • Mejoran la descripción de la lógica del sistema al admitir la inclusión de conjuntos de reglas.
  • Proporcionan los medios necesarios para generar descripciones enriquecidas de servicios web y facilitar así a los agentes software su descubrimiento.

La propuesta de Ibermática en este sentido, como línea futura más sólida, es la dirigida al desarrollo de sistemas mixtos,que utilicen herramientas participantes en el desarrollo del proyecto Web Semántica, junto a filtros adicionales, como los basados en redes de confianza (que asegura la fiabilidad de los resultados del proceso) y los que emplean información contextual (que permiten incrementar la precisión del filtrado).

Análisis de topologías en redes sociales.

El Análisis de redes sociales ha pasado de ser una metáfora sugerente para constituirse en un enfoque analítico y un paradigma, con sus principios teóricos, métodos y líneas de investigación propios. Los analistas estudian la influencia del todo en las partes y viceversa, el efecto producido por la acción selectiva de los individuos en la red; desde la estructura hasta la relación y el individuo, desde el comportamiento hasta la actitud. Como se ha dicho estos análisis se realizan bien en redes completas, donde los lazos son las relaciones específicas en un población definida, o bien en redes personales (también conocidas como redes egocéntricas, aunque no son exactamente equiparables), donde se estudian «comunidades personales». La distinción entre redes totales/completas y redes personales/egocéntricas depende mucho más de la capacidad del analista para recopilar los datos y la información. La forma de una red social ayuda a determinar la utilidad de la red para sus individuos. Las redes más pequeñas y más estrictas, pueden ser menos útiles para sus miembros que las redes con una gran cantidad de conexiones sueltas (vínculo débil) con personas fuera de la red principal. Las redes más abiertas, con muchos vínculos y relaciones sociales débiles, tienen más probabilidades de presentar nuevas ideas y oportunidades a sus miembros que las redes cerradas con muchos lazos redundantes. En otras palabras, un grupo de amigos que sólo hacen cosas unos con otros ya comparten los mismos conocimientos y oportunidades. Un grupo de individuos con conexiones a otros mundos sociales es probable que tengan acceso a una gama más amplia de información. Es mejor para el éxito individual tener conexiones con una variedad de redes en lugar de muchas conexiones en una sola red. Del mismo modo, los individuos pueden ejercer influencia o actuar como intermediadores en sus redes sociales, de puente entre dos redes que no están directamente relacionadas (conocido como llenar huecos estructurales).

La topología de una red social, sus puntos de interés “centroides”, la evolución de la misma y la distribución entre sus enlaces de la información, así como la segmentación de la misma en dianas objetivos de interés para conocer su funcionamiento, incorpora un conocimiento adicional y valioso a la segmentación de clientes típica en estudios de personalización, que aporta un modelo innovador al conjunto del modelado en la microsegmentación.

Una premisa básica detrás del estudio de grandes redes es que la interacción conduce a un comportamiento colectivo complejo.. En trabajos recientes se han encontrado patrones muy interesantes y contradictorios para las redes en tiempo real que cambian algunos de los supuestos básicos que se habían dado por supuestos en el pasado.[8]

Un importante punto a desarrollar es la generación de modelos que expliquen los sucesos que gobiernan la evolución de los comportamientos en las redes sociales, de forma que nos puedan ayudar a descubrir puntos anómalos y valores extremos en la misma, como complemento a la microsegmentación de clientes.

Otro aspecto importante es el estudio de «local» de patrones y estructuras de propagación en redes. Es importante identificar los bloques de construcción de las redes y encontrar los patrones de influencia que estos bloques tienen en la información o la propagación de comportamientos en la red. Existen estudios académicos que demuestran la gran influencia de la propagación de recomendaciones de productos en la red y sus efectos en compras posteriores.

                              Figura 9. Segmentación en redes sociales.

Las conversaciones sociales son desordenadas y desestructuradas. Calcular la influencia basada en cuántos seguidores en Twitter tiene alguien, o amigos en Facebook o re-tweets es sólo  el comienzo. Lo realmente importante es entender cuánta gente actúa basándose en una recomendación u opinión negativa de un cliente. Entender el alcance social de una persona combinado con su propensión a compartir reflexiones se convierte en el método para extrapolar el valor y ayudar a actualizar las reglas de segmentación y adaptar el tratamiento de la estrategia.

La representación de los aspectos en las redes como sus propiedades macroscópicas sobre los datos, su estructura y los modelos estadísticos que las conforman, y sobre todo, la evolución de las mismas en base a la información que transmiten ha sido estudiada ampliamente, (Wayne Zachary), utilizando técnicas de clusterización avanzadas (), los algoritmos de Girvan-Newman, o el producto de Kronecker.

En la denominada sociedad en red, termino profusamente difundido y descrito por Manuel Castells,  cualquier nodo de la misma es tan capaz como cualquier otro de transmitir un mensaje y, como señala el sociólogo Paul Pierre Levy, “nadie sabe todo. Todos sabemos algo, todo el conocimiento reside en las redes”. En definitiva, en dicha sociedad en red el conocimiento se genera de forma colectiva. Así, George Pór definió el fenómeno de la inteligencia colectiva como la capacidad de las comunidades humanas de evolucionar hacia un orden de una complejidad y armonía mayor, tanto por medio de mecanismos de innovación como de diferenciación e integración, competencia y colaboración. Las redes sociales como Twitter, Facebook, Tagzania y otras muchas permiten generar y compartir información, que afecta directamente a sus decisiones, lo que es de vital importancia para las entidades financieras, a la hora de comprender, explicar, predecir y segmentar a sus clientes con el objetivo de personalizar su oferta al mayor ajuste posible.

Por lo tanto,  una vez conocida y modelada la estructura de la red, es más sencillo predecir que relaciones serán positivas o negativas a nuestros intereses dentro de la segmentación realizada a la misma, y cómo fluye la información dentro de las mismas, en base a las técnicas utilizadas en la microsegmentación del cliente.[9]

 

                Figura 10. Minería de Datos aplicada a redes sociales.

Interfaces para visualización de la información

El volumen de información manejada por los sistemas de gestión ha experimentado un crecimiento exponencial sin precedentes. Para la ejecución de determinadas tareas la cantidad de información a utilizar es cada vez mayor, sobre todo si estas tareas están relacionadas con el análisis de información. Este proceso requiere grandes cantidades de datos y lo reduce en imágenes más fáciles de interpretar. En lugar de conjuntos de voluminosos de los números, una imagen de color cuenta la historia con mayor claridad. Diferentes colores, texturas y relieve se utilizan en combinación con distintos niveles de dimensionalidad y en algunos casos de animación. Sin embargo, si se tienen más de cuatro variables, algunos creen que no es fácil de leer.

Actualmente están surgiendo empresas especializadas en la vigilancia de medios de comunicación social, cuyo objetivo es capturar y recolectar la información de los usuarios de las redes sociales, desarrollando posteriormente los llamados “grafos sociales” que sintetizan toda esa información. Este es el caso de Rapleaf, una empresa estadounidense que construye “gráficos sociales” que, además de información personal de los usuarios, muestran sus patrones de comportamiento (gustos, tendencias, opinión sobre productos, páginas Web visitadas, comentarios en blogs, etc), o la consolidación cada vez mayor de un nuevo rol en las empresas denominado «comunity manager», encargado de cuantificar e incluso «guiar» la «conciencia» de los usuarios de las redes sobre un determinado interés empresarial.

Con la explosión en el uso de Facebook, Twitter y blogs – de TripAdvisor, Yelp, y FlyerTalk, y de los medios de comunicación en línea y de correo electrónico, mensajería instantánea, y las encuestas, estos estudios son esenciales para conocer la verdadera voz del cliente y, por ende, del mercado. Sin embargo, revisar el torrente de información es imposible con los métodos clásicos de bases de datos o datawarehouse. La capacidad para superar a la competencia – en satisfacción del cliente y el apoyo, la marca y gestión de la reputación, los servicios financieros, diseño de producto y comercialización, y una variedad de otros procesos de negocio – depende de un análisis automatizado de los sentimientos, “Opinion Mining”, del estado de ánimo y de la opinión. Y es aquí dónde se están empezando a dar los primeros pasos en la unión de arquitecturas de análisis automático de datos (Minería de datos, minería web, minería de textos), y las redes sociales. Tanto es así, que el pasado noviembre del 2009 se celebró en Sevilla el «1st International Workshop on Mining Social Media», y  que en abril del 2010 se celebrará el primer simposium de «análisis de sentimiento», en Nueva York. Está unión se observa también en el informe estratégico de Gartner en 2010, en dónde coloca en segundo lugar a la disciplina de «Advanced Analytics», en relación a la optimización y simulación usando herramientas analíticas (minería de datos), para predecir resultados, y en sector lugar a la disciplina «Social computing», en dónde se prevé que las empresas focalicen sus esfuerzos en el uso de las redes sociales.

Sin embargo, los sistemas actuales estadísticos y de gestión de modelos matemáticos y extracción de conocimiento como el que queremos implementar, obtienen unos gráficos de tendencias, clasificación, regresión, normalización y evaluación (tipo curvas ROC, histogramas, etc.), de muy difícil compresión para un usuario que no esté familiarizado con estas técnicas.

Figura 11Representación visual de comportamientos y perfiles sobre redes sociales.

Siguiendo el esquema propuesto por Lin (1997), podemos diferenciar entre los siguientes tipos de metáforas visuales, fiel reflejo de la propia estructura de los datos: jerárquicas, de redes, de dispersión y mapas, y que puedan servir para mostrar las segmentaciones aplicadas a redes sociales:

  • Representaciones jerárquicas: Este tipo de representación visual – donde los elementos se presentan en diferentes niveles, ramas o agrupaciones, que descienden de un nodo raíz – es la más común cuando la propia naturaleza del conjunto de datos a visualizar es jerárquica, como por ejemplo en la visualización de estructuras complejas de un producto, una estructura de directorios, etc. En el caso de la visualización de estructuras de datos multidimensionales, donde no están definidas de forma explícita
  • Representaciones de redes: Las representaciones de redes son aquellas donde los diferentes elementos – proveedores de una cadena de suministro, documentos, términos, etc.– son presentados en forma de nodos o vértices, mientras que la estructura semántica se encuentra definida por los enlaces o arcos que conectan dichos nodos. En este tipo de representaciones, es necesario el empleo de alguna técnica de ‘poda’ o reducción de enlaces con el fin de que el grafo resultante sea comprensible y por tanto útil para la visualización, sin perder ni distorsionar en la medida de lo posible la      realidad estructural de la red.
  • Representaciones de dispersión: Una forma alternativa de representar visualmente estructuras de datos multidimensionales es en forma de nubes de puntos o nubes de dispersión. Estos puntos – que visualmente no tienen por qué tener dicha forma, ya que podrían ser presentados como iconos o como rótulos de texto – estarían distribuidos en un espacio visual bidimensional o tridimensional, y distanciados unos de otros en función de las disimilaridades o distancias originales especificadas en la matriz de similitud. Para poder presentar estas distancias en dimensiones comprensibles para el ser humano, es necesaria la utilización de técnicas de reducción de la dimensión. Este es el caso de la técnica de estadística multivariante denominada Escalamiento Multidimensional o MDS (Multidimensional Scaling).
  • Mapas: Las representaciones visuales basadas en mapas se fundamentan en la idea de utilizar la metáfora de mapa geográfico para la visualización de espacios de información. Por lo general, el objetivo de la utilización de cualquier tipo de metáfora visual en el diseño de interfaces es hacer visible para el usuario la estructura y relaciones en un conjunto determinado datos. Por tanto, la idea de utilizar estas metáforas para la visualización de espacios de información complejos y abstractos parece tener bastante sentido, ya que brindan una visión diferente del conjunto que en la mayoría de los casos enriquecerá la imagen mental previa que el usuario tenga de él. De entre todas las técnicas posibles para generar este tipo de mapas, resaltamos el modelo de mapas auto-organizativos o SOM (Self-Organizing Map) (Kohonen 1989) – aplicación de las Redes Neuronales Artificiales (RNA) para la organización y clasificación automática de información.

Es  necesario el desarrollo de un nuevo tipo de visualización que aúne la segmentación, la evolución, la multivarianza y el concepto temporal aplicado a las relaciones sociales y los objetivos demandados por las empresas, y que sea de fácil compresión.

Agentes virtuales en Redes Sociales (Agentes Sociales automáticos).

La prestigiosa consultora internacional Gartner Inc. ha revelado sus principales predicciones para las organizaciones y usuarios de TI (información tecnológica) hacia el 2011 y más allá. Gartner ha señalado, basándose en sus investigaciones, que para el año 2015 el 10% de las “conversaciones” en redes sociales serán realizadas por agentes inteligentes.

Hasta el momento muchas organizaciones han establecido una presencia en Internet, proyectado sus mensajes a través de las redes sociales como Twitter Facebook. Esta estrategia en los medios sociales implica varios pasos: el establecimiento de una presencia, escuchar la conversación, interactuar en un doble sentido, lograr un compromiso.

Aunque actualmente las empresas contratan a personas para promover sus marcas, para mediados de esta década se predice que estas interacciones sociales se realizarán de forma automatizada. Las predicciones de Gartner señalan que los usuarios podrían llegar a tener entre sus contactos un 10% de “amigos” robots.

Para el año 2015, los esfuerzos para sistematizar y automatizar el compromiso social se traducirá en el aumento de los robots sociales – agentes automatizados de software que puede manejar, en diversos grados, la interacción con las comunidades de usuarios de manera personalizada a cada individuo.

 

                      Figura 12Agentes Inteligentes en la Red.

El primer agente inteligente, denominado «Eliza», sentó las bases de las programaciones más complejas que se implementan hoy en día. Eliza era un programa de texto escrito en 1966 por Joseph Weizenbaum, un experto en IA de la MIT. La intención de Weizenbaum era parodiar a un psicoterapeuta transformando las afirmaciones en preguntas, algo que Eliza hacía con facilidad. Los patrones de respuesta eran obvios, y aún hoy es fácil distinguir un bot después de un momento. La tecnología ha avanzado mucho, y en lo que refiere a inteligencia artificial, podemos encontrar cosas como Façade, que son realmente aceptables.

MyCyberTwin es una iniciativa de una compañía llamada RelevanceNow (en Sydney, Australia) y es un servicio que toma las bases de Eliza, permitiéndote configurar tu propia personalidad en el programa. Difícilmente alguien pueda creerse que eres tú y no un robot, pero no deja de ser muy práctico para establecer conversaciones individuales con tus intereses. La forma en que se desarrolla el gemelo cibernético es bastante decente, y no tendríamos problema en confiarle nuestro espacio en línea en el Messenger mientras nos vamos de paseo o leemos un libro. Cualquier persona que hable con tu ciber-gemelo podrá aprender mucho de ti a través de una conversación extensa (siempre y cuando lo configures exhaustivamente). El concepto, sin embargo, sólo llega hasta cierto punto, ya que carece de verdadera inteligencia propia, y debe recurrir a típicos trucos conversacionales si no le has dado una respuesta para una pregunta específica. De todas formas, MyCyberTwin te ofrece una gran ayuda en la configuración, con herramientas orientadas a la mejor personalización de tu gemelo. Con tests de personalidad y variedades de preguntas, se puede configurar un amplio rango de tópicos y conversación.

Sin embargo, la idea de este proyecto es poder gestionar un agente social, que introduzca «ruido» en los foros y ámbitos que seleccionemos, y, que, en base a un perfil definido (como en el caso de MyCyberTwin), pero añadiéndole unos patrones de comportamiento basados en las experiencias de actuación de los «comunity managers», es decir, un aprendizaje automático no supervisado, sea capaz de actuar por sí solo.

Los agentes que interactúan en un entorno de software son los llamados softbots (software robots), o knowbots y se definen como agentes inteligentes o asistentes personales electrónicos, también son considerados como robots que habitan en el ciberespacio. Y es en Internet donde los agentes parecen tener mayor oportunidad de éxito al permitir automatizar la búsqueda de un producto en las mejores condiciones de venta a través de múltiples vendedores simultáneamente. Lo cual permitiría reducir la búsqueda por parte de los compradores a través de numerosas tiendas en línea y ofrecerle un conjunto de variadas ofertas que sean eficientes económicamente. Por otra parte los agentes realizan comparaciones en línea de forma mas eficiente que las efectuadas convencionalmente, y favorecen la competencia entre empresas productoras. Otra aplicación es sugerirle al cliente productos basados en la preferencia de otros clientes con gustos similares. También tenemos los agentes intermediarios, los cuales debido a la fragmentación del mercado y la diversidad de proveedores, es posible dividirlos en una serie de componentes para que los intermediarios se ocupen de uno de esos componentes e insertares entre los compradores y vendedores. Estos sistemas implementan un o varias de las etapas siguientes:

1. Identificación de las necesidades del comprador.

2. Elección del producto a comprar.

3. Elección del vendedor donde se realizara la compra.

4. Negociación

5. Compra y envío.

6. Uso y evaluación del producto adquirido.

Para su mejor comprensión los agentes se clasifican, funcionalmente, en:

1. Agentes de recomendación. 

Tienen como misión realizar recomendaciones a los usuarios de productos que podrían interesarles, basándose en su perfil y en el conocimiento del contexto del negocio. Ejemplo: FireFly. Agentes de compra comparativa: su objetivo es encontrar al comerciante que ofrece las mejores condiciones de compra de un producto deseado por el usuario. Ejemplo: Bargain Finder.

2. Agentes de compra comparativa

Los agentes de compras son capaces de hacer comparaciones y encontrar el mejor precio para un artículo. Los vendedores al por menor pueden protegerse a ellos mismos de este tipo de competición dando a sus productos nombres únicos o bloqueando el acceso a los agentes de búsqueda (como está sucediendo a la  gente Bargain Finder). Actualmente, el agente comprobador mejor conocido en Internet es el agente Bargain Finder de Andersen Consuling. Este agente hace comparaciones de los precios de venta para discos compactos (CDs). El Bargain Finder exhibe algunas características de un agente inteligente en el que un número de diferentes partes están envueltas, la operación es remota y la información es difícil de encontrar. Los factores principales que pesan contra la clasificación de la Bargain Finder como un verdadero agente inteligente es que solamente su manejo es un problema de una sola dimensión, a saber, comparando precios para un único producto. No tiene que negociar o deshacerse de nada, así que la «inteligencia» requerida es mínima. La parte inteligente está siendo capaz de hablarles a diferentes vendedores de CD. Bargain Finder, se ha representado en el ciberespacio como una esfera amarilla con casco de minero y se dedica a buscar discos compactos baratos en Internet. Su misión se ve obstaculizada cuando el vendedor de un disco descubre que está negociando con un agente virtual, en lugar de un ser humano. ShopBot realiza la misma función, pero aprende de sus errores, para que los vendedores no descubran que es una criatura artificial. Good Shuff Cheap. Con el cual pretenden ofrecer un agente inteligente sin embargo, está restringido a su propia tienda (operación local), y es un poco mas que un motor de búsqueda el cual puede enviar autónomamente correo electrónico.

3. Agentes notificadores

Son los encargados de notificar a sus usuarios la aparición o detección de productos acordes a sus preferencias o necesidades. Ejemplo: Jango.

4. Agentes observadores

Son los que se dedican a observar la información relevante a un usuario para luego notificársela. Ejemplo FishWrap.

5. Agentes de negociación

Pretenden trasladar al mercado electrónico los procesos de negociación que se producen normalmente a la hora de realizar una transacción comercial. Para la cual existen agentes compradores y vendedores que colaboran para llegar a algún acuerdo en a las condiciones de adquisición de un producto. Ejemplo: Kasbah. Kasbah es un sistema basado en la web, a través del cual los usuarios pueden crear agentes autónomos para comprar y vender productos. El cual ha sido diseñado para ayudar a los usuarios en la búsqueda y elección del producto que mejor satisfaga sus necesidades. Así como la posterior negociación entre comprador y vendedor con el fin de obtener el mejor precio posible. El prototipo Kasbah incluye agentes vendedores, agentes compradores y un mercado virtual. Ha sido implementado en CLOS. Tanto los agentes vendedores o compradores que se generan funcionan de forma autónoma y una vez liberados en el mercado tienen capacidad para negociar y tomar decisiones por si mismo, sin intervención del usuario.

El efecto ‘aprender’ es ayudado a ser incrementado por la exactitud de las predicciones. Sin embargo este es conseguido por el usuario ingresando mas información sobre él mismo/ella misma. La predicción está basada sobre correlaciones con lo que otra gente dice, lo que ellos disfrutan escuchando, y aquí entra la inteligencia artificial. Cuando un nuevo actor es añadido al sistema, este no será incluido en las recomendaciones hasta que otra gente haya provisto información sobre él. Yahoo usa la tecnología FireFly para personalizar su generador de listas “top” de música y películas. Otros agentes tales como el Similarities Engine y el WebHunter funcionan de una manera similar. Otra clase de agentes, los cuales ayudan a tener la capacidad de aprender incluye aplicaciones de computadora las cuales automatizan tareas repetitivas. Como el volumen de mensajes electrónicos incrementa, hay un gran potencial de mercado para agentes inteligentes los cuales ayudan a los usuarios a manejar esa información. NewsWeeder usa técnicas de aprendizaje para encontrar interesantes páginas de web y artículos Usenet. Similarmente, esta aplicación depende de lo que los usuarios digan que encuentren interesante. Muchos pueden encontrar esto molesto. Tal vez un método más útil de encontrar si un artículo es interesante puede ser más efectivo.

A nivel tecnológico existen agentes que toman las decisiones basándose en la deducción lógica y son llamados agentes deliberativos. Las arquitecturas deliberativas siguen la corriente de la IA simbólica, que se basa en la hipótesis enunciada por Newell y Simons, según la cual un sistema de símbolos físicos capaz de manipular estructuras simbólicas puede exhibir una conducta inteligente. Para ello es necesario describir los objetivos y medios de satisfacerlo, y como realizar la traducción del nivel de conocimiento al nivel simbólico. Y suelen basarse en la teoría clásica de los sistemas de producción: dado un estado inicial, un conjunto de operadores y un estado objetivo; la deliberación del agente consiste en determinar que camino o pasos debe encadenar para lograr su objetivo, siguiendo un enfoque descendente (del objetivo a los hechos). Un ejemplo de planificador de este tipo son los Softbots, cuya misión es ayudar a los usuarios a realizar las tareas típicas de UNIX.

Otro tipo de agentes son los denominados BDI (BeliefDesireIntention): son agentes cuya decisión esta basada en creencias, deseos e intenciones. En realidad son sistemas de planificación que incluyen creencias e intenciones en sus planes. Y se basan en el razonamiento práctico de decidir en cada momento la acción a realizar para facilitar la consecución de los objetivos y requieren dos procesos:

• Decidir que objetivos perseguir (deliberación).

• Decidir como alcanzar dichos objetivos (razonamiento basado en medios y fines).

Aunque estos sistemas suelen utilizar la planificación para determinar que acciones deben llevar a cabo pero, a diferencia de los agentes planificadores emplean planes en que se comprueban creencias, deseos e intenciones. Donde las creencias son el conocimiento que el agente tiene sobre si mismo y su entorno. Los deseos son objetivos que el agente desea cumplir a largo plazo. Como normalmente no puede cumplir todos los objetivos a la vez, ya tiene unos recursos limitados, se introducen las intenciones que son los objetivos que en cada momento intenta cumplir el agente. También se introduce el concepto de planes, que permite definir las intenciones como los planes que un agente esta realizando en un momento dado.

Las intenciones del agente juegan papel importante en el razonamiento práctico.

• Conducen el razonamiento basado en medios y fines.

• Restringen las deliberaciones futuras.

• Persisten.

• Influencian las creencias sobre las que se basara el futuro razonamiento proactivo.

Cada cierto tiempo el agente deberá replantearse sus intenciones abandonando aquellas que considera que no va a alcanzar, aquellas que ya ha alcanzado y aquellas cuya justificación ha desaparecido. En las arquitecturas BDI hay encontrar un equilibrio entre un comportamiento dirigido por objetivos, donde el agente, a menudo, no considera suficientemente sus intenciones, o uno dirigido por evento (reactivo) en el cual continuamente esta continuamente reconsiderando sus intenciones por lo que le dedica poco tiempo a la consecución de las acciones.

Los agentes sociales pueden clasificarse en dos grande grupos: agentes intencionales, cuya arquitectura ha sido aumentada para abordar el razonamiento sobre otros agentes y agentes cooperativos (cuando, como y con quien cooperar), sin modelar necesariamente las intenciones de los agentes. La toma de decisiones del agente (función acción) se realiza mediante un conjunto de módulos de comportamiento que realizan tareas. Un modulo de comportamiento suele implementarse como un autómata finito sin ningún tipo de representación o razonamiento simbólico. Casi siempre el comportamiento se implementa como reglas del tipo: Si <situación> entonces <acción>, que recuerdan básicamente, al funcionamiento de los sistemas expertos actuales, pero en donde la situación se toma directamente de la percepción, sin ningún tipo de transformación a representación simbólica. La selección del comportamiento se basa en la jerarquía de subfunciones. Los comportamientos están ordenados por capas y los de las capas mas bajas (máxima prioridad) inhiben a los de las capas superiores (comportamiento más abstracto).

Figura 13Estructura de sistema de recomendación basado en Agentes..

OpenGov y la tecnología subyacente (LinkedData).

En paralelo a las redes sociales, y como plataforma abierta de opinión, está tomando cada vez más fuerza en los países europeos, y consolidado en la países anglosajones, el nuevo paradigma de OpenGov.

Open Government se refiere hoy al uso de tecnología para fomentar la transparencia, la participación y colaboración con los grupos de interés de las administraciones públicas y los gobiernos. Aunque la expresión tiene raíces en el Siglo de las Luces y posteriormente en una declaración de Lincoln en 1863[10], El Presidente Obama  le dio un nuevo impulso a través de su Memorandum on Transparency and Open Government (2009). Para Obama, Open Government debe conducir hacia una administración pública (AAPP) y gobierno más eficiente y efectivo. De alguna manera se trata de reinventar la gestión pública y el gobierno[11].

 

 Figura 14Eras de la Web y su relación con las Administraciones Públicas

La Tercera Era de la Red tiene que ver con las aplicaciones social media y la aparición de la web semántica. Estas tecnologías facilitan por un lado, la transparencia, la participación y la colaboración de distintos grupos de interés en la modelización de políticas públicas. Por otro, promueven también la transparencia y la productividad a través de la liberación de datos públicos (Open Data) y la generación de aplicaciones para su uso.

Open Government no es una línea de trabajo sustitutiva de eGovernment o e-Administración. Es complementaria. ¿Cuál es la diferencia entre ambas? Básicamente, eGovernment trata de digitalizar procesos para hacerlos más eficientes y efectivos. Open Government trata de fomentar la transparencia, la colaboración y la participación con distintos grupos de interés mediante tecnologías linked data y social media principalmente. Pero, ¿qué, para qué y cómo?

Qué y para quéGov2.0 se refiere al uso de social media en la AA.PP. y los gobiernos  para fomentar la transparencia, la participación y la colaboración. Permite obtener resultados en términos de productividad, innovación y reputación/ fidelización.

CómoSe hace a través de tecnología social media más una estructura de gestión, es decir, liderazgo, estrategias sociales, tácticas comunitarias, métricas, roles, políticas de reconocimiento, procesos y guías de actuación y prácticas de institucionaización.

 

                    Figura 15Estructura funcional de Gov2.0

En Gov2.0 existen tres tipos posibles de vinculación comunitaria: con empleados, con grupos de interés externos (ciudadanos, empresas, proveedores) y con la web social (redes sociales externas).  La tecnología social media, paquetizada como una plataforma corporativa que denominamos ESSP, Emergent Social Software Platform[12], permite gestionar los tres tipos de vinculación. Este entorno tecnológico, de muy fácil uso e intuitivo, no sometido a jerarquías en las contribuciones,  dispone de funcionalidades sociales 2.0 como se muestra en la figura 15.

La clave es la Gestión del Conocimiento. Hay muchas definiciones de gestión del conocimiento. En Ibermática estamos alineados con la definición que proporciona el modelo específico EFQM para gestión del conocimiento[13]todas las actividades para gestionar un entorno en el que se invita y facilita a las personas a aportar, desarrollar, compartir, combinar y consolidar conocimiento clave para conseguir sus objetivos individuales y colectivos . Aunque esta definición es previa a la generalización del social media, es fácil intuir que la gestión del conocimiento hoy puede apoyarse en un entorno ESSP.

Las cuatro actividades que constituyen la espiral de la gestión del conocimiento, que definió Ikujiro Nonaka[14], uno de los padres de la disciplina, pueden realizarse en un ESSP de forma más efectiva y eficiente. Estos cuatro patrones son: compartir el conocimiento tácito, articularlo, estandarizarlo e interiorizarlo en base a la difusión interna.

Pero para articular y estandarizar el conocimiento, se necesita algo básico, pero muy complicado de llevar a la práctica: que tanto las Administraciones, como los ciudadanos que comparten la información hablen el mismo idioma, con el mismo vocabulario y que el acceso a la información se realice de una forma sencilla, integrada y accesible… Pero claro, no podemos pretender que los ciudadanos sean expertos tecnólogos, sino que el sistema subyacente debe ser lo suficientemente flexible para contener cualquier tipo de información, en cualquier contexto, y que dicha información, sea transformable y estructurable sin demasiado esfuerzo, y de forma procedimentada en unas reglas básicas que todo el mundo entienda, y se acoja a ellas.

                        Figura 16. Gestión del Conocimiento

Es decir, que, por ejemplo, las Administraciones publiquen datos sobre tráfico, turismo o estadística, no serviría que las publicasen en formato texto, pdf o incluso excel, pues el proceso de recoger esa información, comprenderla, transformarla, estructurarla y reutilizarla no compensaría el esfuerzo ni fomenta la transparencia.  Sin embargo, si dichas fuentes estuvieran ya publicadas en un formato que todo el mundo (incluidos sistemas automáticos de tratamiento de información u agentes), “leyesen” dicha información de forma natural, el impacto que dicha información tendría sobre el conocimiento comunitario sería inmediato.

Y para dar solución a este problema, surge el paradigma de LinkedData, es decir, un estándar de transmisión de conocimiento.

LinkedData es la infraestructura técnica candidata a ser el facilitador de todo el proceso de publicación y participación asociado al gobierno abierto, pues permite una adaptación a una gran demanda potencial de servicios y simplifica el despliegue de los mismos. La liberación de datos es un proceso que debe comenzar lo antes posible, antes incluso de que los datos estén completamente depurados, ya que gracias a ellos se agilizará el despegue del sector, permitiendo que las propias iniciativas ciudadanas pueden comenzar a mostrar su utilidad.

LinkedData

Junto al concepto Web Semántica surge un nuevo término denominado Linked Data, acuñado también por Tim Berners Lee en el año 2007. Linked Data consiste en la aplicación de un subgrupo de tecnologías semánticas, en concreto RDF, URIs y SPARQL, para crear la Web Semántica o Web de Datos. Hasta ese momento la  Web Semántica había sido materializada publicando información de manera semántica en la red.

Desde la aplicación del concepto de Linked Data se comenzaron a crear enlaces entre diferentes entidades para que las máquinas pudieran explorar la Web de Datos de manera independiente. Esto permitía automatizar tareas que hasta ahora sólo era posible realizar por usuarios humanos. Existen una serie de recomendaciones por parte del World Wide Web Consortium (W3C[15]) para publicar Linked Data dentro de la Web de Datos. Dichas recomendaciones son las siguientes:

  • Utilizar URIs (Uniformed Resource Identifiers) para nombrar entidades dentro de la Web.
  • Utilizar el protocolo HTTP, que es el empleado por la arquitectura de la Web  Actual, para que las personas o las máquinas puedan recuperar información útil referente a dicha entidad.
  • Utilizar formatos estándar, como RDF y SPARQL, para devolver información útil cuando una de estas entidades es consultada.
  • Incluir enlaces, links, a otras URIs para que las máquinas puedan descubrir más información relacionada con dichas entidades.

Siguiendo estos los principios, en el año 2007 comenzó el que ha sido el proyecto tractor de Linked Data, Linking Open Data[16] impulsado también por el W3C. En la Figura 1 podemos observar la evolución de la Web de Datos publicados siguiendo los principios de Linked Data. Aproximadamente el volumen de información se duplica cada año, conteniendo información multidisciplinar referente a datos gubernamentales, publicaciones científicas, información médica, etc.

 Figura 17. Evolución de la nube de datos linkados. Linked Data Cloud Evolution

Gracias a la publicación de datos siguiendo las recomendaciones del W3C en materia de Linked Data, se pueden desarrollar aplicaciones y servicios que hasta ahora eran impensables.

En la parte superior de la Figura 17 podemos observar cómo la representación y reutilización de información procedente de la Web de Datos, puede derivar en la creación de Mashups, que combinan información procedente de diferentes fuentes de información para generar un nuevo servicio. Los buscadores basados en Linked Data permitirán realizar búsquedas a través de la Web de Datos. Linked Data facilita la integración de los datos en un entorno empresarial claramente enfocado a labores de inteligencia de negocio, vigilancia tecnológica, inteligencia competitiva o investigaciones.

 

Figura 18. Elementos del Stack de Linked Data. Fuente: Tim Davies for IKM Working Paper on Linked Open Data

Debido al gran abanico de posibilidades de explotación de la información y de nuevos modelos de negocio que el modelo de Linked Data trae consigo, durante los últimos años la Comisión Europea ha financiado proyectos muy ambiciosos y de gran presupuesto basados en dicha tecnología. Dos de los proyectos más representativos en esta área financiados dentro del Séptimo Programa Marco son los siguientes:

  • LOD2[17]. Liderado por los principales expertos en la materia Linked Open Data 2, se sitúa como proyecto de referencia actualmente y pretende desarrollar la evolución de la nube de Linked Data para que sus resultados sean aplicado a un amplio abanico de áreas desde la científico-tecnológica hasta la socioeconómica. LOD2 pretende proporcionar nuevas tecnologías de aplicación directa al área comercial, a la comunidad científica, y a la población en general. Con un presupuesto total de 8,58 M€ y una subvención de 6,45 M€ es el proyecto más ambicioso en este sentido basado únicamente en el desarrollo de sistemas basados en tecnologías de la  Web Semántica en general y de Linked Data en particular.
  • LATC[18]. El proyecto Linked Data Around the Clock pretende proporcionar soporte para que tanto instituciones públicas como empresas privadas puedan publicar y consumir Linked Data en la Web de Datos. Se basa principalmente en monitorizar y aumentar la calidad de los grandes volúmenes de información que forman parte de la nube de Linked Data. Además, están desarrollando una serie de recomendaciones para publicar y consumir Linked Data. Dicho proyecto se encuentra financiado por el VII Programa Marco en el programa de Tecnologías de la Información y las Comunicaciones, en concreto FP7 ICT Challenge 4[19].

Retos en Open Data

1. La normalización de las distintas iniciativas de liberación de información supone el mayor reto planteado, por su inminente necesidad y por la complejidad organizativa que supone. Esta normalización permitiría una mayor facilidad para todos los actores interesados en la reutilización y una simplificación para aquellos que quieren velar por la transparencia de la labor pública.

2. Tan importante como el anterior puede ser involucrar a potenciales usuarios de estas aplicaciones cuando la alfabetización digital no está completamente extendida. Open Data puede contribuir a ampliar la brecha digital si no se tiene en cuenta aspectos de usabilidad, y orientación a resultados.

3. La posibilidad de utilización de LinkedData como infraestructura tecnológica y facilitador del despliegue choca con incertidumbres jurídico-técnicas      (reales o no) y con el cambio de cultura que supone entre muchos de sus potenciales beneficiarios.

4. La  adopción de iniciativas de gobierno abierto supone un cambio radical de las formas habituales de ejecución de las actividades públicas. La apertura y la transparencia que suponen estas iniciativas requiere un cambio de los procesos de servicio (Open Process), donde la ciudadanía pueda tomar un papel más relevante en los resultados de los procesos públicos. Se abre así la posibilidad de que se gobierne no sólo “para” la ciudadanía, sino, fundamentalmente, “con” la ciudadanía. El Open Process –o el uso de nuevos canales de interacción con la ciudadanía y en la propia Administración- debe ser también desplegado y adoptado en toda su extensión. Esto supone que el papel de los partidos políticos y de otros interlocutores sociales, como sindicatos, o patronales, como intermediarios, deberá ser asimismo revisado.

Conclusiones.

Los humanos somos por esencia seres sociales, en todos los ámbitos, y esta parte de nuestra naturaleza la estamos traspasando de forma natural a los entornos digitales, de una forma más o menos ordenada. Este traspaso implica que estamos reproduciendo comportamientos reales en entornos virtuales, construyendo grupos de contacto, relacionales, de amistad y de interés, como un impulso propio e imparable. Y al igual que en el mundo real, estamos trasladando información, conocimiento, resgistrando estados y lazos situacionales y emocionales, que al fin y al cabo, “trazan” nuestro día a día en dichos entornos. Y esta información es accesible, pública y trazable, con lo que, al igual que en el mundo real, existe una capa social, comercial y de negocio muy basada en el contacto personal, físico y gestual: “estrechar la mano es cerrar un negocio, pero los amigos de mis amigos son mis amigos, y tienen preferencia”. Y en el mundo virtual, contenido en nuestros dispositivos móviles constantemente, esta ocurriendo algo similar. Y las primeras empresas y/o Administraciones Públicas que se den cuenta de ello, serán las que triunfen en un futuro que ya está aquí. La tecnología no es el problema, el tratamiento de grandes volúmenes de información ya está superado, el gran reto seguimos siendo las personas, y nuestra resistencia a los cambios.

Más información:

rtdibermatica.com

hcmibermatica.com

Notas:


[1] Social Networks Overview: Current Trends and Research Challengeshttp://cordis.europa.eu/fp7/ict/netmedia/docs/publications/social-networks.pdf

[2] Nirenburg,  S.  y Raskin, V. (2001) Ontological Semantics (Draft) http://crl.nmsu.edu/Staff.pages/Technical/sergei/

book/index-book.html

[5] Fermín  I. Cruz et. al., “A Knowledge-Rich Approach to Feature-Based

Opinion Extraction from Product Reviews”, SMUC 2010 (CIKM)

J. Jin, “How to interpret the helpfulness of online product reviews: bridging

the needs between customers and designers”, SMUC 2010 (CIKM)

Z. Zhang, “Utility Scoring of Product Reviews”, CIKM 2006

S. Zhang, “Opinion Analysis of Product Reviews”, FSKD 2009

 

[6] S. Aciar et. al., “Informed Recommender: Basing Recommendations on

Consumer Product Reviews”, IEEE Intelligent Systems 22 (3), 2007

 

 

[7] Data mining research efforts by «University of Waikato(UW), NZ» and sentiment mining research efforts by «Carnegie Mellon University (CMU), USA.

[8] Dynamics of large networks.Jure Leskovec, Computer Science Department, Stanford University
published: Oct. 22, 2008.

 

[9] Inferring Networks of Diffusion and Influence by M. Gomez-Rodriguez, J. Leskovec, A. Krause. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2010.

Predicting and Recommending Links in Social Network

[10] Se refiere al famoso discurso de Abraham Lincoln el 19 de noviembre de 1863, en Gettysburg , donde declaró: “…government of the people, by the people, for the people, shall not perish from the earth”.

[11] Como decían Osborne y Gaebler en su libro Reinventing Government (1992): we need governments which are catalytic…empowering more than serving, ; and mission driven, results-oriented and customer-focused.

[12] La expresión ESSP la acuñó Andrew McAfee en el libro Enterprise 2.0, 2009.

[13] The EFQM Framework for Knowledge Management, 2005

[14] The Knowledge-Creating Company, Ikujiro Nonaka, Reprint HBR, 2007.