¿Es posible conocer la intención de voto en base a datos abiertos? Un ejemplo de #OpenData + #DataMining = #OpenMining

Sep 24, 2012   //   by wpuser   //   Minería de Datos  //  2 Comments


Gis Geopolítico

Se acercan las elecciones en varias Comunidades Autónomas, y desde I3B, se ha desarrollado una plataforma de análisis de resultados, (GIS Geopolítico), apoyado en herramientas de análisis avanzada sobre datos históricos (Datamining).

Pero, ¿qué es lo que buscamos? Básicamente, conocer el por qué de los resultados electorales, y no quedarnos simplemente en lo que ha ocurrido (pasado estadístico), sino intentar comprender las razones generales de dichos resultados, y poder aplicar dicho descubrimiento al futuro.

Comenzamos tomamos los resultados electorales de una provincia, por ejemplo, Bizkaia, y para ello, recogemos los datos de los resultados Elecciones Municipales del 2007, tomados de los datos publicados por OpenDataEuskadi, tendremos una relación de datos con el siguiente formato:

Datos OpenData Euskadi

Estos son los datos clásicos de los resultados electorales, y con ellos, podemos presentar cientos de estadísticas, a nivel de Municipio, Distrito y Sección Censal, incluso a nivel de mesa electoral, del numero de votantes, los votos nulos, los válidos, los partidos ganadores por dichas secciones, etc… como muy bien muestra en su blog Juan Carlos Sierra, del que muestro algunos ejemplos:

Mapa Político 2º Ganador

Mapa político por Sección Censal

Ahora bien, esta información es meramente descriptiva, y la pregunta es, ¿Existirá algún patrón de comportamiento que explique la intencionalidad del voto, en base a algún indicador adicional? 

  • Por ejemplo, podemos analizar el caso de Bermeo. La estadística de resultados finales es la siguiente:

Bermeo Municipales 2007

Es decir, los dos partidos más votados, EAJ_PNV y EA, están empatados en cuanto a Secciones Censales (EAJ_PNV gana en 6 Secciones, y EA en otras 6), siendo los resultados muy parejos. ¿Es posible explicar la diferencia del comportamiento del voto en unas zonas o secciones, con respecto a las otras? ¿Cuáles son los factores, si los hay, que determinan estas actuaciones? 

Y lo más importante, ¿existen algunas reglas generales que modelen los comportamientos de la intención del voto?

Vamos a ver que así es….

Enlazando Datos

Intuitivamente, los datos demográficos asociados a las Secciones Censales (partición del término municipal caracterizada por estar preferentemente definida mediante límites fácilmente identificables, tales como accidentes naturales del terreno, construcciones de carácter permanente y viales y tener un tamaño entre 1.000 y 2.500 residentes, excepto en el caso que el municipio completo tenga una población inferior), pueden explicar comportamientos relativos a los movimientos de masas sociales en los Municipios estudiados. Es decir, una Sección Censal, agrupa grupos poblacionales, en teoría, más o menos homogéneos a nivel cultural, educacional, y económico.

Además, por Sección Censal, y gracias al Instituto Nacional de Estadística, tenemos datos sobre los valores de población por sexo en intervalos de edad en dicha Sección, además de los totales de personas nacidas en la misma Comunidad Autónoma o distinta, incluso los que siendo de la misma Comunidad Autónoma son de la misma Provincia o diferente, incluso  nacidos en el mismo Municipio o distinto, dentro de la misma Provincia, separados por sexo.

En cuanto a los datos relacionados con los Municipios, tenemos información sobre el número del desempleo registrado, tanto por hombres como por mujeres, así como los datos acumulados de sus poblaciones, diferenciadas por sexo.

Al final, tenemos una única tabla enlazada de 126 indicadores, que incluyen toda la información acumulada por Sección Censal y Municipio.

El descubrimiento.

Una vez enlazados todos estos datos, sólo queda un paso más: introducirlos en la máquina de Minería de Datos, definir un objetivo, y ejecutar el proceso de modelado. El objetivo está claro, queremos conocer, si existen, que pautas se siguen para determinar cuál es el partido más votado, es decir, el objetivo sería el campo «Partido GANADOR», independientemente de cuál sea en cada Sección Censal.

Es importante anotar que no estamos realizando un estudio concreto de  un Municipio (como podría ser, por ejemplo, el estudio concreto de Bilbao), sino de toda la Provincia Vizcaína. Estamos buscando reglas generales de comportamiento, que afecten a todos los indicadores, sin realizar un filtro previo por Municipio. Si hay correlaciones, y no estamos mezclando peras con manzanas,  el sistema las extraerá, si no, no será capaz de concluir ninguna regla o ningún modelo con una confianza lo suficientemente segura como para dar por válido el modelo.

Lo primero que hacemos, es ejecutar un proceso de correlación, que nos indique qué campos son los más relevantes con respecto a nuestro indicador objetivo, es decir, al «Partido Ganador».

Correlación entre Indicadores

Según la lista, lo que más relevancia tiene a la hora de determinar el partido ganador, no es la Sección Censal, sino el Municipio (NOMBRE), seguido directamente, pero con muy poca correlación,  por la relevancia de la población nacida en Gipuzkoa y Álava y que vota en Vizcaya , y por los datos del paro.

Es importante recalcar que los datos del Paro registrado son a nivel de Municipio, mientras que los datos demográficos (Hombres o Mujeres nacidos en la Provincia, fuera, etc…), son a nivel de Sección Censal.  Los datos referentes a la población nacida en Álava o Gipuzkoa, son a nivel Municipal.

Pero esta información, tampoco nos dice demasiado, puesto que lo que queremos son los valores concretos que hacen que en una determinada mesa electoral se vote a un partido u a otro. Y para ello, procesamos sobre los mismos datos un algoritmo de Árboles de Decisión, transformando las ramas del árbol a reglas completas,  (que son muy buenos para explicar las conclusiones), y analizamos el resultado obtenido.

 La Intención de Voto.

Una vez lanzado el proceso de obtención de reglas, el sistema nos genera el árbol que se muestra a continuación: (El formato es leerlo Si…  y  ….  entonces….)

 Árbol de Decisión

  • Conclusiones «a priori»:
    • El paro registrado en las mujeres (a nivel municipal), es un indicador clave en el comportamiento de la intención del voto.
    • Los comportamientos son particulares prácticamente para cada Municipio, excepto cuando el paro por Municipio es menor que 423 personas.
    • Los efectos de las personas nacidas fuera de la comunidad autónoma (dato a nivel de Sección Censal), afecta a la intención de voto en dichas Secciones Censales.
  •  Si tomamos el primer caso, por ejemplo:

Si Paro registrado, Mujeres > 423

y  NOMBRE = Amorebieta-Etxano

y   además MujNacDistComAut (Mujeres Nacidas en Distinta Comunidad Autónoma) > 179,5 entonces –> PSE_EE_PSOE

si no, si    MujNacDistComAut <= 179,500 entonces –>  EAJ_PNV

Nos está indicando claramente, que en Amorebieta, si en una Sección Censal, hay más de 179 mujeres votantes cuya procedencia es de fuera de la Comunidad Autónoma, en las mesas de dicha Sección, se votará al PSE_EE_PSOE, y en caso contrario, a EAJ_PNV. 

Cada una de estas reglas podemos aplicarlas a un mapa, de forma que obtendríamos una representación de los distintos patrones de comportamiento a nivel de la geografía. Como se ve en la figura siguiente, se conformaría un mapa con distintos colores seg-ún patrones de intencionalidad  (reglas), y en el caso de Amorebieta, se indicaría además, en qué Sección Censal se da cada una de las distintas reglas:

Mapa de Comportamientos

Mapa de Amorebieta

  •  Si analizamos el caso inicial de Bermeo, las reglas son diferentes:

si   NOMBRE = Bermeo

y     Muj_25-29 > 45, entonces –> EAJ_PNV

pero si    Muj_25-29 <= 45 entonces –>  EA

 En este caso, la diferencia de comportamiento viene dado por la edad de las mujeres que votan, dato que también está incorporado a nivel de Sección Censal. Es decir, si en Bermeo, en una Mesa Electoral, hay más de 45 mujeres entre 25 y 29 años, entonces, en esa mesa saldrá elegido el partido EAJ_PNV, pero si hay menos de 45 mujeres en ese ratio de edad, ganará EA.

Por otro lado, si EA quiere mejorar sus resultados, debería enfocar su campaña en Bermeo a las mujeres entre 25 y 29 años, puesto que no parece que ese «perfil» poblacional en Bermeo sea de sus siglas, y si consigue captar ese foco de atención, teniendo en cuenta que el margen de diferencia en votos es muy pequeño, es posible que gane en las próximas elecciones en dichas mesas electorales.

Viéndolo en el mapa, incluso sabemos en que zonas de Bermeo habría que realizar esta acción:

Mapa Bermeo

  •  Lo contrario le pasaría al EAJ-PNV, por ejemplo, en Getxo. Resulta, que según el patrón encontrado:

|   NOMBRE = Getxo

|   |   P_NULOS > 5,372 –> EAJ_PNV

|   |   P_NULOS <= 5,372 -> PP

Si hay, por mesa electoral, más de 5 votos nulos, saldría como ganador en dicha mesa el EAJ_PNV, pero si el número de NULOS es   menor, saldría ganador en dicha mesa el PP. Y esta regla se cumple para todas las mesas de Getxo, así que el EAJ_PNV tiene que «provocar» un mayor número a NULOS en su convocatoria, mientras que el PP necesita que haya masa de votantes sin papeleta nula.  

Mapa Getxo

Si miramos la confianza de este sistema en cuanto a predicción, vemos que el modelo es estable con una confianza de un 79,4%, es decir, que el sistema es capaz de acertar con las reglas expuestas anteriormente, en un 79% de los casos, como se muestra en la matriz siguiente:

Matriz de x-Validación

Como conclusión, el análisis automático de la unión de datos demográficos con los resultados electorales, provee a los gestores de campañas de una información adicional y enriquecida sobre las causas de dichos resultados, pudiendo a futuro, predecir, comprender, e intentar canalizar esfuerzos en aquellos segmentos de la población a los que realmente debe influenciar para mejorar sus resultados en próximas campañas.

Todo este proceso de análisis automático, representación, salida e interpretación gráfica de las reglas está embebido en el producto «GIS Geopolítico» que Ibermática oferta a sus clientes. 

2 Comments

  • Hola,

    Zorionak, me ha parecido un estudio muy interesante.

    ¿No creéis que el estudio sería más interesante si se suprimieran las variables Nombre y Sección Censal? A fin de cuentas lo más interesante es inferir las variables predictoras de la intención de voto (y las reglas predictoras), y está claro que el nombre y la sección censal ya determinan el resultado electoral de una jornada electoral. Por otro lado, ¿se han empleado variables económicas tipo renta per cápita, etc.?

    Saludos

  • Hola Alberto,
    En realidad, es el sistema el que correlaciona los distintos indicadores de entrada con la intencionalidad de voto (salida), y el que en las reglas aparezcan como condiciones previas el Nombre y la Sección Censal, no es una decisión nuestra, sino de la generación del modelo, que mejora su «accurancy» con dichos valores, que por otra parte, coincide con el «sentido común» de la lógica en las elecciones, aunque no tendría porqué ser así…
    Y si, efectivamente, hemos incluido variables económicas en el modelo, como, por ejemplo, el nivel de paro, que influye, curiosamente, en la conclusión del voto.
    Un saludo,
    Aitor.