sábado, julio 23, 2011

¿Hubo algún cambio en las últimas elecciones? (II): Metodología y datos

El objetivo de esta serie de posts es plantear de una manera científica la cuestión de si el 15m ha tenido algún efecto en las pasadas elecciones. Si observas cualquier fallo de planteamiento, metodología, o si crees directamente que soy un chalado prepotente, por favor, deja un comentario o envíame un tweet (@brenes). Me interesa cualquier feedback para ver si voy por buen camino.

En el anterior post comentaba la motivación para realizar un estudio estádístico y comprobar sie el #15m pudo tener algun efecto medible en las intenciones de voto del electorado de cara a las últimas elecciones autonómicas del pasado 22 de Mayo de 2011.

En este post comentaré las fuentes de datos que usé (y los problemas que encontré) para poder realizar los experimentos. A continuación describiré el experimento realizado.

Fuentes de datos



Encuestas electorales



Como ya comentamos en el anterior post, usaremos los datos de las encuestas electorales anteriores al #15m como grupo de control, atendiendo a que se trataba de un grupo de votantes que estaban influidos por todos los factores de la realidad de las elecciones (nuevos partidos políticos, crisis, corrupción, etc.).

Además, observaremos tanto las elecciones de 2011 como del 2007. Esto nos permitirá conocer el error habitual de las encuestas del CIS y no atribuir al #15m toda la magnitud del error, sobrevalorando su influencia.

La crítica que me han repetido más personas es la falta de datos. Tanto en lo referente a las fuentes de datos de encuestas preelectorales como al número de elecciones tenidas en cuenta.

En cuanto al número de fuentes de datos se me comentó que, aunque sean datos oficiales, el CIS puede no ser una buena fuente de datos única. La solución sugerida fue el uso de varias fuentes (por ejemplo, se me comentó Demoscopia) para intentar equilibrar el error entre todas las fuentes.

El uso de encuestas provenientes de medios privados, sin embargo, es algo que me parece bastante cuestionable debido a los diferentes intereses de partidos y grupos de comunicación. No es desconocida la manipulación de los datos de las encuestas para movilizar a los votantes en una u otra dirección.

El CIS no está libre de sospecha tampoco. Por ejemplo, Enric Morera, portavoz de la coalición Compromís en Valencia, pedirá la comparecencia del director del CIS en las Cortes. En este caso la denuncia se realiza por la gran diferencia entre las encuestas (que les situaban fuera del parlamento) y la realidad (donde consiguieron 6 escaños).

Lo que se está denunciando en este caso es la infravaloración de un tercer partido con objetivo de desmoralizar a los votantes (idea sobre la que volveremos más adelante). Sin embargo, es dificil asegurar si esta infravaloración fue realizada a propósito o si realmente se produjo un movimiento social importante tras dichas encuestas en favor de terceras opciones.

Otras denuncias hablan de la omisión de terceros partidos y candidatos en algunas de las respuestas de los estudios (es el caso de Cascos en Asturias o el Partido Andalucista). Sin embargo, estas denuncias no se refieren a la pregunta sobre itnención de voto, sino sobre la valoración de candidatos (donde no se pregunta por todos los candidatos).

En resumen:



  1. Las acusaciones realizadas por formaciones políticas acerca de manipulaciones de encuestas por parte del CIS obedecen a diferencias elevadas entre las predicciones y los resultados finales para los terceros partidos.


  2. Sin embargo, este estudio se basa precisamente en la existencia de esas desviaciones y su relación con el #15m, por lo que las acusaciones de manipulación necesitarían aparecer en elecciones previas o bien encontrar una justificación al hecho de que solo se haya realizado en estas elecciones.




Resultados electorales



A priori, encontrar datos sobre algo tan oficial como los resultados de las elecciones autonómicas de un país no debería resultar dificil. Sin embargo, he sido incapaz de encontrar una fuente oficial para estos datos. Lo más lejos que llegué fue a la página del Ministerio de Interior, pero el resultado de estas últimas elecciones aún no está publicado.

Por ello he usado otra fuente no oficial para obtener los resultados, la página de El País. Decantarme por la página de El País fue bastante sencillo, ya que ofrecían los datos en XML, listos para su consumo y sin necesidad de realizar operaciones sobre HTML (lo cual simplifica bastante el proceso). Además, los datos de las elecciones del 2007 seguían disponibles.

Si bien para los datos de encuestas preelectorales no me gustaba la idea de usar medios privados, los resultados electorales son lo suficientemente comprobables e inequívocos (no los puedes achacar a desviaciones estadísticas en las encuestas) como para poder confiar en que un medio como El País no publicaría los datos incorrectos y que, de hacerlo, las críticas que se recibiría por parte de otros medios o Internet serían notorias.

Procesando los datos



Una vez descargados los datos hay que plantearse qué transformaciones se le aplican para poder extraer conclusiones acerca de la intención de voto de los ciudadanos.

Lo ideal sería obtener un resultado que nos permitiéra apreciar los cambios de intención entre los distintos grupos tenidos en cuenta por el #15m: los "partidos mayoritarios", los "terceros partidos" y la abstención al voto.

En concreto, el movimiento #15m animaba a reducir el abstencionismo o el voto en blanco (en contra de lo que muchos medios publicaban) a favor de votar a terceros partidos y así reducir el poder de los partidos mayoritarios, por lo que el procesado de los datos debería mostrarnos si ha habido un trasvase de intención de votos desde la abstención y el voto a los partidos mayoritarios hacia los terceros partidos y si ese trasvase ha sido más importante que en las anteriores elecciones.

Para ello definiremos 4 grupos. Un grupo será para el PSOE, otro para el PP, otro para los terceros partidos y otro para el voto abstencionista.

La razón para dividir el grupo de los partidos mayoritarios en dos se tomó sencillamente para tratar de evitar que la migración de votos esperada del PSOE al PP nos impidiera observar los trasvases hacia esos partidos (por ejemplo, una huida de votos del grupo podría identificarse con una debacle electoral del PSOE).

No se incluye a CIU ni PNV (que sí se nombraban en el movimiento) debido a que el ámbito de sus elecciones era municipal, y no autonómico.

Al contrario que en el caso del PP y el PSOE; para los terceros partidos se decidió juntarlos a todos en un único grupo por dos razones: 1) el #15m no se centraba en ningún tercer partido en particular y 2) hay gran número de terceros partidos, algunos de ellos sin alcance municipal, y se dificultaría la visualización de los resultados al no poder observar adecuadamente el flujo de votos hacia los terceros partidos.

Por último, en estas elecciones hubo casos de escisión de partidos políticos (que yo sepa ocurrió en Asturias, donde Foro se escindió del PP, y Navarra, donde el PP se escindió de UPN). En un primer instante pensamos incorporarlos a la categoría del partido mayoritario (en Asturias agrupar a PP y Foro en el grupo PP), pero consideramos que si la razón de crear un nuevo partido es diferenciarse del partido anterior meterlos en el mismo grupo podría no reflejar la verdadera intención del votante.

En lo referente a los votos en blanco y las abstenciones, las trataremos como iguales ya que ambos indican que el votante no se ha inclinado por ninguna formación política.

A modo de ejemplo, consideremos el caso de Asturias durante las elecciones autonómicas del 2007. En las encuestas preelectorales, en la pregunta 8 "Y suponiendo que las elecciones a la Junta General del Principado de Asturias se celebrasen
mañana, ¿a qué partido o coalición votaría Ud.?" las respuestas son las que se muestran en la siguiente tabla:



Al agrupar los datos hay dos respuestas que no encajan en ningún grupo: "N.C." y "No sabe todavía". Estas respuestas son ignoradas ya que no nos permiten saber su intención de voto, si es que realmente tienen alguna. A continuación, se crean los grupos y se normalizan los datos (se ajustan proporcionalmente para que sumen el 100%).



Si hacemos lo mismo para los resultados de las elecciones tenemos la siguiente tabla:



Si ahora calculamos los errores, podemos apreciar el movimiento de votos:



Todo este proceso se ha implementado mediante una serie de scripts ruby que acceden a las páginas mencionadas y se descargan los datos. Hay que indicar que en el caso de las predicciones de las elecciones del 2011, en el momento de realizar el script, no estaban disponibles en formato HTML, por lo que se tuvo que convertir los PDFs a HTML para poder realizar todo el proceso.

En el próximo post se compartirán los resultados de estos scripts y este proceso y, a continuación, se discutirá si los resultados son lo suficientemente significativos como para inclinarse por la posibilidad de que se produjera un cambio significativo en el movimiento de los votos desde las predicciones del CIS hasta las elecciones.

No hay comentarios: