Explicación de la imposibilidad estadí­stica de los resultados publicados por el PREP

Un amigo -que pide conservar el anonimato- experto en estadí­stica y su aplicación en las ciencias sociales nos explica por qué los datos que recibimos en el PREP sencillamente no pueden ser ciertos - Y no por ser simplemente falsos o por registrar pequeños inflones aquí­ y allá, sino por haberse originado desde un principio y hasta el final a través de una recetita simple. Va su correo completo, elimino únicamente las referencias personales:

Bueno, con respecto a la evidencia estadí­stica de fraude, lo que creo entender es que el cuate tomó 22 diferentes momentos consecutivos de incorporación de votos al PREP, y encontró que los votos para cada partido se incrementaban de manera lineal con respecto a los votos de los otros partidos. Para detectarlo, utilizó el í­ndice producto-momento de Pearson, que indica en qué medida dos o más conjuntos de datos varí­an proporcionalmente unos de otros. La sorpresa fue que entre los datos de los tres partidos, la variación proporcional es positiva y perfecta.

Que los incrementos sean lineales implica que a un incremento dado en uno de los grupos, habrá un incremento siempre en la misma determinada proporción a los otros grupos. Por ejemplo, que por cada voto que obtenga el candidato A, el candidato B obtenga 1.3 votos, y el candidato C obtenga .67 de voto.

Es notable, y francamente inexplicable, dado que efectivamente, los resultados en este caso debieran obtenerse aleatoriamente ya que:

  1. supuestamente se están obteniendo a partir de procesos aleatorios de acopio (es decir, no hay un ordenamiento de los datos que pretenda obtener estos incrementos lineales) y que
  2. los procesos de votación en sí­ tienen un componente aleatorio a su vez (no todo mundo tení­a claro por quien votarí­a, y los votantes no se distribuyeron de manera proporcional en cada casilla)
  3. una tercera fuente de aleatoriedad serí­a el error, que, según la teorí­a clásica de la medición, constatada miles de miles de veces, se distribuye normal y aleatoriamente, lo cual quiere decir que si juntamos todos los pequeños errores en una enorme cantidad de datos, deberí­a haber el mismo número de errores a favor y en contra de cualquier candidato, y de magnitudes que se anulen de manera casi perfecta (a cada gran error a favor deberí­a corresponderle un gran error en contra).

Entonces, tenemos al menos tres fuentes de variación aleatoria, que sin embargo, según el análisis que hizo ese cuate (y que no pude reproducir porque puso los datos en imagen, no como texto) llevan a regularidades mucho más grandes de las que se acostumbra encontrar en los fenómenos sociales.

La correlación de Pearson puede obtener valores de -1 a 1; donde el valor de 1 es un fenómeno totalmente regular en que aumentar A siempre aumenta proporcionalmente a B; el valor de -1 es igual pero a incrementos de A se dan decrementos proporcionales de B; y 0 se obtiene cuando no hay relaciones entre A y B; naturalmente, se pueden obtener cualesquiera valores intermedios, indicando mayor o menor apego a la linealidad en las correlaciones. Además de el valor de r (la correlación de Pearson) hay que fijarse en el valor de significancia, que es la probabilidad de equivocarse al afirmar una relación lineal. Les ahorro el trabajo de regresar al post: tanto en la comparación Pri-Pan como en Pan-Prd como en Prd-Pri, la significancia es < 0.01, es decir, la probabilidad de equivocarse al afirmar que hay linealidad en los datos es de menos de una de cada cien.

En fenómenos sociales, ya consideramos interesante una correlación de 0.3, y nos andamos muriendo cuando encontramos una de 0.6 o mayor.

Si los datos que postea este cuate son ciertos; si no hubo un método de conteo extraño y poco eficiente del tipo 3cuando hayas contado x votos para tal partido, oprime el botón una vez y se almacenarán en el contador4, si el valor de las r de Pearson para cada par de partidos es correcto, podrí­a hacerse una regresión lineal con esos datos, a partir de la cual se podrí­a deducir una fórmula para predecir lo que va a tener cada candidato, a partir de lo que tenga cualquier otro; o lo que es lo mismo: podrí­a sospecharse de un programita parásito (yo lo harí­a así­ ¿no? Como un residente en memoria que nunca tocó medio fí­sico) que lo único que hací­a era acomodar los votos antes de enviarlos a las tablas de conteo a partir de una regla lineal de distribución.

Claro que si yo hubiera participado en hacerlo (sólo en la parte conceptual; ustedes saben muy bien que los números no se me dan mucho, y la programación menos), lo primero que hubiera hecho serí­a distribuir aleatoriamente las variaciones, con un promedio centrado en el valor que fuera mi objetivo, para que análisis y sospechosismos como el que hizo el cuate éste no fueran posibles, al moverse todo al compas acostumbrado en las ciencias sociales.

[actualización] No puedo dejar de ligar a la muy bien explicada página del Dr. Luis Mochán, académico del Centro de Ciencias Fí­sicas de la UNAM: Elecciones presidenciales, México 2006: ¿Anomalí­as en el PREP?, así­ como a su blog Un análisis cientí­fico de los resultados del PREP.