Академический Документы
Профессиональный Документы
Культура Документы
Este artículo ha obtenido el primer premio del concurso DIPC de divulgación del
evento Ciencia Jot Down 2016
Hay afirmaciones que no solo son ciertas, sino que además son poderosas. Una de mis
favoritas es, sin duda, «correlación no implica causalidad». En el mundo de los debates
públicos, de las peleas en Twitter y los flames en Menéame siempre es útil contar con
herramientas como esta. La frase en sí viene a significar que el hecho de que dos
eventos se den habitualmente de manera consecutiva no implica que uno sea causa del
otro. Así, cuando llueve es más probable que truene, pero no es la lluvia la que causa los
truenos.
Imagínate que por un giro del destino te ves envuelto en una discusión sobre, por
ejemplo, si el modelo de educación finés es el ejemplo a seguir en España. No tienes ni
idea de pedagogía, ni del modelo educativo español, ni del finés. Si fuera una discusión
en un bar no pasaría nada, podrías decir que no te interesa, pero es en internet y ya se
sabe lo que eso implica. En el cibermundo no vas a reconocer que no sabes de un tema.
Tienes que discutir y, aún más importante, tienes que ganar. Tu oponente dialéctico está
más preparado que tú. Te bombardea con datos y estudios sobre el informe PISA, sobre
los distintos métodos pedagógicos y sobre muchas otras cosas que no te interesan. Da
igual, porque tú estás curtido en mil ciberbatallas y sabes como contraatacar. Esperas un
momento de descuido de tu oponente. Entonces te colocas bien el palillo que sujetas con
1
los dientes y afirmas: «Todo eso está muy bien pero no demuestra nada, porque la
correlación no implica causalidad». Ni siquiera importa si estás defendiendo el modelo
finés o atacándolo. Cualquier dato que se te haya dado ha quedado refutado. Correlación
no implica causalidad. El debate termina y has ganado.
¿Pero tiene realmente este argumento una base sólida? No lo dudes, cualquier persona
con conocimientos básicos de estadística te lo podrá confirmar. En cualquier caso
vamos a indagar un poco más para que sepas usarlo correctamente. Para eso nada mejor
que usar un par de ejemplos.
2
Veamos otro ejemplo. La página web Spurious Correlations se dedica a buscar en
distintas bases de datos correlaciones absurdas entre series de datos. Una de las más
populares es la que aparece en la siguiente gráfica, que representa a través de los años
tanto el número de ahogamientos en piscina producidos en los Estados Unidos como el
número de películas realizadas por Nicolas Cage.
Imagen: tylervigen.com
La correlación es clara. Cuantas más películas hace el bueno de Nicolas más gente
muere ahogada. Lo mejor será que el pobre se retire y así ahorrará sufrimiento al
mundo.
Dado que es difícil de creer que la gente se ahogue por culpa de Nicolas Cage, o que los
piratas determinen la temperatura global, podemos concluir que estas correlaciones no
implican que una cosa sea la causa de la otra. Veamos entonces la explicación canónica
a estas gráficas. Que dos fenómenos se den a la vez, o que uno preceda al otro, no
implica que uno sea la causa del otro. Aunque observamos una correlación entre A
(películas de Cage) y B (ahogamientos en piscina) eso no significa que las películas de
Nicolas Cage provoquen que la gente quiera morir de una manera agónica a la vez que
refrescante (1).
¿Y, si no es A la causa de B, por qué se dan los dos fenómenos a la vez de forma
repetida? Bueno, en general, si hay una fuerte correlación entre los fenómenos A y B,
tenemos cuatro posibilidades:
3
Puro y duro azar. Hay muchos datos en el mundo, así que si los comparamos
todos más tarde o más temprano encontraremos este tipo de correlaciones que no
significan nada.
Este último punto es el más importante de todos, ya que no se puede demostrar que algo
no ha ocurrido por azar. Así que por muchos datos que te pongan sobre la mesa tú no lo
dudes. Ya tenemos una explicación sencilla y todo encaja. Las correlaciones no tienen
implicación ya que todo puede ser debido a la casualidad en lugar de a la causalidad.
Así que si alguien nos dice que el sistema educativo finés es el mejor porque puntúan
muy alto en PISA, podemos callarlo con un firme y convencido «correlación no implica
causalidad».
Es evidente que ni las autoridades sanitarias ni el redactor del artículo tienen mucha idea
de matemáticas. Nosotros, que estamos armados con un conocimiento todopoderoso,
sabemos que no hay de qué preocuparse. La correlación no implica causalidad. Lo
mismo son los yogures o lo mismo no lo son. Lo mejor será comprar esa marca
aprovechando la bajada de precios. Está claro que tenemos un caso de una fuerte
correlación. Todo el mundo que comió tal yogur murió. Mientras tanto, el resto de
personas murieron a un ritmo normal. La correlación está fuera de duda.
Si algún alarmista viene a tocarnos las narices podemos usar el mismo argumento que
antes. Tenemos correlación entre el comer yogur y el morir, así que tenemos cuatro
posibilidades:
4
Hay un fenómeno que es causa a la vez de las muertes y de que la gente
coma yogures.
Es una simple casualidad. La gente muere, la gente come yogures, ¿qué le
vamos a hacer?
La segunda y tercera posibilidad son bastante improbables. Es difícil de creer que las
muertes causen la ingesta de yogures o que exista un evento que provoque tanto el
consumo de yogures como la muerte de los que los consumen. Sin embargo, demostrar
que no es azar es difícil. La correlación es clara, pero nadie ha demostrado aún que los
yogures estén envenenados.
A estas alturas el avispado lector (o la avispada lectora) ya habrá intuido que este
artículo no es una defensa a ultranza de la frasecita de las narices. Seamos serios. Por
mucho que estemos convencidos de que la correlación no implica causalidad, si mañana
ocurre algo así no nos lo plantearíamos ni por un instante. Los yogures están
envenenados. No hay otra posibilidad. Por supuesto que habrá que analizarlos para ver
qué ha ocurrido, pero mientras tanto todos actuaremos guiados por la certeza de que
algo ha pasado.
¿Y qué diferencia este caso del caso de los piratas o de las piscinas? Lo primero es el
sentido común, que nos dice que es posible que unos yogures se envenenen, pero que es
mucho más difícil que el noble oficio de la piratería afecte al clima. Lo segundo es la
correlación en sí. Tenemos que tener en cuenta que no todas las correlaciones son
iguales y que a partir de ellas podemos sacar muchas conclusiones. La correlación no es
una magnitud dicotómica. No es algo que se tiene o no se tiene, es algo que puede ser
muy grande o muy pequeño.
Volviendo al escabroso ejemplo de los yogures. Además de saber que hay una
correlación, podemos estimar qué probabilidad hay de que ocurra algo así por
casualidad. Imaginad que vemos en la noticia que un 0,1% de la población española
consumió el citado yogur el día en cuestión. Eso hace unos 460.000 españoles muertos
en un día. Este dato contrastaría con la mortalidad en todo el año 2014, que fue de
395.830 personas (según datos del INE). Ya, el que ocurra algo así es absolutamente
improbable. De hecho, es lo que se suele denominar, estadísticamente imposible.
Calcular la probabilidad de que esto ocurra requiere hacer suposiciones sobre cómo se
distribuye la mortalidad entre la población, las edades de los consumidores de yogur y
otros parámetros. Una estimación muy conservadora me da el resultado de que la
probabilidad es menor que una entre 10^25 (2). Es más probable encontrar algo de
principio activo en una disolución homeopática a que ocurra algo semejante por pura
casualidad. Por eso podemos concluir que algo ha ocurrido, aunque aún no hayamos
analizado los yogures.
¿Y qué ocurre entonces con las piscinas y las películas de Nicolas Cage? Pues ocurre
simplemente que ahí la correlación no es tan grande. Ese es el quid de la cuestión y el
mensaje que me gustaría que os quedase después de leer este artículo. Correlación no
implica causalidad, es cierto, pero hay correlaciones más grandes que otras. Como ya
hemos dicho, la correlación no es una magnitud binaria. No es tan simple como que
exista o no exista. Hay correlaciones pequeñas como la de las películas de Cage, y hay
correlaciones muy grandes como la del macabro ejemplo del yogur. En el ejemplo de
las piscinas, la misma web que lo dio a conocer calcula la probabilidad de que sea azar,
5
un 33,4%. Por supuesto ahí también hay suposiciones detrás, pero la manera de
calcularlo es bastante estándar. ¿Es un 33,4% una probabilidad muy baja? Pues
dependerá de para qué. Si tenemos en cuenta que los autores de la web analizan cientos
de miles de cadenas de datos, lo improbable sería que no encontrasen ese tipo de
correlaciones espurias. Simplemente analizando el número de cadenas estudiadas y las
correlaciones encontradas se puede calcular la probabilidad de que sea puro azar o de
que pueda tener una causa más relevante.
Nadie duda de que la correlación no implica causalidad. Científicos de todos los campos
dedican cantidades ingentes de tiempo a repetir experimentos para distinguir
correlaciones importantes de correlaciones espurias. Incluso se ha observado que
muchos experimentos científicos con grandes correlaciones tienen una probabilidad alta
de ser puramente casuales. Eso ocurre porque en el mundo se realizan muchos
experimentos continuamente. La probabilidad de que nunca se dé una correlación
espuria es realmente baja y son precisamente las correlaciones inesperadas las que más
interesan a la comunidad científica. El único remedio para evitar esto es la repetición de
los experimentos. Sin embargo, todo esto no quiere decir que las correlaciones no tenga
relevancia, o que no sean indicativas de causalidad. Tenemos que saber distinguir entre
correlaciones más y menos probables. Tenemos que analizar cada caso
cuantitativamente y averiguar cuál es la probabilidad de que un evento sea aleatorio
para saber si debemos indagar más o no.
Notas: