La falacia andaluza y otras formas de equivocarse en la información estadística

No es raro escuchar esto las estadísticas mienten o manipulan. Todavía es curioso: muchos matemáticos se han dedicado al campo de la estadística para crear una base formal y correcta para que podamos decir ahora que la estadística miente.

Lo que realmente pasa es diferente. Si ve a alguien tratando de clavar un clavo con el mango de un martillo, o alguien reparando la batería de su teléfono celular con un martillo ordenado, ¿diría que el martillo no funciona? Pues pasa lo mismo con las estadísticas: no mucha gente sabe como usarlo.

Me falta contexto ahí, o porque los andaluces son siempre “los más”

Uno de los problemas más frecuentes es ignorar el contexto o usar números incorrectos para hacer comparaciones. Por ejemplo, ¿sabías que Andalucía es donde la mayoría de los perros son abandonados? Qué La Rioja es la comunidad autónoma con menor endeudamiento? Estos datos no son mentiras, por supuesto, pero transmiten una imagen incorrecta. Y si tenemos en cuenta Andalucía es la comunidad autónoma con mas poblacion y La Rioja, la de menor población, incluso estos datos no son tan sorprendentes.

Es un ejemplo que se repite muchas veces: muestro una figura que parece alarmante, pero que con el contexto adecuado no suena tan extraño. A menudo es necesario poner los datos en perspectiva para comprenderlos. En el caso de los abandonos, un dato mucho más útil sería ver los abandonos por mil habitantes, lo que ya nos ayudará a ver mejor qué ocurre exactamente. Puedes ver en el gráfico qué sucede cuando pasamos de una información a otra y cómo cambia la impresión que obtenemos.

Cuando se dan medidas insuficientes

Hasta ahora solo hemos hablado de datos. Ahora, si realmente nos adentramos en las estadísticas, encontraremos una falla muy común, pero que se pasa por alto: dar solo medidas de centralidad. Entonces, el famoso “chiste” de “Si yo tengo 100 euros y tú 0, las estadísticas dicen que cada uno tiene 50”. Es precisamente por eso que surgieron las medidas de dispersión: a veces no solo nos interesa saber qué es el medio, sino también cómo se distribuyen los datos.

La media no es lo único: un salario medio de 2.000 euros con el 90% de las personas ganando 2.000 no es lo mismo que el 90% ganando 1.000

Un ejemplo muy claro, para seguir con la economía, es el salario medio. Ver, por ejemplo, este artículo sobre el salario medio en España en 2013. Todo muy bien, pero ¿Cómo se distribuyen los salarios? Eso sí, no es lo mismo que el 90% de las personas que ganan entre 1.600 y 2.000 euros que haya un grupo del 45% con un salario de 0-500 euros y otro grupo del mismo tamaño con salarios de 100.000-200.000 euros.

READ  Aquí decimos cómo y cuándo ver el 'beso' de la Luna y Marte

Cuando hablamos de “medios” (medidas de centralidad) dejamos fuera toda la información (medidas de dispersión) que nos dicen cómo se distribuyen los datos. Y aunque estas herramientas (desviación estándar o diagrama de caja, por ejemplo) están muy extendidas, es difícil verlas en un periódico o conferencia de prensa, y a menudo esconden información que puede cambiar la forma en que ves las cosas (sin Ve más lejos ahora, mira el ejemplo anterior al salario y piensa en cómo puede cambiar la situación si cambia la distribución de los salarios).

Los crímenes de los gráficos

Una parte de las estadísticas también se dedica a describir la realidad y los datos con gráficos. Y entre la ignorancia y la mala intención, es extremadamente fácil para ellos dar una impresión equivocada. El error más común suele ser no definir escalas (o ignorarlas), como en este ejemplo sobre comunicado de prensa: No pongo ejes, muevo mi gráfica un poquito más arriba y, como por arte de magia, lo hago mejor de pie que antes.

Plantar una línea y sacar conclusiones no son estadísticas: son solo líneas de plantación

Un caso especial a la hora de describir la realidad con gráficos: la magnífica costumbre de muchas personas de plantar un diagrama de dispersión, plantar una línea de “mejor ajuste” y decir que los datos se distribuyen así, por qué sí, porque Excel dice (o números que son más hipster) Tienes el ejemplo perfecto en el cuadro siguiente: muestra los beneficios obtenidos según la tasa de admisión de la universidad donde estudias (menor tasa de admisión significa, según The Economist, mejor universidad). Y, por razones desconocidas, plantan una línea que parece querer mostrar que la universidad donde estudias no importa.

Brgsyf8

Y no son los únicos. Curiosamente, los analistas de tecnología tienden a hacer mucho este tipo de cosas: tomar datos, plantar una función que parezca encajar y luego sacar conclusiones, como en este artículo de Horace Dediu.

El caso es que esto no es más que una broma: da la impresión de que los datos corroboran las tesis propuestas cuando, en realidad, las líneas de “mejor ajuste” no demuestran más que poco rigor matemático. Estas “líneas de ajuste” solo pueden confiarse en el razonamiento de que los datos deben ajustarse al modelo y, sobre todo, cuando se proporcionan medidas de ajuste para saber si el modelo realmente encaja o no. Y hablar de modelos sirve para presentarte la siguiente sección: predicciones.

READ  Más allá del Sistema Solar: lo que viajará la nave interestelar hasta los confines del Universo

Cuidado con las previsiones

La verdad es que no se suele hablar mucho, así que aprovecharé la oportunidad. Las estadísticas no predicen nada. Nada. Se puede utilizar para preparar y verificar modelos que se utilizan posteriormente para pronosticar, pero las estadísticas no predicen nada Solo.

El ejemplo más simple es el periodismo deportivo: “Según las estadísticas, el equipo local ha ganado más veces, por lo que es más probable que gane este partido” o “Siempre que el equipo ganaba 2-1 en la ida, se clasificaba”. Es una mezcla de no saber que las estadísticas no predicen nada y que falso vínculo entre correlación (dos cosas suceden al mismo tiempo / relacionadas) y causalidad (una cosa causa la otra).

Más complicado es un tema que todos tendremos muy recientemente: el de las encuestas electorales. ¿Por qué a veces fallan como escopetas en las ferias y otras veces no? ¿Es culpa de las estadísticas?

Cuando se hacen predicciones, la certeza de esta predicción rara vez se afirma: suele ser un signo de falta de rigor.

La respuesta es que no, no es culpa de las estadísticas, más que nada porque, como dije antes, las estadísticas no predicen nada y, en concreto, no predicen cuántos votos obtendrá cada partido. Y el problema es que las encuestas generalmente no muestran esta incertidumbre: los datos rara vez se proporcionan en términos de probabilidad (por ejemplo, “El partido X se ubicará entre los asientos A y B con una probabilidad del Z%”, algo parecido a lo que suelen hacer En política) ¿Y de qué sirve obtener un valor específico si la estimación es inexacta? Por así decirlo, es deshonesto.

Otro error muy común a la hora de hacer predicciones (o, más concretamente, sacar conclusiones a partir de datos) es utilizar las probabilidades de forma aproximada, sin tener en cuenta la teoría estadística. El ejemplo que recuerdo aquí es que “La probabilidad de equivocarse al ingresar un DNI y salir de Infanta Cristina es casi nula”. Y las probabilidades son muy curiosas y pocas veces te permiten hacer afirmaciones contundentes.

Lo que representa el enlace anterior y lo que muchas veces se hace mal es decir lo siguiente: asumimos que pasa algo (la hipótesis; en este caso, que hubo un error fortuito al ingresar el DNI), y calculamos las probabilidades de que algo suceda que sabemos que pasó (sale el DNI de Infanta). Si las probabilidades son demasiado bajas, la estadística dice que la hipótesis es falsa, ¿verdad?

READ  Un experimento confirma que pueden existir exoplanetas hechos de diamantes

La verdad es que las cosas son un poco mas complicados: el resultado final no es una apreciación subjetiva del estilo “esto es improbable”, sino una probabilidad de que lo que observemos suceda si nuestra hipótesis es cierta, lo que se llama valor p. Pero, observe cuán prudentes son los matemáticos, que este valor p no mide la probabilidad de que la hipótesis sea cierta, porque no pueden conocerla. En resumen: estadísticas Ni siquiera puedo decir la probabilidad de que una hipótesis sea cierta..

Otra manifestación de este mismo problema es el famoso “según un estudio”. Estos estudios dicen que si hace algo (se despierta temprano, poner filtros en las fotos o tienes los dedos más largos), entonces es más probable que suceda otra cosa: eres mejor persona, tienes más visitantes y lo dejo a la imaginación. Lo que rara vez se menciona es cuánta seguridad tiene este modelo. No tiene sentido encontrar una correlación si no es lo suficientemente significativa (en caso de que sienta curiosidad, en el caso de Yahoo lograron estos valores y resultó que, de hecho, el efecto de los filtros fue muy significativo).

¿Puedo confiar en las estadísticas o no?

La estadística es confiable. El problema surge cuando se hace un mal uso o cuando no proporciona todos los datos

Estadísticas, sí. De los que te cuentan las estadísticas, no te fíes. Afortunadamente, no es necesario saber mucho sobre matemáticas para detectar errores cuando se habla de estadísticas. Vea si los gráficos son lo que parecen o nos mienten, si carecemos de datos para convertirnos en la imagen global que quieren que hagamos, o busque estas medidas de seguridad de las afirmaciones que se hacen.

En definitiva, un poco de sano escepticismo para no dejarse engañar por el mal uso de las estadísticas, preguntando siempre de dónde vienen los datos y dudando si lo que nos dicen va en contra de lo que consideramos razonable (y si no choca, también deberíamos dudarlo, que las cámaras de eco son malas).

Imagen | LendingMemo

More from Tiburcio Pasillas

T.50S de Gordon Murray con más potencia

Cuando Gordon Murray anunció por primera vez el sucesor de su McLaren...
Read More

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *