Cuando yo tenía catorce años, recuerdo que la profesora de ciencias naturales en el instituto nos dijo que sólo quedaban reservas de petroleo para los próximos 30 o 40 años, si ahora buscamos en google el dato sigue siendo parecido, también nos decían que pasar muchas horas con la «maquinita» era muy perjudicial para los niños, ni mis amigos ni yo hemos sufrido secuelas por ello, la semana pasada leí que debido al aumento de los precios del alimento para el ganado, los ganaderos están teniendo que sacrificar animales y la leche de vaca de origen español podría desaparecer en 25 años. Los niños comen mucha «comida basura» y toda la población española será obesa en el año 2065, todo parece catastrófico, la buena noticia es que las matemáticas nos dicen que todo eso es mentira.
Todos estos mensajes que suelen ser titulares de noticias en la prensa suelen venir del mal uso de la técnica estadística llamada Regresión -Lineal-, que es para este tipo de estudios tan utilizada como el uso que hacemos de una llave inglesa en las reparaciones del hogar.
Cada vez que leemos noticias del estilo: los padres con mayor número de hijos son más felices, los ciudadanos de aquellos países que tienen más coches por cada 1000 habitantes tienen más probabilidad de padecer cáncer, los niños que viven en paises con más horas de luz solar son menos propensos a tener enfermedades que aquellos otros que viven en paises con menos horas de luz, … se ha llegado a esa conclusión utilizando mal la técnica de Regresión Lineal.
¿Qué es la Regresión Lineal?
Es un modelo matemático para predecir el valor de una variable -llamada variable dependiente- en función del valor de otra variable -llamada variable independiente.
Realmente es para predecir el valor de una variable en función de otras n ( siendo n $ \in\mathbb Z^+$) variables independientes, siendo el caso más sencillo el de dos variables.
Podemos observar como los valores obtenidos de la variable Y en función de valores dados de la variable X se pueden representar como una recta que se aproxime/represente a ese conjunto de datos, éste sería el modelo más básico y sencillo de representar la realidad, teniendo dibujada esa recta de regresión podemos «predecir» un valor en el futuro teniendo un conjunto de valores observados -esto es la regresión.
Por eso por ejemplo sale en la prensa que en el año 2065 todos seremos obesos en España, porque en función de esa recta, (el eje de abscisas X respresenta el año y eje de ordenadas Y representa el porcentaje de la población que es obesa en España) pues cuando la recta llegue a la altura del 100 en el eje Y, como la X está en el año 2065 deducen y publican que para ese año todos seremos obesos, pero este razonamiento es erroneo, porque entonces en el año 2066 más del 100% seremos obesos y eso no puede ser.
Utilizando la técnica de Regresión Lineal únicamente podemos predecir cosas a muy corto plazo, esa es la clave que no se está teniendo en cuenta en estas publicaciones.
Si disparamos un tirachinas y vemos la distancia recorrida por la piedra que hemos lanzado en los primeros segundos, no podemos predecir la distancia recorrida dentro de una hora, porque sabemos que no estará una hora volando la piedrecita, podemos predecir la distancia recorrida en los próximos segundos, por eso hay que usar esta técnica bien y todas esta predicciones que salen en la prensa suelen ser falsas -de hecho, es que en el caso del tirachinas la linea no sería una recta sino una parábola.
La Regresión Lineal es una herramienta muy potente si se usa adecuadamente.