Sesión 1. Correlación clara: mastering and rethinking

OBJETIVO Discutir cómo se debe pensar un análisis causal desmitificando ciertos mitos y falsas creencias que abundan en el análisis de datos.

El set de datos de Anscombe es muy típico para discutir por qué una correlación, per se, puede ser peligrosa. Aunque haya parejas de variables que tengan la misma correlación, su representación gráfica puede ser sorprendentemente distinta:

Relaciones no lineales (que no es lo que mide una correlación)

Observaciones atípicas

Ausencia de relaciones

library(ggplot2)
library(gridExtra)

D <- anscombe

p1 <- ggplot(D, aes(x = x1, y = y1)) +
  geom_point(color = "dodgerblue", size = 3) +
  geom_smooth(method = "lm", se = FALSE, color = "gray50", linetype = "dashed") +
  labs(title = "Set 1", x = "x1", y = "y1") +
  theme_minimal()

p2 <- ggplot(D, aes(x = x2, y = y2)) +
  geom_point(color = "seagreen", size = 3) +
  geom_smooth(method = "lm", se = FALSE, color = "gray50", linetype = "dashed") +
  labs(title = "Set 2", x = "x2", y = "y2") +
  theme_minimal()

p3 <- ggplot(D, aes(x = x3, y = y3)) +
  geom_point(color = "tomato", size = 3) +
  geom_smooth(method = "lm", se = FALSE, color = "gray50", linetype = "dashed") +
  labs(title = "Set 3", x = "x3", y = "y3") +
  theme_minimal()

p4 <- ggplot(D, aes(x = x4, y = y4)) +
  geom_point(color = "purple", size = 3) +
  geom_smooth(method = "lm", se = FALSE, color = "gray50", linetype = "dashed") +
  labs(title = "Set 4", x = "x4", y = "y4") +
  theme_minimal()

grid.arrange(p1, p2, p3, p4, ncol = 2)

cor(D$x1,D$y1) cor(D$x2,D$y2) cor(D$x3,D$y3) cor(D$x4,D$y4)

La representación gráfica siempre va a poder al dato que mide la correlación. Representación gráfica: piedra, correlación: tijera.

¿Esto por qué? Por si hay todavía quien piensa que empezar a analizar grandes conjuntos de datos consiste en analizar las correlaciones de estos entre sí.

Ahora bien, no olvidemos que tenemos un objetivo en mente:

La primera cuestión

esta pregunta es inherentemente causal: busca tratar de cuantificar el impacto del calentamiento provocado por el ser humano. Más adelante veremos estrategias para identificar estos efectos. Antes, tenemos que seguir pensando sobre la correlación.

1. La correlación espuria

Recuerda que algo espurio es algo falso. De la RAE: adj. falso (‖ fingido). falso, refalsado, ficticio, fraudulento, bamba

Primer engaño de la correlación: tenemos siempre acechando sonbre nosotros el peligro de la correlación espuria (falsa). Dos variables pueden estar relacionadas, simplemente, por pura aleatoriedad. Lee, con detenimiento, este fragmento de Piensa Claro.

Lectura 1: el horóscopo: la selección de variables

El horóscopo (I)

El horóscopo (II)

Lo podemos ver con un experimento donde simulamos la idea de OK Cupid:

N<-2500
correlation<-vector()
C<-vector()
X<-rnorm(70000)


for (i in 1:(N-1)) {
  
    Y<-rnorm(70000)
    correlation[i]<-cor(X,Y)#es un vector que almacena las correlaciones entre cada Y y la X inicial
    result<-cor.test(X, Y)  
    C[i]<-result$p.value  #es un vector que almacena el p-valor del test de significación de la correlación
    mean(C<0.05) #te proporciona el % de casos que tienen un p-valor inferior al 5%.
  }

Nota 1: La simulación es una herramienta muy potente para aprender Estadística. En simulación, esencialmente, indicas la estructura del problema que quieres comprender y lo ejecutas para ver qué respuesta da. En este caso, simulamos variables que son completamente independientes y, por puro azar, el 5% de correlaciones serán significativamente distintas de cero.

Nota 2: esto te ayuda, directamente, a entender por qué hay que tomar con mucha cautela los resultados de cualquier test estadísticos. Ese 5% del que hablamos consiste en el Error de Tipo I (rechazar la nula cuando es cierta). Aquí, la nula es cierta: las correlaciones deberán ser 0 porque las variables se han generado de forma independientes. En el propio mecanismo del test, el 5% es la significación de este y, por tanto, con qué probabilidad tendrás un resultado contrario a la nula. Y eso es, aproximadamente, el número de casos-sobre 70000- que obtienes como “correlaciones relevantes”.

Moraleja: ¿por qué no empiezas con una idea teórica rigurosa, en vez de “a ver qué sale”?

Lectura 2 ¿Y ahora qué?

Atribuir causas a efectos no es sencillo porque nos basamos en relaciones estadísticas entre variables. La propia relación puede no implicar causaliad si no se trabaja de manera controlada.

Moraleja: tendrás que razonar mucho antes. (Lee este fragmento de Piensa Claro y de Statistical Rethinking)

¿Causalidad?

Este es un ejemplo típico y que, además, lo cuentan muy bien en este reportaje (fragmento) de la BBC

Es decir, los pisos en Leicester están subiendo mucho de precio. A la vez, está aumentando la inmigración. Puede resultar tentador concluir que la inmigración está causando dicha subida de precios. De hecho, hay un político en el reportaje que no lo pone en duda. Por otro lado, los que saben del negocio piensan que la cuestión no es tan obvia y que el aumento de precios está más relacionado con la oferta y con los tipos de interés. ¿Cómo podríamos analizar esto?

La idea más pura de análisis causal sería hacer un experimento controlado… espera, quizás necesites entender la esencia de estos experimentos. Mira, en este otro reportaje (fragmento) de la BBC lo explican muy bien

Entonces, para poder analizar si los pisos en Leicester aumentan los precios por causas como la inmigración, deberemos tener dos Leicester gemelas. En una de ellas, no hay inmigración y en otra, sí. Al cabo de un tiempo, ya que todo se mantiene igual salvo la inmigración, deberíamos poder analizar dicho impacto causal. Pero… ¿es esto factible? En caso de que lo fuera ¿es moralmente aceptable? Entonces, deberemos volver a la asociación (mejor palabra desde mi punto de vista que correlación, que sólo implica una relación lineal) y empezar a elaborar a partir de ahí.

Corolario

¿Correlaciones (asociaciones) SÍ o NO?

Por otro lado, plantear una pregunta de causa-efecto tampoco es tan obvio. Para ello, puedes ver los primeros cinco minutos de esta clase de la Premio Nobel Esther Dufflo, que habla de ello en el MIT

De este vídeo es importante quedarse con la idea de que hay que plantear con mucho cuidado la pregunta causal: no vale decir “el impacto de la raza en no entrar en el MIT” ya que eso es muy ambiguo. Y que parece razonable tratar de pensar en causas como posibles políticas que podamos accionar (quizás la de la raza es la más dificil de asumir, como dice Esther Dufflo, ya que la raza de un individuo no se puede manipular)

Ahora, para analizar estadísticamente, la posible causa de una variable sobre otra (un efecto), se suele decir “construye un modelo donde incluyas todos los factores potenciales”. Todavía no sabemos qué es construir un modelo, ya lo veremos, pero lo de “todos los factores potenciales” es algo muy dañino. Veremos que, en esencia, hay dos tipos de factores: los confusores y los colusores. Incluir en un modelo un confusor es algo adecuado mientras que, incluir un colusor, es algo arriesgado y que podría provocar sesgo y correlación espuria. Vamos a verlo con detalle.

Lectura 4: Los confusores

Lee este fragmento de Piensa Claro y reflexiona sobre qué es un confusor.

¿Correlaciones SÍ o NO?

Para replicar esta idea, utiliza los datos de “Paradoja”. En este set hay tres variables >- Nota: calificación de un conjunto de alumnos en una prueba >- Tamaño: tamaño medio del aula del colegio en el que están dichos alumnos >- Grupo Social (distinción entre clases sociales de los distintos alumnos) >- Experiencia (si en el colegio de dichos alumnos los profesores con mayor experiencia se asignan a grupos conflictivos).

Estamos interesados en cuantificar el impacto del tamaño del aula (una variable que forma parte de una política arbitraria educativa y, por tanto, es razonable pensar de manera causal) sobre la nota.

library(readxl)
Paradoja <- read_excel("Paradoja.xlsx")
plot(Paradoja$class_size,Paradoja$grade)

como ves, el tamaño del aula tiene un impacto positivo sobre la nota. Evita, cuando encuentres este resultado, decir: “no sale lo que espero”, “es contrario a lo que debería salir”, “no está bien”. Es razonable tener un sesgo teórico (al final somos sujetos con ideas teóricas e ideología y no podemos evitarlo). Pero, para empezar, si buscas al respecto, encontrarás que el efecto esperado del tamaño del aula puede ser positivo o negativo, según diferentes teorías educativas.

A continuación, deberás pensar qué variables utilizarás para “controlar”, esto es, para poder juntar a individuos homogéneos y-por tanto- poder analizar la causa-efecto de una manera menos sesgada (donde no se mezclen individuos muy distintos donde las cosas podrían funcionar de manera diferente).

Aquí, si controlamos por el grupo social, podemos ver que en cada grupo (unidad más homogénea), la relación es negativa y mucho más fuerte. Aquí tenemos un confusor haciendo bien su trabajo.

if (require("ggplot2")) {
  ggplot(Paradoja, aes(x = class_size, y = grade)) +
    geom_point(aes(color =Paradoja$social_status)) +
    geom_smooth(aes(color = Paradoja$social_status), method = "lm") +
    geom_smooth(method = "lm")+xlab("class size")+ylab("grade")
}

Aunque, como dice el texto, hay que tener cuidado: este método resulta perjudicial si se usa en exceso

#Lectura 4: Los colusores

Leamos este otro texto, a continuación:

¿Correlaciones SÍ o N

$¿Correlaciones SÍ o N$

¿Correlaciones SÍ o N

![¿Correlaciones SÍ o N](CAUSAL_SALAD (4).jpg

hay otras variables que parecen inofensivas y que, al hacerlas trabjar como si fueran confusores, nos harán sesgar nuestros resultados. En el ejemplo del tamaño del aula, si ahora controlamos por la variable “experiencia”, podemos ver que la relación sigue siendo positiva.

if (require("ggplot2")) {
  ggplot(Paradoja, aes(x = class_size, y = grade)) +
    geom_point(aes(color =Paradoja$experience)) +
    geom_smooth(aes(color = Paradoja$experience), method = "lm") +
    geom_smooth(method = "lm")+xlab("class size")+ylab("grade")
}

Pero ocurre una cosa:

Un confusor es una variable que antecede a la variable causa y el efecto. Por ejemplo, la clase social es una variable que se “decide” antes del tamaño del aula y del resultado. Ahora bien, la clase social puede afectar al tamaño del aula (la gente más rica podrá permitirse elegir, y elegirán seguramente aulas pequeñas para sus hijos) y afectará también a la nota: podrán permitirse pagar profesores particulares en caso de necesitarlo. Los confusores ayudarán a reducir el sesgo en la estimación del efecto de interés.

Un colusor es una variable que procede de las variables causa y efecto. Por ejemplo, la decisión de que los profesores experimentados den a los grupos conflictivos es una decisión del centro que se toma dado el tamaño del aula (mejor que las aulas grandes las controlen los profesores con más callo) y dados los resultados (ante ciertas notas, quizás profesores más experimentados conseguirán motivar a los alumnos). Los colusores generarán sesgos en la relación causal que se pretende medir.

En general, es conveniente pensar en el tiempo. Los confusores ocurren antes de las variables causa y efecto. Los colusores, ocurren después. Y esto no siempre es fácil y genera discusión y estimula un buen trabajo técnico no automático.

SESIÓN 2: 8 de marzo 2025

Puntos importantes sobre la estimación del efecto causal de la actividad humana en el medio ambiente.

Es importante tener muy claras las variables que se van a utilizar: cómo están medidas y CUÁNDO

Para que podamos medir una relación causa-efecto, la causa tiene que anteceder al efecto en el tiempo. ¿Cuánto tiempo? Eso también forma parte de la investigación. Por ejemplo, imagina que tienes mediciones de CO2 para un conjunto de países en el año 2010 y tienes los excesos de temperatura promedio en cada país en 2010. Ahí va a ser imposible medir el efecto causal porque seguramente se necesite más tiempo desde que se producen las emisiones hasta que cambia la temperatura. ¿Cuánto tiempo? difícil de saber sin datos. Lo que puedes hacer es organizar así tu base de datos:

La BBDD

de tal forma que, con un buen análisis visual, puedas verificar en qué año(s) la relación es más estrecha. De nuevo, es muy importante tener clara la lista de confusores y de colusores.

Los confusores Son variables que anteceden a la causa y el efecto. Por ejemplo, el PIB, el grado de industrialización, etc… De nuevo, tendrás que verificar a qué año se corresponden. Imagina que encuentras que las emisiones del año 2008 tienen, en general, el impacto más claro sobre las temperaturas. Entonces, deberás elegir los confusores del 2008 o anteriores. Nunca positeriores!

Los colusores Son variables que son consecuencia de la causa y el efecto. Por ejemplo, la incidencia de problemas de salud respiratoria de 2011 puede ser consecuencia tanto de las emisiones de CO2 como de la variación en las temperaturas. Una ley posterior a 2010, también.

Los confusores serán variables que tendrás que estudiar conjuntamente con las causas y los efectos. Sin embargo, los colusores serán variables que tendrás que descartar y explicar por qué.

En muchos casos, una misma variable puede ser confusora o colusora: dependerá de en qué momento del tiempo se haya medido. Hay que tenerlo todo muy claro

La construcción de la base de datos es un momento muy relevante del proceso en el que deberás iterar con la pregunta y los datos disponibles.

Recuerda que es también muy importante formular con precisión la pregunta sobre la que vas a investigar. Hay una tendencia a decir cosas del estilo “cómo han evolucionado las emisiones…” esa no es una pregunta CAUSAL, que es lo que pretendemos investigar aquí, sino una pregunta descriptiva.

Lectura del día: “To explain or to predict”

La idea de esta sesión es que, mediante la lectura de partes de un artículo muy influyente, titulado “to explain or to predict” refines las ideas más importantes sobre la modelización estadística/Ciencia de Datos.

PRIMERA PARTE

Primera idea importante: las principales preguntas a las que se va a enfrentar un científico de datos son dos: (i) causal/explicativa (ii) predictiva. Las preguntas “causales” se refieren a tratar de cuantificar el efecto que supone una variable (el tratamiento) sobre otra variable (el efecto). La pregunta predictiva se trata de poder anticipar qué va a ocurrir con una variable (target) cuando se conoce el impacto de otra (predictora). Son cuestiones diferentes aunque pueden estar relacionadas. Para empezar, los modelos estadísticos que se van a emplear no difieren. Los modelos son “cajas tontas” que no saben lo que quieres hacer, solamente son capaces de buscar reglas de asociación entre variables.

Dependiendo del campo en el que estudies (Ciencias Sociales, Salud, etc…) tendrás-con mayor frecuencia-preguntas que busquen explicar un fenómeno o predecirlo. En Ciencias Sociales, por ejemplo, son más comunes las preguntas “causales” o “explicativas”. En Ciencias de la Salud abundan más las predictivas.

Estas preguntas, además, están asociadas a dos maneras de pensar en ciencia: INDUCCIÓN o DEDUCCIÓN. Los inductivistas, básicamente, tratarn de extraer conclusiones generales (teorías) basados en observaciones particulares (una muestra). En Ciencia de Datos, por ejemplo, consistiría en entrenar un modelo estadístico con una base de datos enorme y tratar de depurar lo que se obtiene del modelo con el fin de poder generalizarlo a la población. Se hace en medicina cuando-mediante técnicas de imagen- se trata de buscar si una radiografía predice una enfermedad grave. El científico de datos sólo tiene que organizar la información porque será la máquina la que atribuya la probabilidad de enfermar. Esto parecía muy prometedor:

But faced with massive data, this approach to science — hypothesize, model, test — is becoming obsolete. Consider physics: Newtonian models were crude approximations of the truth (wrong at the atomic level, but still useful). A hundred years ago, statistically based quantum mechanics offered a better picture — but quantum mechanics is yet another model, and as such it, too, is flawed, no doubt a caricature of a more complex underlying reality. The reason physics has drifted into theoretical speculation about n-dimensional grand unified models over the past few decades (the “beautiful story” phase of a discipline starved of data) is that we don’t know how to run the experiments that would falsify the hypotheses — the energies are too high, the accelerators too expensive, and so on.

Este texto proviene de este artículo de divulgación: https://www.wired.com/2008/06/pb-theory/

Sin embargo, diferentes casos de “no éxito” como, por ejemplo, Google Flu, han desinflado esos ánimos (https://www.wired.com/2015/10/can-learn-epic-failure-google-flu-trends/)

Un inductivista está, generalmente, asociado a alguien interesado en predecir bien, aunque no mucho en cómo se ha realizado dicha predicción. Aunque esto puede ser muy reduccionista. En general, y en 2025, los perfiles de científicos suelen ser una combinación de varias ideas.

Los deductivistas, por contra, tratan de ir de lo general a lo particular. En Ciencia de Datos, acudirán primero a un modelo teórico (en nuestro caso, deberemos plantear la estructura causal que queremos estimar, qué variables serán confusores y cuáles colusores) para, a continuación, utilizar los modelos estadísticos para ver cómo de verosímiles son las hipótesis que plantea la teoría a la luz de los datos. Los deductivistas están más centrados en crear modelos que analicen causas y efectos. Aunque la crítica, en muchos casos, a sus procedimientos vienen por el uso indiscriminado del p-valor para la toma de decisiones (https://michaelsully.medium.com/how-p-hacking-compromises-scientific-findings-3d1eef8cf541) De ello, hablaremos más adelante.

Son, por tanto, dos corrientes muy bien establecidas de la Filosofía de la Ciencia que, aunque desconozcas que existan, seguro que las utilizas de uno u otro modo en tu práctica científica.

SEGUNDA PARTE

En la práctica estadística/científica de datos, se suele recomendar seguir estos pasos para una manera de proceder saludable. Voy a realizar algunas críticas a cada uno de los estadios atendiendo a lo que suelen ser errores más comunes (en los que todos hemos caído)

DEFINE GOAL: es tradicional no invertir tiempo en entender bien qué pregunta(s) se quieren responder.

Es importante aquí que tengas interrelación con el cliente y que le devuelvas más preguntas hasta que todo quede claro. Hay que evitar expresiones vagas: la precisión en el mensaje es la clave de la comunicación científica.

DESIGN STUDY AND COLLECT DATA AND PREPARE DATA: de nuevo, la organización de una buena base de datos lleva tiempo. Hay que estar dispuesto a hacerlo con rigor, puesto que los errores en la toma de los datos asegurarán errores -posiblemente graves- en el futuro. Por otro lado, debes tener aquí muy claro el modelo teórico y qué variables potencialmente serán confusoras/colusoras (hay más categorías, pero en este curso nos centramos en las más utilizadas.)

EDA (Exploratory Data Analysis): este es uno de los pasos más infravalorados.

En general, muchas investigaciones despachan esta parte con cuatro gráficos y cuatro estadísticos descriptivos. El análisis exploratorio es, sin embargo, uno de los puntos críticos del trabajo. Un buen análisis exploratorio no tiene por qué ser bonito, sino claro. Por ejemplo: “quiero analizar el impacto del CO2 sobre las temperaturas”. Lo primero que tengo que ver es, en un gráfico, la relación entre ambas variables. ¿Es lineal? ¿Tiene algún comportamiento que llame la atención? Esto te llevará a elegir el método estadístico adecuado (usar un método lineal si la relación no lo es, dará resultados pobres). ¿El CO2 de qué año será más conveniente utilizar? Eso, hasta que no lo analizas gráficamente, no lo sabes. Imagina que el PIB es un confusor. ¿Cómo afecta el PIB a la relación entre el CO2 y las temperaturas?. Quizás tengas que seleccionar tu muestra de acuerdo con diferentes intervalos de la variable PIB (que puedes extraer del histograma, viendo que no tengas pocas observaciones en un intervalo) para comprobar cómo es la relación para cada intervalo.

Etc… en el EDA uno puede ser muy creativo e ir haciéndose preguntas a la luz de lo encontrado. Una vez hecho un buen EDA, tenemos muy claro cómo van a funcionar nuestros modelos explicativos/predictivos.

Choose methods: si la parte anterior se ha hecho bien, esto suele ser inmediato

Evaluate/Validate/Selection: aquí hay mucho que decir (en la sesión 3 hablaremos de ello).

Use model & Report: este será tu objetivo final, reportar con calidad y claridad.

TERCERA PARTE

La selección de variables no será igual para una pregunta “causal” o “explicativa” que para una predictiva. Para la pregunta causal ya hemos dado pistas (confusores, colusores, etc…) pero para la predictiva diremos que no es necesario obsesionarse tanto con los confusores-colusores. Aunque, a veces, cierta idea teórica puede ser necesaria para entender el modelo, en el caso de predecir se necesita algo más importante y NECESARIO: conocer el predictor con antelación. De nada sirve encontrar un modelo predictivo, por ejemplo, para los precios del billete aéreo, que muestre una relación muy estrecha con los precios del petróleo. Si la idea es predecir los precios del billete aéreo para dentro de dos semanas y, por tanto, necesitamos los precios del petróleo de dentro de dos semanas…¿no te parece difícil que la predicción funcione? No confundas asociación entre variables (es lógico: el precio del petróleo está relacionado con el de los billetes) con capacidad predictiva: si el precio del petróleo de hoy me ayuda a predecir el de los billetes de dentro de dos semanas, entonces sí será un buen modelo. Si no, de nada servirá.

Un buen modelo predictivo, y esto es importante, se ajusta a lo que requiere el cliente y es muy transparente sobre lo que puede y no puede hacer.

Exploración del modelo de regresión

Vamos a entender cómo, a través de los modelos de regresión, podemos estimar un impacto causal. Recordemos que, en los datos de “Paradoja” teníamos el tamaño del aula y la nota media de centros educativos (los datos los he arreglado para que no haya tamaños de aula negativos)

 plot(Paradoja$class_size, Paradoja$grade)

la relación entre el tamaño del aula y la nota parece creciente. La estimación del modelo de regresión:

model1 <- lm(grade ~ class_size)

model1 <- lm(grade ~ class_size)
 
Call:
lm(formula = grade ~ class_size)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.7644 -0.8283 -0.0206  0.8414  3.5618 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 3.020539   0.126255   23.92   <2e-16 ***
class_size  0.125432   0.004445   28.22   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.218 on 998 degrees of freedom
Multiple R-squared:  0.4438,    Adjusted R-squared:  0.4433 
F-statistic: 796.4 on 1 and 998 DF,  p-value: < 2.2e-16

La interpretación del coeficiente: 0.125432 es que, por cada incremento en un aula de un alumno adicional, la nota media aumentará en 0.12 puntos.

Recordemos que este efecto no parece ser el que-de verdad- represente lo que estamos interesados en medir. Como ya vimos en la clase anterior, el estatus social podría estar confundiendo esta relación.

Introduzcamos dicha variable en la regresión

model2 <- lm(grade ~ class_size + social_status)
summary(model2)
 
Residuals:
    Min      1Q  Median      3Q     Max 
-3.7451 -0.6440 -0.0070  0.6636  3.9292 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)     6.18253    0.18830  32.834   <2e-16 ***
class_size     -0.10316    0.01138  -9.064   <2e-16 ***
social_status2  1.24021    0.12282  10.098   <2e-16 ***
social_status3  2.44446    0.15457  15.814   <2e-16 ***
social_status4  3.78230    0.20475  18.473   <2e-16 ***
social_status5  4.83201    0.25080  19.266   <2e-16 ***
social_status6  6.15032    0.29029  21.187   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.009 on 993 degrees of freedom
Multiple R-squared:  0.6201,    Adjusted R-squared:  0.6178 
F-statistic: 270.1 on 6 and 993 DF,  p-value: < 2.2e-16

En este modelo, si te das cuenta, el efecto del tamaño del aula es acorde al que nos sugieren los gráficos observados en la clase anterior al controlar por el confusor. El incremento de un alumno adicional en el aula hace esperar, en promedio, una disminución de 0.10 puntos en la nota. Aspectos importantes:

Hay una obsesión por el p-hacking, que consiste en seleccionar variables utilizando el p-valor. Esta práctica está muy criticada en la actualidad, porque no responde a criterios rigurosos estadísticos.

Puedes leer el manifiesto de la ASA (American Statistical Association),

ser consciente de lo que ha implicado en la comunidad científica:

TERCERA PARTE

o ver estos vídeos donde se explican estas ideas:

1.- ¿Qué NO es un p-valor?
2.- La ASA nos explica su texto sobre el p-valor
3.- ¿Cómo trabajar en Ciencia de Datos evitando el mal uso del p-valor?

El R cuadrado es otra medida que no se utiliza, en general. Para empezar, puede ser manipulado fácilmente (añadiendo variables al modelo) y sabemos que con datos de individuos los R cuadrado suelen ser bajos y con datos de series temporales muy altos.

En general, usaremos otros criterios de los que se hablará en la asignatura de Análisis de Datos. Finalmente, si introducimos la variable “experiencia” que, como dijimos, podría ser un colusor:

model2 <- lm(grade ~ class_size + social_status+experience)
summary(model2)
 
Call:
lm(formula = grade ~ class_size + social_status + experience)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4976 -0.5237  0.0365  0.5587  3.1435 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)     4.78054    0.18654  25.627  < 2e-16 ***
class_size      0.01198    0.01221   0.982    0.326    
social_status2  0.67693    0.11374   5.951 3.68e-09 ***
social_status3  1.32939    0.15218   8.736  < 2e-16 ***
social_status4  2.06583    0.20829   9.918  < 2e-16 ***
social_status5  2.53238    0.26119   9.696  < 2e-16 ***
social_status6  3.48602    0.30240  11.528  < 2e-16 ***
experience     -1.29270    0.07755 -16.669  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.8926 on 992 degrees of freedom
Multiple R-squared:  0.7032,    Adjusted R-squared:  0.7011 
F-statistic: 335.8 on 7 and 992 DF,  p-value: < 2.2e-16

El efecto del tamaño del aula sobre la nota vuelve a ser positivo (y muy pequeño). Esto redunda en la idea de “ensalada causal”: la mezcla de confusores y colusores puede provocar un sesgo en la estimación del efecto de interés. No por “meter” más variables estaremos mejorando un modelo.

Próximos pasos:

La próxima sesión será el 23 de mayo. En ella querré ver el análisis descriptivo extenso y cuidadoso de las variables que conforman tu pregunta, así como todas las conclusiones y anotaciones que os surjan al hacer el análisis. Me lo iréis presentando por grupos de trabajo, lo discutiremos y veremos los siguientes pasos que tenéis que dar para la estimación de modelos. Esto sí será evaluable.

Espero, por tanto, vuestros correos con todas las dudas que os surjan.

Clase1_ADD

Jorge Herrera de la Cruz

2025-02-05