Laboratorio 5: Fundamentos de las pruebas de hipótesis
5.1 R
En este laboratorio, uno de los objetivos principales es interpretar los datos de los experimentos para conocer si un factor puede llegar a influir en otro. Esto lleva a que se esperen diferencias cuando la manipulacion experimental funciona y que no se encuentren diferencias cuando esta no funciona. A la vez, se tendra en cuenta el azar y se tomaran medidas para entender que tan probable es que los cambios sean debido al azar y cuales diferencias no. Esto gracias a la inferencias estadistica, tambien conocida como prueba de hipotesis.
5.1.1 The Crump Test/ Prueba de Crump
Gracias a la prueba de Crumo puedes descubrir que tipo de diferencias entre dos condiciones pueden ser encontradas por casualidad. Demostrando asi el efecto del azar. Luego, se comparan los resultados del experimento con la distribucion del azar para determinar si el azar fue el culpable de la diferencia.
5.1.1.1 Haga suposiciones sobre la distribución para su medición
El primer paso a seguir en la prueba de camp es estimar la distribucion de la medicion. El laboratorio plantea “Por ejemplo, supongamos que medimos algo que proviene de una distribución normal con media = 75 y desviación típica = 5.” En este caso, se plantea un ejemplo donde se busca medir la relacion entre la manipulacion A y una mejora en el rendimiento de la prueba, comparandolo con un grupo de control sin manipulacion y buscando simular las diferencias que pueden ocurrir por el azar. Para esto, se supone una puntuacion unica para cada sujeto: # rnorm(n, mean=75, sd=5).
5.1.1.2 Haz una suposicion sobre N
N es el numero de sujetos presentes en cada condicion, en este caso, se utilizan 20.
5.1.1.3 Elija el número de simulaciones a ejecutar
En este punto, se ejecuta un ejercicio falso sin manipulacion y se repite mediante la simulacion de monte carlos. El laboratorio plante hacerlo de la siguiente manera:
Es posible repetir la simulacion desde 100 hasta 10000 veces. En ciertos casos, es posible observar el valor maximo y concluir que ese valor ocurre aproximadamente el numero de las veces que lo hayamos simulado, como en 100 veces. El valor maximo de la mayor diferencia solo ocurre una vez, por lo que ocurre 1 de cada 100 veces solo por casualidad.
Entre mayor sea el numero, mas restrictivo se vuelve, usualmente se sugiere utilizar numero altos debido a que entre mayor sea el numero, se consideran mas confiables los resultados.
5.1.1.4 Ejecutar la simulación
library(ggplot2)
# set paramaters of simulation
sims_to_run <- 100
sample_n <- 20
dist_mean <- 75
dist_sd <- 5
# run simulation
mean_differences <- length(sims_to_run)
for(i in 1:sims_to_run){
mean_control_A <- mean(rnorm(sample_n, dist_mean, dist_sd))
mean_control_B <- mean(rnorm(sample_n, dist_mean, dist_sd))
mean_differences[i] <- mean_control_A - mean_control_B
}
# plot the distribution of mean difference scores
plot_df <- data.frame(sim=1:sims_to_run,mean_differences)
ggplot(plot_df,aes(x=mean_differences))+
geom_histogram(bins=20, color="white")+
theme_classic()+
ggtitle("Histogram of mean differences between two samples (n=20) \n
both drawn from the same normal distribution (u=75, sd=5")+
xlab("mean difference")
5.1.1.5 encontrar el rango
Con el histograma y los resultados es posible observar que el histograma brinda diferencias distintos de cero. Este muestra ademas todas las diferencias de media producidas gracias al azar. La mayoria de las diferencias estan entre -2 y +2, aunque algunas son mas negativas mientras que otras son mas positivas.
Para encontrar el efecto que tuvo el azar en las 100 simulaciones, es necesario encontrar el rango, valor minimo y maximo. Debido a que estos nos indican la diferencia entre la media mas negativa y la mas positiva que produjo el azar. Asi sabiendo ademas los limites que tuvo el azar en esta simulacion.
Para esto se utilizan las funciones min()y max()para obtener el valor mínimo y máximo.
min(mean_differences)
## [1] -3.246844
max(mean_differences)
## [1] 4.246326
Con esto, es posible saber que la mayor diferencia negativa fue de -2.577 y la mayor diferencia positiva fue de 3.881. Ademas, se sabe que cualquier diferencia media dentro del rango se produjo por casualidad en esta simulacion. y cualquier diferencia media fuera del rango no se produjo al azar en la simulacion.
5.1.1.6 Hacer inferencias
En este apartado, el laboratorio plantea algunas preguntas y respuestas. Debido a la forma en la que estan escritas, las copiare y pegare, mientras realizo anotaciones que me parezcan necesarias sobre estas.
Primer escenario: Se toman 20 números de una distribución normal con media = 75 y desviación estándar = 5. La media de la muestra es 76. Luego, se toma otra muestra del mismo tamaño, de la misma distribución, y la media de la segunda muestra es 78. La diferencia de medias es +1 (o -1, según cómo se calcule la diferencia).
Pregunta : Según el histograma, ¿una diferencia media de 1 o -1 se produjo por casualidad? Respuesta : Sí, está dentro del rango. #Se puede observar la manera en la que el rango es una parte clave para determinar el azar dentro de un experimento o en este caso, simulacion.
Escenario dos: Igual que el anterior, pero la media de la primera muestra es 74 y la media de la segunda muestra es 80, lo que muestra una diferencia de media de 6, o -6.
Pregunta : Según el histograma, ¿una diferencia media de 6 o -6 se produjo por casualidad?
Respuesta : No, está fuera del rango. # Al igual que el ejemplo anterior, es una demostracion directa del valor del rango y los valores para determinar el azar, esta vez con el caso opuesto.
Escenario tres: Se realiza un experimento. El grupo A recibe instrucción adicional que debería mejorar su rendimiento en un examen. El grupo B realiza el examen, pero sin instrucción. Hay 20 personas en cada grupo. Tienes una idea bastante clara de que las puntuaciones del grupo B seguirán una distribución normal con una media de 75 y una desviación típica de 5. Lo sabes porque has realizado el examen muchas veces, y así es como suele ser la distribución. Estás haciendo una estimación fundamentada. Descubres que el rendimiento medio del grupo A (con instrucción adicional) fue del 76 %, y el del grupo B (sin instrucción adicional) fue del 75 %. La diferencia de medias tiene un valor absoluto de +1.
Pregunta n° 1 : Según el histograma, ¿podría el azar por sí solo haber producido una diferencia absoluta media de +1?
Respuesta : Sí, está dentro del rango.
Pregunta n.° 2 : Parece que el grupo A obtuvo mejores resultados en la prueba (en promedio), en un 1 %, en comparación con el grupo de control B. ¿Está dispuesto a creer que su instrucción adicional provocó el aumento en el desempeño en la prueba ?
Respuesta : La respuesta depende de usted. No hay una respuesta correcta. Podría fácilmente darse el caso de que su instrucción adicional no tuviera ningún efecto y que la diferencia en el rendimiento promedio de la prueba se produjera por casualidad. Mi inferencia es que no sé si mi instrucción tuvo algún efecto; no puedo determinar su posible influencia por casualidad. (La informacion es insuficiente para tomar una decision o conclusion sobre el resultado)
Escenario cuatro: Igual que el 3, excepto que la media del grupo A (que recibe instrucción) es del 90 %. La media del grupo B (sin control de instrucción) es del 75 %. La diferencia de media absoluta es del 15 %.
Pregunta n° 1 : Según el histograma, ¿podría el azar por sí solo haber producido una diferencia absoluta media de +15?
Respuesta : No, está muy fuera del rango.
Pregunta n.° 2 : Parece que el grupo A obtuvo mejores resultados en la prueba (en promedio), en un 15 %, en comparación con el grupo de control B. ¿Está dispuesto a creer que su instrucción adicional provocó el aumento en el desempeño de la prueba ?
Respuesta : La respuesta la decides tú. No hay una respuesta correcta. Sabes, por la simulación, que el azar nunca produjo una diferencia tan grande, y que producir una diferencia tan grande por casualidad sería como ganar la lotería (algo que casi nunca te pasa). Mi inferencia es que creo que el azar no produjo la diferencia; estoy dispuesto a creer que mi instrucción sí la causó. #Los resultado indican que la inferencia brindada por el laboratorio puede ser cierta, la diferencia es considerable y lo suficientemente fuera del rango para descartar el azar.
5.1.1.7 Planificación de su experimento
En este punto, se utiliza al experimento hipotetico planteado anteriormente, pero se intenta amplificar de modo que el experimento sea mas especifico. En este caso, esto se realiza mediante la planificacion del tamaño de la muestra, proceso en donde se elige la cantidad de sujetos que el investigador busca en cada condicion.
En el experimento hipotetico, el instructor busca encontrar el numero de sujetos necesarios para que exista una diferencia del 2% en el grupo con instruciones adicional respecto al grupo de control, en donde ademas, ese aumento no se deba al azar.
En otras palabras, se busca generar una distribución de diferencias de medias que nunca produzca una diferencia de medias de -2 % a +2 % (ni una sola vez de cada 100). Para esto, se puede volver a ejecutar este código y modificar N hasta que el mínimo y el máximo sean siempre menores que -2 a +2.
En este codigo, es importante cambiar el numero por “samble_n”. A medida que el numero aumente, el rango de las diferencias minimas por azar se hara mas pequeño. Eventualmente, este sera menor a menos -2 a +2. Cuando logre esto, la N que se necesito sera la respuesta correcta. Cuando se encuentra una diferencia de 2 o mas, es posible descartar al azar debido a que este no es capaz de lograr esa diferencia ni siquiera 1 vez de 100.
library(ggplot2)
# parametros de la simulacion
sims_to_run <- 100
sample_n <- 20
dist_mean <- 75
dist_sd <- 5
# correr simulacion
mean_differences <- length(sims_to_run)
for(i in 1:sims_to_run){
mean_control_A <- mean(rnorm(sample_n, dist_mean, dist_sd))
mean_control_B <- mean(rnorm(sample_n, dist_mean, dist_sd))
mean_differences[i] <- mean_control_A - mean_control_B
}
# plot the distribution of mean difference scores
plot_df <- data.frame(sim=1:sims_to_run,mean_differences)
ggplot(plot_df,aes(x=mean_differences))+
geom_histogram(bins=20, color="white")+
theme_classic()+
ggtitle("Histogram of mean differences between two samples (n=20) \n
both drawn from the same normal distribution (u=75, sd=5")+
xlab("mean difference")
min(mean_differences)
## [1] -3.004692
max(mean_differences)
## [1] 4.373669
En los resultados de la simulacion es posible observar lo planteado anteriormente. Esto debido a que se puede observar una diferencia de media mayor a -2 a +2 que considerando el tamaño de la muestra no puede deberse al azar.
5.1.2 Crumping datos reales
Se realizara una prueba Crump con el fin de evaluar los resultados de un articulo publicado. Esto pensando en fortalecer la intuicion respecto a si una diferencia podria deberse al azar o a un efecto real.
5.1.2.1 Aprendizaje mejorado mediante pruebas
Se utiliza un articulo de la psicologia cognitiva en donde se investiga acerca de practicas docentes que ayudan a mejorar la memoria y compresion, por esto, se estudia papel que tienen los examenes de corta duracion en la memoria y el aprendizaje. De modo, que los estudiantes realicen cuestionarios de corta duracion al momento de estudiar el material brindado por los docentes.
El laboratorio deja un ejemplo de este tipo de articulos ” Aquí hay un enlace a un artículo que demuestra el efecto del aprendizaje mejorado mediante pruebas .
La cita es: Roediger III, HL, y Karpicke, JD (2006). Aprendizaje mejorado con pruebas: Realizar pruebas de memoria mejora la retención a largo plazo. Psychological Science, 17(3), 249-255.”
5.1.2.2 Breve resumen
En el articulo los sujetos aprendieron sobre algunos temas en dos condiciones. En una condición (estudio-estudio), estudiaron algunos temas y luego los volvieron a estudiar. En la otra condición (estudio-examen), estudiaron algunos temas y luego realizaron un cuestionario sobre ellos en lugar de estudiarlos una vez más.
Todos recibieron pruebas de seguimiento para ver qué habían aprendido y recordado. Regresaron una semana después y realizaron la prueba. Los investigadores midieron la proporción media de cosas recordadas en ambas condiciones. Descubrieron que la condición de estudio-examen tenía una proporción media mayor de unidades de ideas recordadas que la condición de estudio-estudio. Por lo tanto, la diferencia entre las proporciones medias sugiere que realizar una prueba rápida después de estudiar fue beneficioso para recordar el contenido. Los investigadores también realizaron pruebas estadísticas y concluyeron que la diferencia encontrada probablemente no se debía al azar.
Para esto, se aplicara una prueba crump para comprobar si es posible volver a obtener los mismo resultados o se encontrara una diferencia que lleve a otra conclusion sobre el papel del azar.
Debido a la estructura del resumen, se considera apropiado mantenerlo similar para explicar el experimento que plantea el articulo y los elementos que mas adelante seran parte de un codigo que permita comprobar la hipotesis propuesta.
En una semana, el grupo estudio-estudio tuvo una media de .42 mientras que el grupo estudio-prueba de .56, con diferencia de .14, con esto se supone una media conjunta de .49 con 40 participantes por grupo, teniendo una desviación estándar estimada de .21, teniendo una cercanía de .17.
Una semana después de las condiciones iniciales de aprendizaje los participantes volvieron a realizar una prueba de retención para asi evaluar su aprendizaje. Con esto se evidencio que la proporción media de “unidades de ideas” recordadas fueron, en el grupo estudio-estudio: 42% o .42 y en el grupo estudio-prueba: 56% o .56. La diferencia media fue de .56 - .42 = .14, lo que representa una mejora considerable del 14%. Esto es realmente significativo. Lo que queremos saber es si el azar podría producir una diferencia del 14%, o .14, por sí solo.
# 5.1.2.5
library(ggplot2)
# set paramaters of simulation
sims_to_run <- 100 # Se corre la simulación 100 veces.
sample_n <- 40 # La muestra es 40
dist_mean <- .49 # Media de la distribución
dist_sd <- .168 # Desviación estándar de distribución
# run simulation
mean_differences <- length(sims_to_run)
for(i in 1:sims_to_run){
mean_control_A <- mean(rnorm(sample_n, dist_mean, dist_sd))
mean_control_B <- mean(rnorm(sample_n, dist_mean, dist_sd))
mean_differences[i] <- mean_control_A - mean_control_B
}
# plot the distribution of mean difference scores
plot_df <- data.frame(sim=1:sims_to_run,mean_differences)
ggplot(plot_df,aes(x=mean_differences))+
geom_histogram(bins=20, color="white")+
theme_classic()+
ggtitle("Histogram of mean differences in proportion remembered")+
xlab("mean difference")
min(mean_differences)
## [1] -0.06202745
max(mean_differences)
## [1] 0.1001179
Según la simulación, las diferencias aleatorias oscilaron entre -0.089 y 0.078. Como la diferencia observada de 0.14 quedó fuera de ese rango, no pudo haber sido producto del azar.
La prueba de aleatorización (randomization test) es un método estadístico que se usa para evaluar si una diferencia observada podría ser debido al azar. Este procedimiento consiste en combinar los valores de los grupos A y B y asi mezclarlos aleatoriamente y reasignarlos a ambos grupos en varias repeticiones. En cada repetición se calcula la diferencia de medias y se guarda, para luego hacer un histograma.
Ejemplo:
# 5.1.3 test de aleatoriedad
# --- Datos originales ---
# Supongamos que estos son los datos del estudio:
groupA <- c(0.42, 0.40, 0.38, 0.45, 0.43, 0.41, 0.44, 0.39, 0.46, 0.40)
groupB <- c(0.56, 0.54, 0.57, 0.55, 0.60, 0.52, 0.58, 0.59, 0.53, 0.56)
# Diferencia observada entre medias reales
obs_diff <- mean(groupB) - mean(groupA)
obs_diff
## [1] 0.142
# --- Prueba de aleatorización ---
set.seed(123) # para reproducibilidad
n_iter <- 5000 # número de permutaciones
diffs <- numeric(n_iter)
# Combinar los datos en un solo "pozo"
combined <- c(groupA, groupB)
nA <- length(groupA)
for (i in 1:n_iter) {
shuffled <- sample(combined) # mezclar al azar
newA <- shuffled[1:nA] # asignar primera mitad al grupo A
newB <- shuffled[(nA+1):length(combined)] # y el resto al grupo B
diffs[i] <- mean(newB) - mean(newA) # guardar diferencia de medias
}
# --- Graficar el resultado ---
hist(diffs,
breaks = 30,
main = "Distribución de diferencias por azar",
xlab = "Diferencia media (B - A)",
col = "lightblue",
border = "white")
# Línea que marca la diferencia observada
abline(v = obs_diff, col = "red", lwd = 2)
## 5.1.3.1 Run the randomization test
# get sample numbers from one experiment
Group_A <- rnorm(20,50,10)
Group_B <- rnorm(20,50,10)
# randomize the numbers, compute mean difference, save the mean difference
mean_differences <- length(1000)
for(i in 1:1000){
shuffle_numbers <- sample(c(Group_A, Group_B), replace=FALSE)
new_group_A <- shuffle_numbers[1:20]
new_group_B <- shuffle_numbers[21:40]
mean_differences[i] <- abs(mean(new_group_A)-mean(new_group_B))
}
# plot the histogram
plot_df <- data.frame(sim=1:1000,mean_differences)
ggplot(plot_df,aes(x=mean_differences))+
geom_histogram(bins=20, color="white")+
theme_classic()+
ggtitle("Histogram of mean differences")+
xlab("mean difference")
Se puede ver los tipos de diferencias medias absolutas que pueden surgir
por el azar.
Para el criterio de decisión y de aceptar si algo se debe a la aleatoriedad se usa el nivel alfa, usualmente este siendo .05 que sería lo que se llegaría a aceptar como el máximo nivel de probabilidad de error, por lo que este alfa definiria un punto de corte en el histograma.
ordered_differences <- sort(mean_differences) # sort
alpha_cutoff <- ordered_differences[950] # pick 950th number
alpha_cutoff
## [1] 5.410441
# add to histogram using vline
ggplot(plot_df,aes(x=mean_differences))+
geom_histogram(bins=20, color="white")+
geom_vline(xintercept=alpha_cutoff)+
theme_classic()+
ggtitle("Histogram of mean differences")+
xlab("absolute mean difference")
Nuestro criterio alfa se ubica en 5.9 en el eje X, lo que indica que diferencias medias de 5.9 o mayores ocurren solo el 5% de las veces por azar. Si la diferencia supera ese valor, podemos concluir que probablemente no fue causada por azar; si es menor, podría haber sido producto del azar.
Considere tomar medidas de una distribución normal con media = 100 y desviación estándar = 25. Tendrá 10 sujetos en dos condiciones (20 sujetos en total). Tomará 1 medida (puntuación de muestra 1) de cada sujeto.
D)Informar sobre una diferencia media que, según la simulación, se observó por azar.
set.seed(42)
n_sims <- 100
sample_n <- 10
mu <- 100
sd <- 25
delta <- 5
diffs_null <- numeric(n_sims)
diffs_alt <- numeric(n_sims)
for (i in 1:n_sims) {
a <- rnorm(sample_n, mean = mu, sd = sd)
b <- rnorm(sample_n, mean = mu, sd = sd)
diffs_null[i] <- mean(b) - mean(a)
}
for (i in 1:n_sims) {
a <- rnorm(sample_n, mean = mu, sd = sd)
b <- rnorm(sample_n, mean = mu + delta, sd = sd)
diffs_alt[i] <- mean(b) - mean(a)
}
mean_diff_null <- mean(diffs_null)
sd_diff_null <- sd(diffs_null)
mean_diff_alt <- mean(diffs_alt)
sd_diff_alt <- sd(diffs_alt)
mean_diff_null
## [1] 0.5018163
sd_diff_null
## [1] 11.57615
mean_diff_alt
## [1] 4.943046
sd_diff_alt
## [1] 11.88772
max_diff_alt <- max(diffs_alt)
min_diff_alt <- min(diffs_alt)
mean_diff_no_azar <- mean_diff_alt
max_diff_alt
## [1] 32.79494
min_diff_alt
## [1] -27.43757
mean_diff_no_azar
## [1] 4.943046
La diferencia entre medias maxima obtenida por parte de la simulacion de Crump fue de 32.79 , es decir, un considerable diferencias entre ambas medias que supera con una amplia diferencia al limite de -2 a +2 para determinar que fue dado por azar, y este dato nos permite saber que cualquier resultado que sea mayor o que este fuera del rango no se debio al azar, sino a un efecto real.
La diferencia entre medias minima obtenida por parte de la simulacion de Crump fue de -27.43, este dato es fundamental ya que nos permite conocer el rango y con ese dato podemos descartar los datos que se dieron por casualidad o efecto real. Esto debido a que cualquier dato que caiga dentro del rango es casualidad, mientras aquellos que caen fuera son de un efecto real.
Un valor obtenido el cual no fue atribuido al azar es 4.94, esto debido a que este numero es mayor a -2 a +2, por lo que al estar fuera de ese rango, es poco probable de que una casualidad alcance un valor tan extremo, principalmente en una prueba de simulacion de 100 veces, donde si todo fuera azar, es poco probable de que diera ese dato al menos 1 de 100 veces.
D)Según la simulación, la diferencia media observada por azar entre las dos condiciones fue de aproximadamente 0.5 puntos, es decir, una variación mínima atribuible al azar del muestreo.
E)¿Cuál es la diferencia media más pequeña que, si la encontraras en un experimento, te haría estar dispuesto a considerar la posibilidad de que la diferencia fuera poco probable que se debiera al azar?
Con este tamaño de muestra, una diferencia de alrededor de 22 puntos o más entre los grupos sería lo bastante grande como para pensar que no se debe solo al azar.
Se relaciona con ambas disribuciones en la manera en que muestra como varian las diferencias entre grupos cuando estas se deben unicamente al azar, de modo a que es posible observar cuales de las diferencias entre dos condiciones fueron resultado de un efecto real o a causa del azar. Esto gracias a que en estas distribuciones, cada diferencia de medias simulada representa un posible resultado que podria obtenerse si no existiera un efecto real de la manipulacion y asi inferir el efecto que puede llegar a tener el azar en las diferencias. De ese modo, refleja el impacto del error de muestreo, de las fluctaciones de naturales que surgen al seleccionar diferentes muestra de una misma poblacion.
En una distribucion de muestreo de las diferencias de medias generada por la prueba de Crump, los valores mas cercanos a cero son los que tienen una mayor probabilidad de ser producidos debido al azar. Esro es gracias a que cuando no existe un efecto real, las medias de los grupos tienden a ser muy similares, y las diferencias grandes ocurren con poca frecuencia. Por esto mismo, los resultados de diferencias mayores a -2 a +2 suelen ser un efecto real, mientras que los inferiores a este podrian llegar a ser producidos por el azar. En otras palabras, el centro de la distribucion suele ser el mas propenso a reprrsentar las diferencias que el azar produce con mayor frecuencia, mientras que los extremos son los menos problables a ser producidos por azar.
Los valores que son menos probables a producirse o a aparecer por azar son aquellos que se encuentran muy alejados del promedio de la distribución de diferencia simulada, o los valores extremos. Estos valores extremos ocurren raramente si no existe un efecto real, por lo que son los menos probables bajo el supuesto de que solo actúe el azar.
D)Si la diferencia media obtenida en tu experimento es muy grande y queda fuera del rango de la distribución de diferencias esperadas por azar, según la simulación del Crump test, concluirías que es poco probable que esa diferencia se deba al azar. En otras palabras, la evidencia sugiere que la manipulación sí tuvo un efecto real sobre la variable dependiente.