Paquetes de uso frecuente en el curso library(ggplot2) library(plotly) library(tidyverse)

Tenemos dos muestras, n1 y n2. Queremos saber si las dos pertenecen a la misma población (N). Supongamos que nuestro marco teórico nos da suficiente evidencia para predecir (según la hipótesis de trabajo o investigación) que las muestras son de diferentes poblaciones (N1 y N2), y específicamente, que mu1<mu2. Entonces, nuestra hipótesis estadística (hipótesis Nula), es que ambas, n1 y n2, provienen de la misma N.

n1
Promedio = 35.63
desv.est = 3.63
error.est = 0.57

n2
Promedio = 38.39
desv.est = 4.34
error.est = 0.67

Podemos ver la distribución de la variable con el histograma siguiente.

Muestro los límites de confianza para el promedio de la población, para cada muestra (usando los grados de libertad gl corrspondientes).

IC95 = ȳ +/- (qt() * std.error)

En ROJO
n1=40, gl= 39, q= 2.023

35.6 +/- (2.023* 0.57)

En AZUL
n1=42, gl= 41, q= 2.0195

38.4 +/- (2.0195* 0.67)

T TEST

Ya desde la gráfica anterior, podemos deducir que la prueba de T nos va a decir que las muestras vienen de dos poblaciones difernetes, N1y N2. ¿Cómo lo sabemos?
En el gráfico de arriba, podemos ver que los IC.95% para los promedios poblacionales de cada muestra, no se traslapan. ENtonces lo que nos va a decir la prueba de T, es que la cantidad de errores estándar que separa a las muestras, es mayor que lo que hubiéramos esperado, si las dos muestras hubieran salido de la misma población.

t <- t.test(n1, n2, var.equal = TRUE, )
t$statistic                           ## T
##         t 
## -3.122579
t$p.value                             ## P Value
## [1] 0.002495642

Atención a la P y a t.

El estadístico de t= -3.123 , se ve en rojo en el gráfico de abajo. La P = 0.0025 es el área sin sombrear a la izquierda de la linea roja de t. El área sombreada es P= 0.95, y el error alfa (1-P=0.05) es el área sin sombrear