rm(list=ls()) #Limpiar entorno de trabajo
setwd("/home/daniel/Dropbox/U CENTRAL/02 2020/01 Primer semestre 2020/Analisis de datos cuantitativos I/Clases/12") #Escribir el directorio en que va a trabajar

Prueba Z (Z-test) para una muestra

La prueba Z para una muestra permite evaluar las siguientes hipótesis nulas:

\(H_0\): \(mu = \mu_0\) (contraste bilateral).
- \(H_0: \mu \leq \mu_0\) (contraste unilateral).
\(H_0: \mu \geq \mu_0\) (contraste unilateral).

Sus supuestos de aplicación son:

Los datos corresponden a una variable continua.
- El estadístico de prueba sigue una distribución normal, \(Z \sim \mathcal{N}(\mu,\,\sigma^{2})\,.\).
- La muestra es un subconjunto aleatorio de la población (muestra probabilística).
- Se conoce \(\sigma\) en la población.

Veamos un ejemplo.

Supongamos que se aplicó una prueba estandarizada a una muestra aleatoria de 200 estudiantes de cuarto año básico en la ciudad. Los resultados tienen una distribución normal, con una media de 72 y una deviación estándar de 8.

set.seed(124) #Fijar semilla aleatoria
resultados <- rnorm(mean=72, sd=8, n=200) #Generar datos aleatorios con distribución N(70,8) y un n de 200

El año anterior se aplicó esta misma prueba a todos los estudiantes de cuarto año básico en la ciudad. Su resultado promedio fue 75, con una desviación estandar de 5.

# Definir media bajo la hipotesis nula
mu0 <- 75

# Definir la desviacion estandar de la poblacion
sigma <- 5

Se necesita saber si los estudiantes de este año tienen un desempeño igual o distinto que los del año anterior.

Por lo tanto,

\(H_0: \mu = 75\).
\(H_1: \mu \neq 75\).

Además, se decide trabajar con un nivel de confianza del 95% y un nivel de significación de \(\alpha = 0.05\).

#Calcular el estadistico Z
z <- (mean(resultados)-mu0)/(sigma/(sqrt(length(resultados))))

#Calcular el valor p
p_bilateral=2*pnorm(-abs(z)) 

# Obtener resultados
z

## [1] -9.467732

p_bilateral

## [1] 2.859865e-21

Con un 95% de confianza, existe evidencia suficiente para rechazar la hipótesis nula (\(Z = -9.47, \; p < 0.05\)) sobre la igualdad de medias obtenidas en los resultados de la prueba estandarizado. Por lo tanto, es posible sostener que los estudiantes de este año han logrado un menor nivel de conocimientos y habilidades que los del año anterior.

Si el contraste se hubiera enfocado hacia saber si los estudiantes de este año tienen un desempeño igual o menor que los del año anterior. Entonces, la hipótesis nula hubiera sido definida como:

* $H_0: \mu \leq \mu_0$ (contraste unilateral).

p_unilateral1 = 1-pnorm(z)
p_unilateral1 # H0: mu es menor o igual a 75

## [1] 1

Con un 95% de confianza, existe evidencia suficiente para no rechazar la hipótesis nula (\(Z = -9.47, \; p > 0.05\)). Por lo tanto, es posible sostener que los estudiantes de este año han logrado, en promedio, un nivel de conocimientos y habilidades menor o igual que los del año anterior.

Si el contraste se hubiera enfocado en saber si los estudiantes de este año tienen un desempeño igual o mayor que los del año anterior. Entonces, la hipótesis nula hubiera sido definida como:

\(H_0: \mu \geq \mu_0\) (contraste unilateral).

p_unilateral2 = pnorm(z)
p_unilateral2 # H0: mu es mayor o igual a 75

## [1] 1.429932e-21

Con un 95% de confianza, existe evidencia suficiente para rechazar la hipótesis nula (\(Z = -9.47, p < 0.05\)). Por lo tanto, es posible sostener que los estudiantes de este año han logrado, en promedio, un nivel de conocimientos y habilidades menor que los del año anterior.

Prueba T (T-test) para una muestra

La prueba T para una muestra permite evaluar las siguientes hipótesis nulas:

\(H_0\): \(mu = \mu_0\) (contraste bilateral).
- \(H_0: \mu \leq \mu_0\) (contraste unilateral).
\(H_0: \mu \geq \mu_0\) (contraste unilateral).

Sus supuestos de aplicación son:

Los datos corresponden a una variable continua.
- El estadístico de prueba sigue una distribución aproximadamente normal, \(T \sim \mathcal{N}(\mu,\,\sigma^{2})\,\).
La muestra es un subconjunto aleatorio de la población (muestra probabilística).

La ventaja de la prueba T frente a la prueba Z es que no requiere conocer la desviación estándar poblacional (\(\sigma\)).

Además, esta prueba es robusta a la violación del supuesto de que el estadístico T sigue una distribución aproximadamente normal \(T \approx \mathcal{N}(\mu,\,\sigma^{2})\,\). Esto último ocurre cuando el tamaño muestral es muy pequeño (\(n < 32\)) o pequeño (\(n < 152\)).

Veamos un ejemplo.

Supongamos que se aplicó otra prueba estandarizada a una muestra aleatoria de 60 estudiantes de cuarto año básico en la ciudad.

set.seed(124) #Fijar semilla aleatoria
resultados <- rnorm(mean=78, sd=8, n=60) #Generar datos aleatorios con distribución N(78,8) y un n de 60
mean(resultados) #77.2

## [1] 77.19902

sd(resultados) #6.01

## [1] 6.013186

Los resultados tienen una media de 77.20 y una deviación estándar de 6.01.

Los desarrolladores de la prueba estandarizada han fijado como umbral de logro a un puntaje de 70. Se necesita saber si los estudiantes de la ciudad tienen un desempeño igual o distinto a 70.

Por lo tanto,

\(H_0: \mu = 70\).
\(H_1: \mu \neq 70\).

Además, se decide trabajar con un nivel de confianza del 95% y un nivel de significación de \(\alpha = 0.05\).

t.test(resultados, mu=70, conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  resultados
## t = 9.2735, df = 59, p-value = 4.011e-13
## alternative hypothesis: true mean is not equal to 70
## 95 percent confidence interval:
##  75.64565 78.75239
## sample estimates:
## mean of x 
##  77.19902

Con un 95% de confianza, existe evidencia suficiente para rechazar la hipótesis nula (\(t = -9.27, \; gl = 59, \; p < 0.05\)). Por lo tanto, es posible sostener que los estudiantes, en promedio, tienen un nivel de logro distinto al fijado por los desarrolladores de la prueba.

Si el contraste se hubiera enfocado hacia saber si los estudiantes tienen un desempeño igual o menor que el umbral de logro. Entonces, la hipótesis nula hubiera sido definida como:

* $H_0: \mu \leq \mu_0$ (contraste unilateral).

t.test(resultados, mu=70, alternative = "greater", conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  resultados
## t = 9.2735, df = 59, p-value = 2.006e-13
## alternative hypothesis: true mean is greater than 70
## 95 percent confidence interval:
##  75.90175      Inf
## sample estimates:
## mean of x 
##  77.19902

Con un 95% de confianza, existe evidencia suficiente para rechazar la hipótesis nula (\(t = 9.27, \; gl = 59, \; p < 0.05\)). Por lo tanto, es posible sostener que los estudiantes, en promedio, tienen un nivel de logro menor o igual al fijado por los desarrolladores de la prueba.

Si el contraste se hubiera enfocado en saber si los estudiantes de este año tienen un desempeño igual o mayor que el umbral de logro. Entonces, la hipótesis nula hubiera sido definida como:

\(H_0: \mu \geq \mu_0\) (contraste unilateral).

t.test(resultados, mu=70, alternative = "less", conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  resultados
## t = 9.2735, df = 59, p-value = 1
## alternative hypothesis: true mean is less than 70
## 95 percent confidence interval:
##      -Inf 78.49629
## sample estimates:
## mean of x 
##  77.19902

Con un 95% de confianza, existe evidencia suficiente para no rechazar la hipótesis nula (\(t = 9.27,\; gl = 59, \; p > 0.05\)). Por lo tanto, es posible sostener que los estudiantes, en promedio, tienen un nivel de logro mayor o igual al fijado por los desarrolladores de la prueba.

Prueba binomial para una muestra.

La prueba binomial para una muestra permite evaluar las siguientes hipótesis nulas:

\(H_0\): \(pi = \pi_0\) (contraste bilateral).
- \(H_0: \pi \leq \pi_0\) (contraste unilateral).
\(H_0: \pi \geq \mu_0\) (contraste unilateral).

Sus supuestos de aplicación son:

Los datos corresponden a una variable categórica.
La variable sigue una distribución binomial en la población, \(X \sim \mathcal{B}(n,\pi)\,\).
La muestra es un subconjunto aleatorio de la población (muestra probabilística).
Existen menos de 5 casos en las proporciones \(p\) y \(q\).

Veamos un ejemplo.

Supongamos que se realiza una encuesta sobre derechos humanos en Chile e interesa especialmente que la población indígena sea bien representada y que el cuestionario sea capaz de medir con validez y confiabilidad las variables de interés en personas indígenas y no indígenas.

En la etapa de elaboración del cuestionario se hace un pretest de 30 casos, donde 4 corresponden a individuos indígenas. Por alguna razón, se le pide evaluar si la proporción de indígenas en la muestra es similar a la proporción de indígenas en la población (según el Censo 2017, la proporción de personas que se identifican con algún pueblo originario en Chile es de 0.128).

Por lo tanto,

\(H_0: \pi = 0.128\).
\(H_1: \pi \neq 0.128\).

Además, se decide trabajar con un nivel de confianza del 95% y un nivel de significación de \(\alpha = 0.05\).

binom.test(4, 30, 0.128, alternative = "two.sided", conf.level = 0.95)

## 
##  Exact binomial test
## 
## data:  4 and 30
## number of successes = 4, number of trials = 30, p-value = 0.7891
## alternative hypothesis: true probability of success is not equal to 0.128
## 95 percent confidence interval:
##  0.0375535 0.3072184
## sample estimates:
## probability of success 
##              0.1333333

Con un 95% de confianza, existe evidencia suficiente para no rechazar la hipótesis nula (\(\hat{p} = 0.13, \; p > 0.05\)). Por lo tanto, es posible sostener que la proporción de personas identificadas con algún pueblo originario en el pretest es igual a la existente en la población.

Si el contraste se hubiera enfocado hacia saber si la proporción en la muestra es menor o igual que la proporción en la población. Entonces, la hipótesis nula hubiera sido definida como:

* $H_0: \pi \leq 0.128$ (contraste unilateral).

binom.test(4, 30, 0.128, alternative = "greater", conf.level = 0.95)

## 
##  Exact binomial test
## 
## data:  4 and 30
## number of successes = 4, number of trials = 30, p-value = 0.5464
## alternative hypothesis: true probability of success is greater than 0.128
## 95 percent confidence interval:
##  0.04685483 1.00000000
## sample estimates:
## probability of success 
##              0.1333333

Si el contraste se hubiera enfocado hacia saber si la proporción en la muestra es mayor o igual que la proporción en la población. Entonces, la hipótesis nula hubiera sido definida como:

\(H_0: \pi \geq 0.128\) (contraste unilateral).

binom.test(4, 30, 0.128, alternative = "less", conf.level = 0.95)

## 
##  Exact binomial test
## 
## data:  4 and 30
## number of successes = 4, number of trials = 30, p-value = 0.6626
## alternative hypothesis: true probability of success is less than 0.128
## 95 percent confidence interval:
##  0.0000000 0.2796152
## sample estimates:
## probability of success 
##              0.1333333

Prueba T para proporciones en una muestra.

La prueba T para proporciones en una muestra permite evaluar las siguientes hipótesis nulas:

\(H_0\): \(pi = \pi_0\) (contraste bilateral).
- \(H_0: \pi \leq \pi_0\) (contraste unilateral).
\(H_0: \pi \geq \mu_0\) (contraste unilateral).

Sus supuestos de aplicación son:

Los datos corresponden a una variable categórica.
La muestra es un subconjunto aleatorio de la población (muestra probabilística).
Existen más de 5 casos en las proporciones \(p\) y \(q\).
La distribución de la proporción es aproximadamente normal, \(T \approx \mathcal{N}(\mu,\,\sigma^{2})\,\).

Veamos un ejemplo.

Supongamos que ya realizada la encuesta sobre derechos humanos en Chile, planteada en el ejemplo anterior. Se le pide evaluar si la muestra seleccionada logró representar adecuadamente a la población identificada con algún pueblo originario. La muestra está compuesta por 700 casos, de los cuales 77 personas se identificaron como indígenas. Recordemos que, según el Censo 2017, la proporción de personas que se identifican con algún pueblo originario en Chile es de 0.128).

Por lo tanto,

\(H_0: \pi = 0.128\).
\(H_1: \pi \neq 0.128\).

Además, se decide trabajar con un nivel de confianza del 95% y un nivel de significación de \(\alpha = 0.05\).

prop.test(77, 700, 0.128, alternative = "two.sided", conf.level = 0.95)

## 
##  1-sample proportions test with continuity correction
## 
## data:  77 out of 700, null probability 0.128
## X-squared = 1.8739, df = 1, p-value = 0.171
## alternative hypothesis: true p is not equal to 0.128
## 95 percent confidence interval:
##  0.08827024 0.13611716
## sample estimates:
##    p 
## 0.11

Con un 95% de confianza, existe evidencia suficiente para no rechazar la hipótesis nula (\(\hat{p} = 0.11, \; p > 0.05\)). Por lo tanto, es posible sostener que la proporción de personas identificadas con algún pueblo originario en la muestra es igual a la existente en la población.

Si el contraste se hubiera enfocado hacia saber si la proporción en la muestra es menor o igual que la proporción en la población. Entonces, la hipótesis nula hubiera sido definida como:

* $H_0: \pi \leq 0.128$ (contraste unilateral).

prop.test(77, 700, 0.128, alternative = "greater", conf.level = 0.95)

## 
##  1-sample proportions test with continuity correction
## 
## data:  77 out of 700, null probability 0.128
## X-squared = 1.8739, df = 1, p-value = 0.9145
## alternative hypothesis: true p is greater than 0.128
## 95 percent confidence interval:
##  0.0913723 1.0000000
## sample estimates:
##    p 
## 0.11

Si el contraste se hubiera enfocado hacia saber si la proporción en la muestra es mayor o igual que la proporción en la población. Entonces, la hipótesis nula hubiera sido definida como:

\(H_0: \pi \geq 0.128\) (contraste unilateral).

binom.test(77, 700, 0.128, alternative = "less", conf.level = 0.95)

## 
##  Exact binomial test
## 
## data:  77 and 700
## number of successes = 77, number of trials = 700, p-value = 0.08343
## alternative hypothesis: true probability of success is less than 0.128
## 95 percent confidence interval:
##  0.0000000 0.1314044
## sample estimates:
## probability of success 
##                   0.11

Contrastes de hipótesis para una muestra

Daniel Fredes

26-07-2020

Prueba Z (Z-test) para una muestra

Prueba T (T-test) para una muestra

Prueba binomial para una muestra.

Prueba T para proporciones en una muestra.