Paquetes necesarios

library(stats)
library(dplyr)
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

1 MEDIA

1.1 Intervalos de confianza para la media

Para calcular los intervalos de confianza para la media, se deben conocer tres componentes: la media muestral, el error muestral y el valor de la distribución correspondiente al nivel de confianza asignado para el intervalo.

El intervalo de ocnfianza para estimar la media poblacional \(\mu\) se construye de la siguiente manera:

\[ IC_{\mu} = (\bar{X} - Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X} + Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}) \] Para el caso con distribución t:

\[IC_{\mu} = (\bar{X} - t_{\alpha/2,n-1gdl} \cdot \frac{s}{\sqrt{n}} \leq \mu \leq \bar{X} + t_{\alpha/2,n-1gdl} \cdot \frac{s}{\sqrt{n}})\]

Veamos parte por parte cómo hacerlo:

1.1.1 Calcular la Media muestral

La media muestral: \[\bar{X}\]

es el promedio calculado a partir de una muestra aleatoria.En R disponemos de la función mean para calcularla facilmente a partir de un conjunto de datos.

1.1.2 Calcular el Error muestral

El error muestral de la media es esta parte de la ecuación:

\[ \frac{\sigma}{\sqrt n}\]

donde \(\sigma\) es la desviación estándar poblacional y \(n\) es el tamaño de la muestra.

Cuando la desviación estándar poblacional no es conocida, se utiliza la desviación estándar muestral (\(s\)):

\[ \frac{s}{\sqrt n}.\]

1.1.3 Calcular el Valor Crítico

Teniendo en cuenta los supuestos, podemos determinar si la media sigue una distribución Normal (Z) (datos normales, desviación estándar poblacional conocida y muestra lo suficientemente grande) o distribución t-student (t) (datos no normales, desviación estándar poblacional desconocida y muestra pequeña)

También debemos recordar que los intervalos de confianza son aleatorios puesto que se contruyen a partir de una muestra aleatoria, por lo tanto, existe un nivel de confianza \(1-\alpha\) y un margen de error conocido \(\alpha\) para estimar el parámtero.

Ese valor \(\alpha\) se divide entre 2 para distribuirlo a cada lado del intervalo de confianza.

Es por esto que, Una vez determinada la distribución apropiada para el caso, se define el valor crítico para \(\alpha/2\):

  • \(Z_{\alpha/2}\) para el caso Normal
  • \(t_{\alpha/2}\) para el caso t-student

Ya conocemos también las funciones d, p, q, r que nos permitían realizar operaciones a partir de las distribuciones de probabilidad

  • d: Calcula la funcion de densidad de probabilidad (PDF) o la funcion de masa de probabilidad (PMF) para una distribucion.
  • p: Calcula la funcion de distribucion acumulada (CDF), que nos dice la probabilidad de obtener un valor menor o igual a un punto dado.
  • q: Calcula cuantiles o percentiles de la distribucion.
  • r: Genera valores aleatorios a partir de la distribucion especificada.

Para calcular el valor crítico utilizaremos la función q, que calcula el valor de Z o de t a partir de una probabilidad dada:

Para el caso \(1-\alpha = 95%\), con \(\alpha = 5\% = 0.05\):

Distribución normal:

qnorm(0.025, lower.tail = FALSE)
## [1] 1.959964

Distribución t con 9 grados de libertad (ejemplo):

qt(0.025, df=9, lower.tail = FALSE) #df = Grados de libertad
## [1] 2.262157

Nota: el parámetro ´lower.tail = FALSE´ se utiliza para que el valor crítico sea el de la derecha (positivo). Ya sabemos que estas dos distribuciones son siméticas y el valor es el mismo para cada lado del intervalo

1.1.4 Calcular el Intervalo de Confianza

Entonces, para calcular el intervalo de confianza se debe tener la estructura:

límite inferior (izquierda) del intervalo de confianza:

limite_inf = media muestral - qdistribucion(valor correspondiente) * error_muestral

Para el límite superior (derecha) del intervalo de confianza:

limite_sup = media muestral + qdistribucion(valor correspondiente) * error_muestral

1.2 Ejemplo visto en clase para un intervalo de confianza para media poblacional:

Un grupo de investigadores quiere estimar el tiempo promedio que los ciudadanos de un país dedican diariamente a informarse con los noticieros. Se toma una muestra aleatoria de 1,500 personas, obteniendo una media muestral de 45 minutos diarios. Estudios previos indican que la desviación estándar poblacional es de 20 minutos. Calcular un intervalo de confianza del 95% para el tiempo promedio que la población dedica a informarse a través de noticieros.

Primero, organizar los datos y guardarlos en objetos con los nombres que consideremos adecuados:

# Datos
x_barra <- 45       # media muestral
desv_est <- 20       # desviación estándar poblacional
n <- 1500         # tamaño de muestra
alpha <- 0.05

Teniendo en cuenta el ejercicio, la media sigue en este caso una distribución Normal, ya que se trata de un amuestra grande y la desviación estándar poblacional es conocida. Ahora se debe determinar el valor crítico \(Z_{\alpha/2}\)

# Valor crítico Z

z_alpha_2 <- qnorm(0.025, lower.tail = FALSE) #El valor de Z para alpha/2
z_alpha_2
## [1] 1.959964

Calcular el error, en este caso: $ $

# Error:
error <- desv_est / sqrt(n) #sqrt calcula la raiz
#Tenga en cuenta que cada dato proporcionado por el ejercicio ya lo habíamos guardado con nombres apropiados.


error
## [1] 0.5163978

Construir el ntervalo de confianza:

# Intervalo de confianza
ic_izquierda <- x_barra - z_alpha_2 * error
ic_derecha <- x_barra + z_alpha_2 * error

c(ic_izquierda, ic_derecha) #Esto permite concatenar los dos números para que se muestren juntos
## [1] 43.98788 46.01212

Respuesta: Con un 95% de confianza, el tiempo promedio que los ciudadanos dedican a informarse sobre política está entre 43.99 y 46.01 minutos


1.3 Prueba de hipótesis para la media

Recordemos que:

Una prueba de hipótesis es un procedimiento estadístico utilizado para tomar decisiones sobre un parámetro poblacional basándose en una muestra. Matemáticamente, se trata de evaluar la validez de una afirmación acerca de una población utilizando teoría de probabilidades y distribuciones muestrales

El objetivo de una prueba de hipótesis es evaluar si los datos de una muestra proporcionan evidencia estadísticamente significativa para rechazar una hipótesis sobre la media poblacional

  • Hipótesis nula \(H_0\) La hipótesis que se debe comprobar. Inicialmente se asume como verdadera.

  • Hipótesis alternativa \(H_1\) Se establece como el “complemento” de \(H_0\)

    • Prueba bilateral: \(H_1: \mu \neq \mu_0\)
    • Prueba unilateral derecha: \(H_1: \mu > \mu_0\)
    • Prueba unilateral izquierda: \(H_A: \mu < \mu_0\)

1.3.1 Seleccionar el estadístico de prueba

Caso 1: Desviación estándar poblacional conocida (prueba Z)

\[ Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \]

Caso 2: Desviación estándar poblacional desconocida (prueba t de Student)

\[ T = \frac{\bar{X} - \mu}{S / \sqrt{n}}, \quad T \sim t_{n-1} \] Recuerde que si la muestra es lo suficientemente grande, se utiliza la distribución Normla aunque la desviación estándar poblacional sea desconocida

1.3.2 Calcular el Valor o valores Críticos:

Volvemos a utilizar las funcionas d, p, q, r para las distribuciones de probabilidad

Nuevamente, teniendo en cuenta los supuestos, podemos determinar si la media sigue una distribución Normal (Z) (datos normales, desviación estándar poblacional conocida y muestra lo suficientemente grande) o distribución t-student (t) (datos no normales, desviación estándar poblacional desconocida y muestra pequeña)

También debemos recordar que las pruebas de hipótesis tienen un nivel de significancia \(\alpha\).

Una vez determinada la distribución apropiada para el caso,y el tipo de prueba (bilateral o unilateral) se define el valor crítico para \(\alpha\) o \(\alpha/2\).

Caso bilateral con \(\alpha = 5\%\)

\(H_1: \mu \neq \mu_0\)

En este caso el valor \(\alpha\) se divide entre 2 para encontrar los valores críticos de cada lado. Es decir, existen dos valores críticos.

  • Ejemplo: Caso con distribución Normal \(Z_{\alpha/2}\) (bilateral)
qnorm(0.025) #Valor crítico por la izquierda
## [1] -1.959964
qnorm(0.025, lower.tail = FALSE) #Valor crítico por la derecha
## [1] 1.959964
  • Ejemplo: Caso con distribución t con 9 grados de libertad \(t_{\alpha/2,n-1 gdl}\) (bilateral)
#Valor crítico por la izquierda
qt(0.025, df=9) #df = Grados de libertad
## [1] -2.262157
#Valor crítico por la derecha
qt(0.025, df=9, lower.tail = FALSE) #df = Grados de libertad
## [1] 2.262157

Caso Unilateral cola derecha con \(\alpha = 5\%\)

\(H_1: \mu > \mu_0\)

En este caso el valor \(\alpha\) NO divide entre 2. Es decir, sólo se tiene un valor crítico por la derecha.

  • Ejemplo: Caso con distribución Normal \(Z_{\alpha}\) (Unilateral derecha)
qnorm(0.05, lower.tail = FALSE) #Valor crítico por la derecha
## [1] 1.644854
  • Ejemplo: Caso con distribución t con 9 grados de libertal \(t_{\alpha,n-1 gdl}\) (Unilateral derecha)
qt(0.05, df= 9, lower.tail = FALSE) #Valor crítico por la derecha
## [1] 1.833113

Caso Unilateral cola izquierda con \(\alpha = 5\%\)

\(H_1: \mu < \mu_0\)

En este caso el valor \(\alpha\) NO divide entre 2. Es decir, sólo se tiene un valor crítico por la izquierda.

  • Ejemplo: Caso con distribución Normal \(Z_{\alpha}\) (Unilateral izquierda)
qnorm(0.05) #Valor crítico por la izquierda
## [1] -1.644854
  • Ejemplo: Caso con distribución t con 9 grados de libertal \(t_{\alpha,n-1 gdl}\) (Unilateral izquierda)
qt(0.05, df= 9) #Valor crítico por la derecha
## [1] -1.833113

1.3.3 Calcular el p valor

El p-valor es la probabilidad, bajo la suposición de que la hipótesis nula \(H_0\) es cierta, de obtener un valor de la estadística de prueba tan extremo o más extremo que el observado.

En otras palabras, mide qué tan probable es el resultado muestral si \(H_0\) fuera verdadera.

Aquí el comando utilizado es ´p´ para calcular la probabilidad:

  • P valor para una prueba bilateral (se multiplica por 2 al ser de dos colas):
pvalor_z <- 2 * pnorm(abs(z), lower.tail = FALSE)        # si se usa distribución Z

pvalor_t <- 2 * pt(abs(T), df= n-1 gdl, lower.tail = FALSE)       # si se usa t de Student
  • P valor Para una prueba Unilateral derecha:
pvalor_z <- pnorm(z, lower.tail = FALSE)

pvalor_t <- 1 - pt(T, df = n-1 gdl, lower.tail = FALSE)
  • P valor Para una prueba Unilateral izquierda:
pvalor_z <- pnorm(Z)

pvalor_t <- 1 - pt(T, df = n-1 gdl)

Nota: Recuerde que lower.tail = FALSE es para que calcule la probabilidad acumulada por la derecha

1.3.4 Tomar la decisión

  • Usando valor crítico:
    • Se rechaza \(H_0\) si el estadístico de prueba cae fuera del intervalo definido por el o los valores críticos.
  • Usando p-valor:
    • Se rechaza \(H_0\) si \(p \leq \alpha\).

1.4 Ejemplo visto en clase para una prueba de hipótesis para media poblacional:

La pobreza puede influir en el desarrollo del lenguaje en la infancia debido a factores como el acceso limitado a recursos educativos y la menor exposición a vocabulario variado en el hogar. Se estima que, en el país la población general de niños de 5 años, el tamaño promedio del vocabulario es de 2,000 palabras, con una desviación estándar de 300 palabras. Sin embargo, no se sabe con certeza si este valor se mantiene en niños que crecen en contextos de pobreza. Para investigar esto, un grupo de psicólogos selecciona una muestra de 180 niños en situación de pobreza y encuentra que su vocabulario promedio es de 1,950 palabras. ¿El tamaño del vocabulario en niños de 5 años en pobreza del país es realmente 2,000 palabras, o hay evidencia de que es diferente? Tenga en cuenta una significancia del 5%.

Plantear las hipótesis:

\[ \begin{aligned} H_0\!:\! & \quad \mu = 2000 \quad \text{(el tamaño promedio del vocabulario es 2000 palabras)} \\ H_A\!:\! & \quad \mu \neq 2000 \quad \text{(el tamaño promedio del vocabulario es diferente de 2000 palabras)} \end{aligned} \]

Organizar los datos porporcionados:

# Datos
x_bar <- 1950         # media muestral
u <- 2000          # valor de la hipótesis nula
sigma <- 300          # desviación estándar poblacional
n <- 180              # tamaño de la muestra
alpha <- 0.05         # nivel de significancia

Calcular el estadístico de prueba: Al tratarse de una muestra grande con desviación estándar poblacional conocida, se utilizará Z.

Z <- (x_bar - u) / (sigma / sqrt(n))
Z
## [1] -2.236068

Calcular valores críticos. Al se runa prueba bilateral, alpha se divide entre 2 (Son dos valores críticos)

# Valor crítico para prueba bilateral
z_izquierda <- qnorm(alpha / 2)
z_izquierda
## [1] -1.959964
# Valor crítico para prueba bilateral
z_derecha <- qnorm(alpha / 2, lower.tail=FALSE)
z_derecha
## [1] 1.959964

Calcular p valor

# Valor crítico para prueba bilateral
z_izquierda <- qnorm(alpha / 2)
z_izquierda
## [1] -1.959964
# p-valor
p_valor <- 2 * pnorm(abs(Z), lower.tail = FALSE)
p_valor
## [1] 0.02534732

Decisión:

  • Como Z = -2.23, cae en la región crítica, (menor a -1.96), se rechaza \(H_0\)

  • El p-valor será aproximadamente 0.025, este valor es menor que \(\alpha= 0.05\), se rechaza \(H_0\) (esta es otra manera de decidir)

Respuesta: Hay suficiente evidencia estadística para afirmar que el tamaño promedio del vocabulario en niños de 5 años en situación de pobreza es significativamente diferente de 2,000 palabras.


2 PROPORCIÓN

2.1 Intervalo de confianza para la proporción

Para calcular los intervalos de confianza para la proporción, se deben conocer tres componentes: la media muestral, el error muestral y el valor de la distribución correspondiente al nivel de confianza asignado para el intervalo.

\[ IC_{p} = (\bar{p} - Z_{\alpha/2} \cdot \sqrt \frac{\overline{p}(1-\overline{p})}{n} \leq p \leq \bar{p} + Z_{\alpha/2} \cdot \sqrt \frac{\overline{p}(1-\overline{p})}{n}) \]

2.1.1 Error muestral

El error muestral de la proporción es

\[\sqrt \frac{\overline{p}(1-\overline{p})}{n}\]

donde \(\overline{p}\) es la proporción muestral y \(n\) es el tamaño de la muestra.

2.1.2 Calcular el Valor Crítico

Teniendo en cuenta los supuestos, cuando la muestra es grande, la proporción sigue una distribución Normal (Z)

El valor \(1-\alpha\) se divide entre 2 para distribuirlo a cada lado del intervalo de confianza y se busca el valor \(Z_{\alpha/2}\).

Para el caso \(1-\alpha = 95%\), con \(\alpha = 5\% = 0.05\):

Distribución normal:

qnorm(0.025, lower.tail = FALSE)
## [1] 1.959964

Nota: el parámetro ´lower.tail = FALSE´ se utiliza para que el valor crítico sea el de la derecha (positivo). Ya sabemos que estas dos distribuciones son siméticas y el valor es el mismo para cada lado del intervalo

2.1.3 Calcular el Intervalo de Confianza

Entonces, para calcular el intervalo de confianza se debe tener la estructura:

límite inferior (izquierda) del intervalo de confianza:

limite_inf = proporción muestral - qnorm(valor correspondiente) * error_muestral

Para el límite superior (derecha) del intervalo de confianza:

limite_sup = proporción muestral + qnorm(valor correspondiente) * error_muestral

2.2 Ejemplo para un intervalo de confianza para la proporción

Un estudio quiere analizar la brecha de acceso a servicios de salud mental en comunidades rurales. Se estima que, a nivel nacional, el 40% de los adultos tiene acceso a estos servicios (𝑝 = 0.40). Para evaluar si este porcentaje es menor en zonas rurales, un investigador encuestó a 300 adultos de comunidades rurales y encontró que 98 de ellos tienen acceso a atención psicológica. Calcular un intervalo de confianza del 95% para la proporción de adultos con acceso a servicios de salud mental en la muestra (rural) y analizar los resultados.

Organizar los datos:

# Datos
n <- 300        # tamaño de la muestra
x <- 98         # número de adultos con acceso
p_gorro <- x / n  # proporción muestral
alpha <- 0.05

Teniendo en cuenta el ejercicio, la proporción sigue en este caso una distribución Normal, ya que se trata de una muestra grande.

# Valor crítico Z

z_alpha_2 <- qnorm(0.025, lower.tail = FALSE) #El valor de Z para alpha/2
z_alpha_2
## [1] 1.959964
# Error estándar
error_p <- sqrt(p_gorro * (1 - p_gorro) / n)
# Intervalo de confianza
izquierda = p_gorro - (z_alpha_2 * error_p)
derecha = p_gorro + (z_alpha_2 * error_p)

c(izquierda, derecha)
## [1] 0.2735960 0.3797374