Paquetes necesarios
library(stats)
library(dplyr)
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Para calcular los intervalos de confianza para la media, se deben conocer tres componentes: la media muestral, el error muestral y el valor de la distribución correspondiente al nivel de confianza asignado para el intervalo.
El intervalo de ocnfianza para
estimar la media poblacional \(\mu\) se
construye de la siguiente manera:
\[ IC_{\mu} = (\bar{X} - Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X} + Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}) \] Para el caso con distribución t:
\[IC_{\mu} = (\bar{X} - t_{\alpha/2,n-1gdl} \cdot \frac{s}{\sqrt{n}} \leq \mu \leq \bar{X} + t_{\alpha/2,n-1gdl} \cdot \frac{s}{\sqrt{n}})\]
Veamos parte por parte cómo hacerlo:
La media muestral: \[\bar{X}\]
es el promedio calculado a partir de una muestra aleatoria.En R
disponemos de la función mean para calcularla facilmente a
partir de un conjunto de datos.
El error muestral de la media es esta parte de la ecuación:
\[ \frac{\sigma}{\sqrt n}\]
donde \(\sigma\) es la desviación estándar poblacional y \(n\) es el tamaño de la muestra.
Cuando la desviación estándar poblacional no es conocida, se utiliza la desviación estándar muestral (\(s\)):
\[ \frac{s}{\sqrt n}.\]
Teniendo en cuenta los supuestos, podemos determinar si la media sigue una distribución Normal (Z) (datos normales, desviación estándar poblacional conocida y muestra lo suficientemente grande) o distribución t-student (t) (datos no normales, desviación estándar poblacional desconocida y muestra pequeña)
También debemos recordar que los intervalos de confianza son aleatorios puesto que se contruyen a partir de una muestra aleatoria, por lo tanto, existe un nivel de confianza \(1-\alpha\) y un margen de error conocido \(\alpha\) para estimar el parámtero.
Ese valor \(\alpha\) se divide entre 2 para distribuirlo a cada lado del intervalo de confianza.
Es por esto que, Una vez determinada la distribución apropiada para el caso, se define el valor crítico para \(\alpha/2\):
Ya conocemos también las funciones
d, p, q, r que nos permitían realizar operaciones a partir
de las distribuciones de probabilidad
Para calcular el valor crítico utilizaremos la función
q, que calcula el valor de Z o de t a partir de una
probabilidad dada:
Para el caso \(1-\alpha = 95%\), con \(\alpha = 5\% = 0.05\):
Distribución normal:
qnorm(0.025, lower.tail = FALSE)
## [1] 1.959964
Distribución t con 9 grados de libertad (ejemplo):
qt(0.025, df=9, lower.tail = FALSE) #df = Grados de libertad
## [1] 2.262157
Nota: el parámetro ´lower.tail = FALSE´ se utiliza para que el valor crítico sea el de la derecha (positivo). Ya sabemos que estas dos distribuciones son siméticas y el valor es el mismo para cada lado del intervalo
Entonces, para calcular el intervalo de confianza se debe tener la estructura:
límite inferior (izquierda) del intervalo de confianza:
limite_inf = media muestral - qdistribucion(valor correspondiente) * error_muestral
Para el límite superior (derecha) del intervalo de confianza:
limite_sup = media muestral + qdistribucion(valor correspondiente) * error_muestral
Un grupo de investigadores quiere estimar el tiempo promedio que los ciudadanos de un país dedican diariamente a informarse con los noticieros. Se toma una muestra aleatoria de 1,500 personas, obteniendo una media muestral de 45 minutos diarios. Estudios previos indican que la desviación estándar poblacional es de 20 minutos. Calcular un intervalo de confianza del 95% para el tiempo promedio que la población dedica a informarse a través de noticieros.
Primero, organizar los datos y guardarlos en objetos con los nombres que consideremos adecuados:
# Datos
x_barra <- 45 # media muestral
desv_est <- 20 # desviación estándar poblacional
n <- 1500 # tamaño de muestra
alpha <- 0.05
Teniendo en cuenta el ejercicio, la media sigue en este caso una distribución Normal, ya que se trata de un amuestra grande y la desviación estándar poblacional es conocida. Ahora se debe determinar el valor crítico \(Z_{\alpha/2}\)
# Valor crítico Z
z_alpha_2 <- qnorm(0.025, lower.tail = FALSE) #El valor de Z para alpha/2
z_alpha_2
## [1] 1.959964
Calcular el error, en este caso: $ $
# Error:
error <- desv_est / sqrt(n) #sqrt calcula la raiz
#Tenga en cuenta que cada dato proporcionado por el ejercicio ya lo habíamos guardado con nombres apropiados.
error
## [1] 0.5163978
Construir el ntervalo de confianza:
# Intervalo de confianza
ic_izquierda <- x_barra - z_alpha_2 * error
ic_derecha <- x_barra + z_alpha_2 * error
c(ic_izquierda, ic_derecha) #Esto permite concatenar los dos números para que se muestren juntos
## [1] 43.98788 46.01212
Respuesta: Con un 95% de confianza, el tiempo promedio que los ciudadanos dedican a informarse sobre política está entre 43.99 y 46.01 minutos
Recordemos que:
Una prueba de hipótesis es un procedimiento estadístico utilizado para tomar decisiones sobre un parámetro poblacional basándose en una muestra. Matemáticamente, se trata de evaluar la validez de una afirmación acerca de una población utilizando teoría de probabilidades y distribuciones muestrales
El objetivo de una prueba de hipótesis es evaluar si los datos de una muestra proporcionan evidencia estadísticamente significativa para rechazar una hipótesis sobre la media poblacional
Hipótesis nula \(H_0\) La hipótesis que se debe comprobar. Inicialmente se asume como verdadera.
Hipótesis alternativa \(H_1\) Se establece como el “complemento” de \(H_0\)
Caso 1: Desviación estándar poblacional conocida (prueba Z)
\[ Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \]
Caso 2: Desviación estándar poblacional desconocida (prueba t de Student)
\[ T = \frac{\bar{X} - \mu}{S / \sqrt{n}}, \quad T \sim t_{n-1} \] Recuerde que si la muestra es lo suficientemente grande, se utiliza la distribución Normla aunque la desviación estándar poblacional sea desconocida
Volvemos a utilizar las funcionas d, p, q, r
para las distribuciones de probabilidad
Nuevamente, teniendo en cuenta los supuestos, podemos determinar si la media sigue una distribución Normal (Z) (datos normales, desviación estándar poblacional conocida y muestra lo suficientemente grande) o distribución t-student (t) (datos no normales, desviación estándar poblacional desconocida y muestra pequeña)
También debemos recordar que las pruebas de hipótesis tienen un nivel de significancia \(\alpha\).
Una vez determinada la distribución apropiada para el caso,y el tipo de prueba (bilateral o unilateral) se define el valor crítico para \(\alpha\) o \(\alpha/2\).
Caso bilateral con \(\alpha = 5\%\)
\(H_1: \mu \neq \mu_0\)
En este caso el valor \(\alpha\) se divide entre 2 para encontrar los valores críticos de cada lado. Es decir, existen dos valores críticos.
qnorm(0.025) #Valor crítico por la izquierda
## [1] -1.959964
qnorm(0.025, lower.tail = FALSE) #Valor crítico por la derecha
## [1] 1.959964
#Valor crítico por la izquierda
qt(0.025, df=9) #df = Grados de libertad
## [1] -2.262157
#Valor crítico por la derecha
qt(0.025, df=9, lower.tail = FALSE) #df = Grados de libertad
## [1] 2.262157
Caso Unilateral cola derecha con \(\alpha = 5\%\)
\(H_1: \mu > \mu_0\)
En este caso el valor \(\alpha\) NO divide entre 2. Es decir, sólo se tiene un valor crítico por la derecha.
qnorm(0.05, lower.tail = FALSE) #Valor crítico por la derecha
## [1] 1.644854
qt(0.05, df= 9, lower.tail = FALSE) #Valor crítico por la derecha
## [1] 1.833113
Caso Unilateral cola izquierda con \(\alpha = 5\%\)
\(H_1: \mu < \mu_0\)
En este caso el valor \(\alpha\) NO divide entre 2. Es decir, sólo se tiene un valor crítico por la izquierda.
qnorm(0.05) #Valor crítico por la izquierda
## [1] -1.644854
qt(0.05, df= 9) #Valor crítico por la derecha
## [1] -1.833113
El p-valor es la probabilidad, bajo la suposición de que la hipótesis nula \(H_0\) es cierta, de obtener un valor de la estadística de prueba tan extremo o más extremo que el observado.
En otras palabras, mide qué tan probable es el resultado muestral si \(H_0\) fuera verdadera.
Aquí el comando utilizado es ´p´ para calcular la probabilidad:
pvalor_z <- 2 * pnorm(abs(z), lower.tail = FALSE) # si se usa distribución Z
pvalor_t <- 2 * pt(abs(T), df= n-1 gdl, lower.tail = FALSE) # si se usa t de Student
pvalor_z <- pnorm(z, lower.tail = FALSE)
pvalor_t <- 1 - pt(T, df = n-1 gdl, lower.tail = FALSE)
pvalor_z <- pnorm(Z)
pvalor_t <- 1 - pt(T, df = n-1 gdl)
Nota: Recuerde que lower.tail = FALSE es para que calcule la probabilidad acumulada por la derecha
La pobreza puede influir en el desarrollo del lenguaje en la infancia debido a factores como el acceso limitado a recursos educativos y la menor exposición a vocabulario variado en el hogar. Se estima que, en el país la población general de niños de 5 años, el tamaño promedio del vocabulario es de 2,000 palabras, con una desviación estándar de 300 palabras. Sin embargo, no se sabe con certeza si este valor se mantiene en niños que crecen en contextos de pobreza. Para investigar esto, un grupo de psicólogos selecciona una muestra de 180 niños en situación de pobreza y encuentra que su vocabulario promedio es de 1,950 palabras. ¿El tamaño del vocabulario en niños de 5 años en pobreza del país es realmente 2,000 palabras, o hay evidencia de que es diferente? Tenga en cuenta una significancia del 5%.
Plantear las hipótesis:
\[ \begin{aligned} H_0\!:\! & \quad \mu = 2000 \quad \text{(el tamaño promedio del vocabulario es 2000 palabras)} \\ H_A\!:\! & \quad \mu \neq 2000 \quad \text{(el tamaño promedio del vocabulario es diferente de 2000 palabras)} \end{aligned} \]
Organizar los datos porporcionados:
# Datos
x_bar <- 1950 # media muestral
u <- 2000 # valor de la hipótesis nula
sigma <- 300 # desviación estándar poblacional
n <- 180 # tamaño de la muestra
alpha <- 0.05 # nivel de significancia
Calcular el estadístico de prueba: Al tratarse de una muestra grande con desviación estándar poblacional conocida, se utilizará Z.
Z <- (x_bar - u) / (sigma / sqrt(n))
Z
## [1] -2.236068
Calcular valores críticos. Al se runa prueba bilateral, alpha se divide entre 2 (Son dos valores críticos)
# Valor crítico para prueba bilateral
z_izquierda <- qnorm(alpha / 2)
z_izquierda
## [1] -1.959964
# Valor crítico para prueba bilateral
z_derecha <- qnorm(alpha / 2, lower.tail=FALSE)
z_derecha
## [1] 1.959964
Calcular p valor
# Valor crítico para prueba bilateral
z_izquierda <- qnorm(alpha / 2)
z_izquierda
## [1] -1.959964
# p-valor
p_valor <- 2 * pnorm(abs(Z), lower.tail = FALSE)
p_valor
## [1] 0.02534732
Decisión:
Como Z = -2.23, cae en la región crítica, (menor a -1.96), se rechaza \(H_0\)
El p-valor será aproximadamente 0.025, este valor es menor que \(\alpha= 0.05\), se rechaza \(H_0\) (esta es otra manera de decidir)
Respuesta: Hay suficiente evidencia estadística para afirmar que el tamaño promedio del vocabulario en niños de 5 años en situación de pobreza es significativamente diferente de 2,000 palabras.
Para calcular los intervalos de confianza para la proporción, se deben conocer tres componentes: la media muestral, el error muestral y el valor de la distribución correspondiente al nivel de confianza asignado para el intervalo.
\[ IC_{p} = (\bar{p} - Z_{\alpha/2} \cdot \sqrt \frac{\overline{p}(1-\overline{p})}{n} \leq p \leq \bar{p} + Z_{\alpha/2} \cdot \sqrt \frac{\overline{p}(1-\overline{p})}{n}) \]
El error muestral de la proporción es
\[\sqrt \frac{\overline{p}(1-\overline{p})}{n}\]
donde \(\overline{p}\) es la proporción muestral y \(n\) es el tamaño de la muestra.
Teniendo en cuenta los supuestos, cuando la muestra es grande, la proporción sigue una distribución Normal (Z)
El valor \(1-\alpha\) se divide entre 2 para distribuirlo a cada lado del intervalo de confianza y se busca el valor \(Z_{\alpha/2}\).
Para el caso \(1-\alpha = 95%\), con \(\alpha = 5\% = 0.05\):
Distribución normal:
qnorm(0.025, lower.tail = FALSE)
## [1] 1.959964
Nota: el parámetro ´lower.tail = FALSE´ se utiliza para que el valor crítico sea el de la derecha (positivo). Ya sabemos que estas dos distribuciones son siméticas y el valor es el mismo para cada lado del intervalo
Entonces, para calcular el intervalo de confianza se debe tener la estructura:
límite inferior (izquierda) del intervalo de confianza:
limite_inf = proporción muestral - qnorm(valor correspondiente) * error_muestral
Para el límite superior (derecha) del intervalo de confianza:
limite_sup = proporción muestral + qnorm(valor correspondiente) * error_muestral
Un estudio quiere analizar la brecha de acceso a servicios de salud mental en comunidades rurales. Se estima que, a nivel nacional, el 40% de los adultos tiene acceso a estos servicios (𝑝 = 0.40). Para evaluar si este porcentaje es menor en zonas rurales, un investigador encuestó a 300 adultos de comunidades rurales y encontró que 98 de ellos tienen acceso a atención psicológica. Calcular un intervalo de confianza del 95% para la proporción de adultos con acceso a servicios de salud mental en la muestra (rural) y analizar los resultados.
Organizar los datos:
# Datos
n <- 300 # tamaño de la muestra
x <- 98 # número de adultos con acceso
p_gorro <- x / n # proporción muestral
alpha <- 0.05
Teniendo en cuenta el ejercicio, la proporción sigue en este caso una distribución Normal, ya que se trata de una muestra grande.
# Valor crítico Z
z_alpha_2 <- qnorm(0.025, lower.tail = FALSE) #El valor de Z para alpha/2
z_alpha_2
## [1] 1.959964
# Error estándar
error_p <- sqrt(p_gorro * (1 - p_gorro) / n)
# Intervalo de confianza
izquierda = p_gorro - (z_alpha_2 * error_p)
derecha = p_gorro + (z_alpha_2 * error_p)
c(izquierda, derecha)
## [1] 0.2735960 0.3797374