library(tigerstats)
library(DT)- Cargue los datos
Flexiones.txt
# Escriba sus códigos
flexiones <- read.delim("/cloud/project/datos.txt")
DT::datatable(flexiones)Intervalo de confianza para la diferencia de media de dos poblaciones normales
Las varianzas \(\sigma_1^2\) y \(\sigma_2^2\) son conocidas \[I=\Bigg(\overline{X}-\overline{Y}\pm z_{\alpha/2}\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}\Bigg)\]
Las varianzas \(\sigma_1^2\) y \(\sigma_2^2\) son desconocidas
- Caso \(n_1+n_2>30\) con \(n_1 \sim n_2\)
\[I=\Bigg(\overline{X}-\overline{Y}\pm z_{\alpha/2}\sqrt{\dfrac{S_1^2}{n_1}+\dfrac{S_2^2}{n_2}}\ \Bigg)\]
- Caso que las muestras son pequeñas y \(\sigma_1^2\) y \(\sigma_2^2\) son desconocidas pero iguales
\[I=\Bigg(\overline{X}-\overline{Y} \pm \ t_{(\alpha/2;n_1+n_2-2)}\cdot S_p\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}\ \Bigg)\] \[S_p^2=\dfrac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}\]
- caso que las muestras son pequeñas y \(\sigma_1^2\) y \(\sigma_2^2\) son desconocidas y diferentes
\[I=\Bigg(\overline{X}-\overline{Y}\pm t_{(\alpha/2;f)}\sqrt{\dfrac{S_1^2}{n_1}+\dfrac{S_2^2}{n_2}}\ \Bigg)\]
\[f=\dfrac{\big(S_1^2/n_1+S_2^2/n_2\big)^2}{\dfrac{(S_1^2/n_1)^2}{n_1+1}+\dfrac{(S_2^2/n_2)^2}{n_2+1}}-2\]
Ejemplo
Para alcanzar la máxima eficiencia al realizar una operación de ensamble en una planta manufacturera, obreros nuevos requieren aproximadamente un periodo de capacitación de 1 mes.Se sugirió un nuevo método de capacitación y se realizó un examen para comparar el nuevo método contra el procedimiento estándar. Dos grupos de nueve obreros nuevos cada uno fueron capacitados durante 3 semanas, un grupo usando el nuevo método y el otro siguiendo el procedimiento estándar de capacitación. El tiempo (en minutos) requerido por cada obrero para ensamblar el dispositivo se registró al final del período de 3 semanas. Las mediciones resultantes son las que se muestran en la Tabla . Calcule la diferencia real de las medias \(\mu_1 − \mu_2\) con coeficiente de confianza .95. Suponga que los tiempos de ensamble están distribuidos normalmente en forma aproximada, que las varianzas de los tiempos de ensamble son aproximadamente iguales para los dos métodos y que las muestras son independientes.
\[\begin{array}{llllllllll} \hline \text { Estándar } & 32 & 37 & 35 & 28 & 41 & 44 & 35 & 31 & 34 \\ \text { Nuevo } & 35 & 31 & 29 & 25 & 34 & 40 & 27 & 32 & 31 \\ \hline \end{array}\]- escriba los datos en un los vectores
estandarynuevo
# Escriba sus códigos
estandar <- c( 32 , 37 , 35 , 28 , 41 , 44 , 35 , 31 , 34 )
nuevo <- c(35 , 31 , 29 , 25 , 34 , 40 , 27 , 32 , 31)- calcular las medias muestrales
# Escriba sus códigos
mediaEstandar <- mean(estandar)
mediaNuevo <- mean(nuevo)- Calculamos las desviaciones muestrales
# Escriba sus códigos
varEstandar <- var(estandar)
varNuevo <- var(nuevo)- Calcular \(S_p\)
\[S_p^2=\dfrac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}\]
# Escriba sus códigos
sp2 <- ((9-1)*varEstandar + (9-1)*varNuevo)/(9+9-2)
sp <- sqrt(sp2)- Calcular el cuantil
cuantil <- qt(0.05/2,16)- Obtener el intervalo de de confianza:
# Escriba sus códigos
L.I <- (mediaEstandar - mediaNuevo)+(cuantil*sp*sqrt(1/9 +1/9))
L.S <- (mediaEstandar - mediaNuevo)- (cuantil*sp*sqrt(1/9 +1/9))
print(paste("L.i = ",L.I,"L.s= ",L.S))## [1] "L.i = -1.04570592477466 L.s= 8.37903925810799"
Ejemplo
Suponiendo que el número de flexiones que realizan los alumnos y las alumnas se distribuyen de acuerdo a variables normales de medias y varianzas desconocidas, obtener un intervalo de confianza al \(95\ %\) para la diferencia del número medio de flexiones entre chicos y chicas. ¿Puede suponerse que el número medio de flexiones que realizan los chicos y las chicas es igual?
library(dplyr)- Filtre por hombres y guardelo en la variable `hombres
#Escriba sus códigos
hombres <- flexiones %>% filter(Sexo == "H")-Filtrar por mujeres
# Escriba sus códigos
mujeres <- flexiones %>% filter(Sexo == "M") - vamos a usar la prueba
t.testpara hallar el intervalo
Intervalo <- t.test(hombres$Flexiones,mujeres$Flexiones,var.equal = F, conf.level = 0.95)
print(Intervalo)##
## Welch Two Sample t-test
##
## data: hombres$Flexiones and mujeres$Flexiones
## t = -0.060933, df = 64.372, p-value = 0.9516
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -2.921561 2.748596
## sample estimates:
## mean of x mean of y
## 50.06977 50.15625
#t.test(Flexiones ~ Sexo, data = flexiones, var.equal = T)
#ttestGC(Flexiones ~ Sexo, data = flexiones, var.equal = T,conf.level =0.95)Si, el número medio de flexiones realizadas por hombres y mujeres igual, puesto que el intervalo para la diferencia de medias con un nivel de confianza del 95% es (-2.92,2.74) el cual incluye el 0. # Intervalo de confianza para la proporción
Dada una variable aleatoria \(X\) con distribución de probabilidad binomial de parámetros \(n\) y \(\pi\), esto es, \(X\sim B(n,\pi)\); con \(\pi\) desconocido. El objetivo es determinar un intervalo de confianza para el parámetro \(p\). Para ello, se extrae una muestra aleatoria \(X_1\),\(X_2\),⋯,\(X_n\) de tamaño \(n\) de dicha distribución. Sea \(p\) la proporción muestral. Entonces, se sabe que el estadístico
\[Z = \displaystyle \frac { p – \pi} { \displaystyle \sqrt { \displaystyle \frac { p(1-p)} {n} } }\]
sigue una distribución normal de media 0 y desviación típica 1. Por ello, calcular el intervalo de confianza para la proporción consiste en obtener los cuantiles de la distribución normal tales que
\[P \left [ -z_{1-α/2} \leq \displaystyle \frac {p – \pi } { \displaystyle \sqrt { \displaystyle \frac {p(1-p)} {n}}} \leq z_{1-α/2} \right ]=1-α\]
Por lo tanto el intervalo de confizanza es:
\[\left [ p -z_{1-α/2} \displaystyle \sqrt { \displaystyle \frac {p(1-p)} {n}}, p + z_{1-α/2} \displaystyle \sqrt { \displaystyle \frac {p(1-p)} {n}} \right ]\]
Ejemplo
Considerando el conjunto de datos de empleados.xls y
asumiendo que la variable que mide la altura de los empleados sigue una
distribución Normal con varianza desconocida.
- Cargar los datos de la base
empleados
library(readxl)
empleados <- read_excel("empleados.xls")
glimpse(empleados)## Rows: 99
## Columns: 5
## $ Edad <dbl> 20, 18, 19, 19, 21, 18, 20, 18, 19, 18, 24, 18, 21, 22, 18, 18,…
## $ Altura <dbl> 178, 168, 194, 159, 177, 180, 180, 168, 190, 187, 181, 163, 200…
## $ Peso <dbl> 82, 87, 94, 62, 78, 53, 62, 68, 82, 79, 100, 56, 90, 79, 70, 60…
## $ Sexo <chr> "Hombre", "Hombre", "Hombre", "Mujer", "Hombre", "Hombre", "Hom…
## $ Coche <chr> "Sí", "Sí", "No", "Sí", "No", "No", "Sí", "Sí", "Sí", "Sí", "No…
empleados$Sexo <- as.factor(empleados$Sexo)
empleados$Coche <- as.factor(empleados$Coche)
## Proporcion de hombres
Proporciones<- empleados %>% count(Sexo) %>% mutate(prop = n/sum(n))
Proporciones## # A tibble: 2 × 3
## Sexo n prop
## <fct> <int> <dbl>
## 1 Hombre 87 0.879
## 2 Mujer 12 0.121
A partir del conjunto de datos de empleados.xls, obtener
un intervalo de confianza al 95% para la proporción de empleados varones
en la población.
li = round(0.87 + qnorm(0.025)*sqrt((0.87*(1-0.87))/length(empleados$Sexo)),2)
ls = round(0.87 - qnorm(0.025)*sqrt((0.87*(1-0.87))/length(empleados$Sexo)),2)
print(paste("Li =",li," LS =",ls))## [1] "Li = 0.8 LS = 0.94"
Variable F de Fisher-Snedecor
La distribución \(F\) es conocida
habitualmente como la distribución F de Snedecor, o distribución F de
Fisher-Snedecor, en honor a R. Fisher y George W. Snedecor (1881-1974).
Su función de densidad es bastante complicada, y depende de dos
parámetros
\(n_1\) y \(n_2\) que son sus grados de libertad.
Esta distribución aparece a través de la distribución
\(\chi^2\), puesto que si \(X\) sigue una distribución \(\chi^2_{n_1}\) y \(Y\) es otra variable (independiente de
\(X\) ) con distribución \(\chi^2_{n_2}\), entonces la variable \(W\) definida como
\[W=\dfrac{X/n_1}{Y/n_2}\]
sigue una distribución \(F\) con \(n_1\) y \(n_2\) grados de libertad.
El interés de su estudio corresponde a ser una variable fundamental en la teoría de los contrastes de hipótesis (Anovas).
Encontrar el percentil 90 de una distribución F de Fisher con 5 grados de libertad en el numerador y 2 grados de libertad en el denominador.
qf(0.90, df1 = 5, df2 = 2)## [1] 9.292626
curve(df(x, df1 = 5, df2 = 2), xlim = c(0,10), xlab = "Valores de F", ylab = "Densidad de Probabilidad")Intervalo de confianza para el cociente de varianzas en dos poblaciones normales independientes
Para decidir si las varianzas de las dos distribuciones pueden asumirse iguales o no construiremos un intervalo de confianza para el cociente de ambos valores, esto es, para \(σ^2_1/σ^2_2\). En este caso, partimos de la variable aleatoria
\[F= \displaystyle \frac {s_{1}^{2}} {s_{2}^{2}} \displaystyle \frac {\sigma_{2}^{2}} {\sigma_{1}^{2}}\]
que sigue una distribución \(F\) de Snedecor con \(n_1–1\) grados de libertad en el numerador y \(n_2–1\) grados de libertad en el denominador.
y El intervalo de confianza es
\[\left ( \displaystyle \frac {1}{ F_{n_{1}-1,n_{2}-1, 1-α/2}} \displaystyle \frac {s_{1}^{2}} {s_{2}^{2}}, \displaystyle \frac {1}{ F_{n_{1}-1,n_{2}-1, α/2}} \displaystyle \frac {s_{1}^{2}} {s_{2}^{2}} \right )\]
Usando la base empleados.xls y asumiendo que el peso en
hombres y el peso en mujeres se distribuyen según distribuciones
normales con medias y varianzas desconocidas. Calcular un intervalo de
confianza a un nivel de confianza del \(95\%\) para el cociente de varianzas en
ambas poblaciones. ¿Puede asumirse que ambas varianzas son iguales?
- Filtre el peso de los hombres y mujeres y guardelos cada una en una
variable
peso_hombres,peso_mujeres
empleadosHombre <- empleados %>% filter(Sexo =="Hombre")
empleadosMujere<- empleados %>% filter(Sexo =="Mujer") - usar el var.test para hallar el intervalo de confianza
var.test(empleadosHombre$Peso,empleadosMujere$Peso,conf.level = 0.95)##
## F test to compare two variances
##
## data: empleadosHombre$Peso and empleadosMujere$Peso
## F = 1.814, num df = 86, denom df = 11, p-value = 0.2752
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.6112226 3.8937784
## sample estimates:
## ratio of variances
## 1.813982
Sí, existe evidencia suficiente para decir que la varianza del peso de hombres y mujeres son iguales, puesto que el intervalo para el cociente de varianzas con un nivel de confianza del 95% es (0.61,3.89), en donde el 1 está incluido en este.
Calculando el intervalo de confianza para un parámetro, \(\theta\), puede interpretarse que la seguridad de que \(\theta\) se encuentre dentro del intervalo es el \((1 − \alpha) × 100\%\).
Esta seguridad, que interesa sea alta, nunca es el 100%, para ello el intervalo debería ser \((−\infty,+\infty)\).
Al aumentar la confianza, se aumenta la longitud del intervalo.
La longitud del intervalo es una cota del error máximo de la aproximación, por lo que interesa que el intervalo sea pequeño.
La única forma de conseguir intervalos pequeños con gran confianza es aumentar el tamaño muestral.