library(tigerstats)
library(DT)
# Actualice su ruta
Flexiones <- read.delim("C:/Users/wsand/Downloads/Flexiones.txt")
DT::datatable(Flexiones)

Intervalo de confianza para la diferencia de media de dos poblaciones normales

\[I=\Bigg(\overline{X}-\overline{Y} \pm \ t_{(\alpha/2;n_1+n_2-2)}\cdot S_p\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}\ \Bigg)\] \[S_p^2=\dfrac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}\]

\[I=\Bigg(\overline{X}-\overline{Y}\pm t_{(\alpha/2;f)}\sqrt{\dfrac{S_1^2}{n_1}+\dfrac{S_2^2}{n_2}}\ \Bigg)\]

\[f=\dfrac{\big(S_1^2/n_1+S_2^2/n_2\big)^2}{\dfrac{(S_1^2/n_1)^2}{n_1+1}+\dfrac{(S_2^2/n_2)^2}{n_2+1}}-2\]

Ejemplo

Para alcanzar la máxima eficiencia al realizar una operación de ensamble en una planta manufacturera, obreros nuevos requieren aproximadamente un periodo de capacitación de 1 mes.Se sugirió un nuevo método de capacitación y se realizó un examen para comparar el nuevo método contra el procedimiento estándar. Dos grupos de nueve obreros nuevos cada uno fueron capacitados durante 3 semanas, un grupo usando el nuevo método y el otro siguiendo el procedimiento estándar de capacitación. El tiempo (en minutos) requerido por cada obrero para ensamblar el dispositivo se registró al final del período de 3 semanas. Las mediciones resultantes son las que se muestran en la Tabla . Calcule la diferencia real de las medias \(\mu_1 − \mu_2\) con coeficiente de confianza .95. Suponga que los tiempos de ensamble están distribuidos normalmente en forma aproximada, que las varianzas de los tiempos de ensamble son aproximadamente iguales para los dos métodos y que las muestras son independientes.

\[\begin{array}{llllllllll} \hline \text { Estándar } & 32 & 37 & 35 & 28 & 41 & 44 & 35 & 31 & 34 \\ \text { Nuevo } & 35 & 31 & 29 & 25 & 34 & 40 & 27 & 32 & 31 \\ \hline \end{array}\]
estandar=c(32 , 37 ,35 , 28,41 , 44 , 35 ,31 , 34)
nuevo=c(35 , 31 , 29 , 25 , 34 , 40 , 27 , 32 , 31)

calculamos las medias muestrales

xbarra_1=mean(estandar)
xbarra_2=mean(nuevo)
xbarra_1
## [1] 35.22222
xbarra_2
## [1] 31.55556

Calculamos las desviaciones muestrales

s1=sd(estandar)
s2=sd(nuevo)

Ahora calculamos \(s_p\)

\[S_p^2=\dfrac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}\]

sp2=((length(estandar)-1)*s1^2+(length(nuevo)-1)*s2^2)/(length(estandar)+ length(nuevo)-2)
sp=sqrt(sp2)
sp
## [1] 4.715518

obtenemos el cuantil

alpha=0.05
cuantil=qt(alpha/2, 16, lower.tail=F)
cuantil
## [1] 2.119905

El intervalo de confianza es:

LI= xbarra_1- xbarra_2- cuantil*sp*sqrt(1/9+ 1/9)
LS= xbarra_1- xbarra_2+ cuantil*sp*sqrt(1/9+ 1/9)
print(paste("El intervalo de confianza es: ", LI ,",", LS))
## [1] "El intervalo de confianza es:  -1.04570592477466 , 8.37903925810799"

Ejemplo

Suponiendo que el número de flexiones que realizan los alumnos y las alumnas se distribuyen de acuerdo a variables normales de medias y varianzas desconocidas, obtener un intervalo de confianza al \(95\ %\) para la diferencia del número medio de flexiones entre chicos y chicas. ¿Puede suponerse que el número medio de flexiones que realizan los chicos y las chicas es igual?

library(dplyr)
hombres=Flexiones %>% filter(Sexo=="H")
hombres
##    Flexiones Sexo Deporte
## 1         60    H       0
## 2         41    H       0
## 3         41    H       0
## 4         56    H       0
## 5         50    H       0
## 6         56    H       0
## 7         50    H       1
## 8         50    H       0
## 9         54    H       0
## 10        52    H       1
## 11        48    H       0
## 12        48    H       1
## 13        54    H       1
## 14        53    H       0
## 15        53    H       0
## 16        50    H       1
## 17        52    H       0
## 18        35    H       0
## 19        35    H       0
## 20        48    H       0
## 21        48    H       0
## 22        60    H       1
## 23        56    H       1
## 24        50    H       1
## 25        41    H       0
## 26        54    H       0
## 27        54    H       0
## 28        53    H       0
## 29        54    H       0
## 30        50    H       0
## 31        54    H       0
## 32        54    H       0
## 33        53    H       0
## 34        52    H       0
## 35        50    H       0
## 36        52    H       0
## 37        48    H       1
## 38        46    H       1
## 39        53    H       0
## 40        50    H       0
## 41        35    H       0
## 42        50    H       1
## 43        50    H       0
mujeres=Flexiones %>% filter(Sexo=="M")
mujeres
##    Flexiones Sexo Deporte
## 1         53    M       1
## 2         53    M       0
## 3         53    M       1
## 4         50    M       1
## 5         48    M       0
## 6         50    M       1
## 7         48    M       1
## 8         52    M       1
## 9         54    M       0
## 10        35    M       1
## 11        50    M       1
## 12        41    M       1
## 13        56    M       1
## 14        52    M       1
## 15        56    M       0
## 16        53    M       0
## 17        41    M       1
## 18        48    M       0
## 19        50    M       1
## 20        53    M       0
## 21        54    M       0
## 22        46    M       1
## 23        50    M       0
## 24        41    M       0
## 25        48    M       1
## 26        53    M       0
## 27        54    M       1
## 28        60    M       1
## 29        60    M       1
## 30        35    M       0
## 31        48    M       0
## 32        60    M       1
t.test(x=hombres$Flexiones, y=mujeres$Flexiones, var.equal = T, conf.level = 0.95)
## 
##  Two Sample t-test
## 
## data:  hombres$Flexiones and mujeres$Flexiones
## t = -0.06154, df = 73, p-value = 0.9511
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -2.887271  2.714306
## sample estimates:
## mean of x mean of y 
##  50.06977  50.15625

Intervalo de confianza para la proporción

Dada una variable aleatoria \(X\) con distribución de probabilidad binomial de parámetros \(n\) y \(\pi\), esto es, \(X\sim B(n,\pi)\); con \(\pi\) desconocido. El objetivo es determinar un intervalo de confianza para el parámetro \(p\). Para ello, se extrae una muestra aleatoria \(X_1\),\(X_2\),⋯,\(X_n\) de tamaño \(n\) de dicha distribución. Sea \(p\) la proporción muestral. Entonces, se sabe que el estadístico

\[Z = \displaystyle \frac { p – \pi} { \displaystyle \sqrt { \displaystyle \frac { p(1-p)} {n} } }\]

sigue una distribución normal de media 0 y desviación típica 1. Por ello, calcular el intervalo de confianza para la proporción consiste en obtener los cuantiles de la distribución normal tales que

\[P \left [ -z_{1-α/2} \leq \displaystyle \frac {p – \pi } { \displaystyle \sqrt { \displaystyle \frac {p(1-p)} {n}}} \leq z_{1-α/2} \right ]=1-α\]

Por lo tanto el intervalo de confizanza es:

\[\left [ p -z_{1-α/2} \displaystyle \sqrt { \displaystyle \frac {p(1-p)} {n}}, p + z_{1-α/2} \displaystyle \sqrt { \displaystyle \frac {p(1-p)} {n}} \right ]\]

Ejemplo

Considerando el conjunto de datos de empleados.xls y asumiendo que la variable que mide la altura de los empleados sigue una distribución Normal con varianza desconocida.

library(readxl)
empleados <- read_excel("C:/Users/wsand/Dropbox/2021-II/empleados.xls")
DT::datatable(empleados)

A partir del conjunto de datos de empleados.xls, obtener un intervalo de confianza al 95% para la proporción de empleados varones en la población.

tabla=table(empleados$Sexo)
tabla
## 
## Hombre  Mujer 
##     87     12
prop.test(tabla)
## 
##  1-sample proportions test with continuity correction
## 
## data:  tabla
## X-squared = 55.313, df = 1, p-value = 1.028e-13
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.7940830 0.9330661
## sample estimates:
##         p 
## 0.8787879

Variable F de Fisher-Snedecor

La distribución \(F\) es conocida habitualmente como la distribución F de Snedecor, o distribución F de Fisher-Snedecor, en honor a R. Fisher y George W. Snedecor (1881-1974). Su función de densidad es bastante complicada, y depende de dos parámetros
\(n_1\) y \(n_2\) que son sus grados de libertad.

Esta distribución aparece a través de la distribución
\(\chi^2\), puesto que si \(X\) sigue una distribución \(\chi^2_{n_1}\) y \(Y\) es otra variable (independiente de \(X\) ) con distribución \(\chi^2_{n_2}\), entonces la variable \(W\) definida como

\[W=\dfrac{X/n_1}{Y/n_2}\]

sigue una distribución \(F\) con \(n_1\) y \(n_2\) grados de libertad.

El interés de su estudio corresponde a ser una variable fundamental en la teoría de los contrastes de hipótesis (Anovas).

Encontrar el percentil 90 de una distribución F de Fisher con 5 grados de libertad en el numerador y 2 grados de libertad en el denominador.

qf(0.90, df1 = 5, df2 = 2)
## [1] 9.292626
curve(df(x, df1 = 5, df2 = 2), xlim = c(0,10), xlab = "Valores de F", ylab = "Densidad de Probabilidad")

Intervalo de confianza para el cociente de varianzas en dos poblaciones normales independientes

Para decidir si las varianzas de las dos distribuciones pueden asumirse iguales o no construiremos un intervalo de confianza para el cociente de ambos valores, esto es, para \(σ^2_1/σ^2_2\). En este caso, partimos de la variable aleatoria

\[F= \displaystyle \frac {s_{1}^{2}} {s_{2}^{2}} \displaystyle \frac {\sigma_{2}^{2}} {\sigma_{1}^{2}}\]

que sigue una distribución \(F\) de Snedecor con \(n_1–1\) grados de libertad en el numerador y \(n_2–1\) grados de libertad en el denominador.

y El intervalo de confianza es

\[\left ( \displaystyle \frac {1}{ F_{n_{1}-1,n_{2}-1, 1-α/2}} \displaystyle \frac {s_{1}^{2}} {s_{2}^{2}}, \displaystyle \frac {1}{ F_{n_{1}-1,n_{2}-1, α/2}} \displaystyle \frac {s_{1}^{2}} {s_{2}^{2}} \right )\]

Usando la base empleados.xls y asumiendo que el peso en hombres y el peso en mujeres se distribuyen según distribuciones normales con medias y varianzas desconocidas. Calcular un intervalo de confianza a un nivel de confianza del \(95\%\) para el cociente de varianzas en ambas poblaciones. ¿Puede asumirse que ambas varianzas son iguales?

peso_hombres= empleados %>% filter(Sexo=="Hombre")
peso_mujeres=empleados %>% filter(Sexo=="Mujer")
dim(peso_hombres)
## [1] 87  5
dim(peso_mujeres)
## [1] 12  5
var.test(x=peso_hombres$Peso, y=peso_mujeres$Peso)
## 
##  F test to compare two variances
## 
## data:  peso_hombres$Peso and peso_mujeres$Peso
## F = 1.814, num df = 86, denom df = 11, p-value = 0.2752
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.6112226 3.8937784
## sample estimates:
## ratio of variances 
##           1.813982
  • Calculando el intervalo de confianza para un parámetro, \(\theta\), puede interpretarse que la seguridad de que \(\theta\) se encuentre dentro del intervalo es el \((1 − \alpha) × 100\%\).

  • Esta seguridad, que interesa sea alta, nunca es el 100%, para ello el intervalo debería ser \((−\infty,+\infty)\).

  • Al aumentar la confianza, se aumenta la longitud del intervalo.

  • La longitud del intervalo es una cota del error máximo de la aproximación, por lo que interesa que el intervalo sea pequeño.

  • La única forma de conseguir intervalos pequeños con gran confianza es aumentar el tamaño muestral.

  • Estadísticos

Pruebas de Hipótesis

Hipótesis estadísticas

Definición

Una hipótesis estadística \((H)\) es una proposición acerca de una característica de la población de estudio. Por ejemplo: “la variable \(X\) toma valores en el intervalo \((a, b)\)”, “el valor de \(\theta\) es \(2^{\prime \prime}, \mid " l a\) distribución de \(X\) es normal”, etc.

Ejemplo

  • Una compañía recibe un gran cargamento de piezas. Sólo acepta el envío si no hay más de un \(5 \%\) de piezas defectuosas. ¿Cómo tomar una decisión sin verificar todas las piezas?

  • Se quiere saber si una propuesta de reforma tributaria es acogida de igual forma por hombres y mujeres. ¿Cómo se puede verificar esa conjetura?

    • Se formula la hipótesis sobre la población.
    • Las conclusiones sobre la validez de la hipótesis se basarán en la informoción de una muestra

Hipótesis nula y alternativa

Llamamos hipótesis nula, y se representa por \(H_0\), a la hipótesis que se desea contrastar. Es la hipótesis que se plantea en primer lugar y la hipótesis que mantendremos a no ser que los datos indiquen su falsedad.

  • Es una idea es similar a la presunción de inocencia en un juicio.
  • La hipótesis nula siempre contiene los signos “\(=\)”, “\(\geq\)” o “\(\leq\)”.
  • La hipótesis nula nunca se acepta, se rechaza o no se rechaza.

Llamamos hipótesis alternativa, y la representamos por \(H_1\), a la negación de la hipótesis nula.

  • Es generalmente la hipótesis que se quiere verificar.
  • La hipótesis alternativa nunca contiene los signos “\(=\)”, “\(\geq\)” o “\(\leq\)”.
  • La hipótesis alternativa puede aceptarse o no aceptarse.