1 Pruebas de Hipótesis

1.1 Ejercicios sobre pruebas de hipótesis

1.1.1 Prueba de hipótesis para una media con muestras grandes

El organismo a cargo de la investigación decide tomar una muestra de \(n=40\) precipitaciones. En cada una precipitación se mide el pH y obtiene un promedio \(\bar{x}=3.7\) con una desviación estándar \(s=0.5\). Las hipótesis serán (prueba unilateral izquierda):

\[\begin{align} H_{0}: \mu \geq 5.7 \\ H_{1}: \mu < 5.7 \end{align}\]

De modo que la regla de decisión es:

Si \(\frac{\bar{x}-\mu_{0}}{\frac{\sigma}{\sqrt{n}}} \leq -Z_{\alpha}\), se rechaza \(H_{0}\)

Si \(\frac{\bar{x}-\mu_{0}}{\frac{\sigma}{\sqrt{n}}} > -Z_{\alpha}\), no se rechaza \(H_{0}\)

Utilizado la información brindada en el ejemplo, entonces, \(Z = \frac{3.7 - 5.7}{\frac{0.5}{\sqrt{40}}} = -25.298\). El valor de Z relacionado al nivel de significancia (punto umbral) es \(-1.645\).

El código utilizado para obtener dicho valor del estadístico es el siguiente:

ene<-40
hachecero<-5.7
equibarra<-3.7
des_estan<-0.5
alfa<-0.05

zeta_pru<-(equibarra-hachecero)/(des_estan/sqrt(ene))
zeta_pru
## [1] -25.29822

Mediante el siguiente código se compara el valor del estadístico de prueba con el valor “umbral” (\(Z_{\alpha}\)):

if( zeta_pru < (-qnorm(alfa,lower.tail = FALSE) )){"Rechazar Ho"}else{"No rechazar Ho"}
## [1] "Rechazar Ho"

Y comparando el p-valor contra el valor de significancia (regla de oro):

if(pnorm(zeta_pru)<alfa){"Rechazar Ho"}else{"No rechazar Ho"}
## [1] "Rechazar Ho"

1.1.2 Pruebas de hipótesis para proporciones (muestras grandes)

Una fundación, que tiene como objetivo la prevención del cáncer, decide llevar a cabo una campaña de lucha contra el tabaco por considerar que este constituye uno de los principales factores de riesgo para desarrollar cáncer de pulmón. Se conoce por investigaciones ya realizadas que el 20% de la población mayor de 15 años fuma.

Después de efectuar una fuerte campaña radial y televisiva durante 6 meses, se decide estudiar si la población adulta de la región ha disminuido el hábito de fumar.

Para ello, se selecciona una muestra aleatoria de 1000 personas adultas a las que se les aplica a una determinada encuesta. Una de las preguntas del cuestionario utilizado estaba referida a si la persona fuma o no.

Una vez resumida la información proporcionada por el trabajo de campo, se observó que el 12% de las personas encuestadas fumaba habitualmente.

La Fundación decide poner a prueba la hipótesis estadística de que la campaña publicitaria había disminuido la cantidad de fumadores.

Las hipótesis postuladas fueron:

\[\begin{align} H_{0} P \geq 0.20 \\ H_{1} P < 0.20 \end{align}\]

Ya hemos dicho, al hablar de la estimación del parámetro poblacional P, que cuando n (el tamaño de la muestra) es grande, la variable aleatoria proporción muestral \(\bar{P}\) se distribuye Normalmente con esperanza igual a P y desviación estándar igual \(P*Q/n\), de modo que al estandarizar se tiene: \(\frac{\bar{P}-P_{0}}{\sqrt{P_{0}*Q_{0}/n}}\sim Z\)

La región de rechaza es como se muestra a continuación:

La regla de decisión de la hipótesis establecida es:

Rechazar \(H_{0}\) con un nivel \(\alpha\) de significancia si:

\(\frac{\bar{p}-P_{0}}{\sqrt{P_{0}*Q_{0}/n}} \leq -Z_{\alpha}\)

Mientras que, no se rechaza \(H_{0}\) si \(\frac{\bar{p}-P_{0}}{\sqrt{P_{0}*Q_{0}/n}} > -Z_{\alpha}\)

Si el investigador fija un \(\alpha = 0.05\), \(Z_{0.05}\) será igual a 1.645.

El valor del estadístico Z se obtiene mediante las siguientes instrucciones:

El valor del estadístico \(Z\) se obtiende de la siguiente manera:

proporci_cero<-0.20
ene<-1000
propo_obser<-0.12

estad_zeta<-(propo_obser-proporci_cero)/
  (sqrt(proporci_cero*(1-proporci_cero)/ene))

Utilizando el valor-p y el nivel de significancia \(\alpha\), se tiene:

if((1-pnorm(estad_zeta,lower.tail = FALSE))<alfa){"Rechazar Ho"}else{"No rechazar Ho"}
## [1] "Rechazar Ho"

Y utilizando los valores del estadístico Z y el valor crítico, se obtiene:

if(estad_zeta<-qnorm(0.05,lower.tail = FALSE)){"Rechazar Ho"}else{"No rechazar Ho"}
## [1] "Rechazar Ho"

1.1.3 Pruebas de hipótesis para razón de varianzas

Vamos a probar la igualdad de las varianzas poblacionales en nuestro ejemplo de las vacas lecheras. Considere un valor \(\alpha=0.05\). \(s_{A}^{2}=2.4\) y \(s_{B}^{2}=4.1\)

\(\frac{s_{B}^{2}}{s_{A}^{2}}\) = \(\frac{4.1}{2.4}\) = 4.1

Como los dos grupos de vacas en estudio tienen el mismo tamaño, entonces:

\(n_{a}-1 = n_{b}-1=10-1=9\)

El valor del estadístico \(F_{0.025,9,9}\) se obtiene mediante las siguientes instrucciones:

ese_a2<-2.4
ese_be2<-4.1
enes<-10

efex<-ese_be2/ese_a2

Comparando el p-valor con el nivel si significancia:

if(pf(efex,enes-1,enes-1,lower.tail = FALSE)<alfa){"Rechazar Ho"}else{"No rechazar Ho"}
## [1] "No rechazar Ho"

Comparando el valor de la prueba F con el valor crítico:

val_probF<-qf((alfa/2),enes-1,enes-1,lower.tail = FALSE)

if(efex<val_probF){"No rechazar Ho"}else{"Rechazar Ho"}
## [1] "No rechazar Ho"

Las varianzas son iguales.

2 Análisis de regresión simple.

Supongamos que se extrae una muestra de farmacias instaladas en la ciudad de Querétaro. Los datos de la Tabla 1 corresponden a los costos \((x_i)\) y ventas \((y_i)\) de las 12 farmacias seleccionadas en la muestra.

Los datos se capturan en R de la siguiente manera:

datos_ejem<-matrix(c(11,19,10,15,14,20,13,14,12,16,20,33,21,32,
15,18,22,29,18,22,19,23,16,20),ncol=2,byrow=T) #Se capturan los datos en forma de matriz

dato_ejem2<-data.frame(Costo=datos_ejem[,1],Venta=datos_ejem[,2]) #Se arreglan los datos en forma de marco de datos

Se ajusto el modelo de regresión lineal simple mediante las siguientes instrucciones:

regre_ejem<-lm(Venta~Costo,data=dato_ejem2)
summary(regre_ejem)
## 
## Call:
## lm(formula = Venta ~ Costo, data = dato_ejem2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.6914 -2.5181 -0.7575  1.9065  5.5679 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.3984     3.8889  -0.102 0.920421    
## Costo         1.3915     0.2374   5.862 0.000159 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.193 on 10 degrees of freedom
## Multiple R-squared:  0.7746, Adjusted R-squared:  0.7521 
## F-statistic: 34.37 on 1 and 10 DF,  p-value: 0.0001589

Se observa de la anterior salida que, la variable \(costo\) sí es significativa (p valor de 0.000159). El valor de \(R_{ajustada}^2\) es muy bueno (75.21%).

Para ilustrar el ajuste del modelo de regresión, se realiza un gráfico de dispersión, donde se muestra (en color rojo) la recta de regresión obtenida mediante el método de Mínimos cuadrados. En azul, se muestran otras rectas no obtenidas mediante dicho método.

plot(dato_ejem2)
abline(a=-0.3984,b=1.3915,col="red",lwd=2) #Recta de mínimos cuadrados
abline(a=-0.3984,b=1.2315,col="blue",lwd=2) #No mínimos cuadrados
abline(a=-0.3984,b=1.59,col="blue",lwd=2) #No mínimos cuadrados
abline(a=-0.3984,b=2.3915,col="blue",lwd=2) #No mínimos cuadrados
legend("topleft",legend = c("Mínimos cuadrados","No mínimos cuadrados"),
       col=c("Red","Blue"),pch="-----",cex=1.5)

Se realiza un análisis de varianza para visualizar la proporción de varianza explicada por el modelo y por los residuales.

summary(aov(regre_ejem))
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Costo        1  350.3   350.3   34.37 0.000159 ***
## Residuals   10  101.9    10.2                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

De lo anterior se puede notar que el total de varianza es: 350.3+101.9 = 452.2, de la cual (350.3/452.2) el 77.49% es explicada por el modelo, y el restante 22.51% por los residuales.

Los intervalos de confianza para los coefiencientes se obtienen de la siguiente manera:

regre_ejem$coefficients
## (Intercept)       Costo 
##  -0.3984339   1.3915246
resumen_regre<-summary(regre_ejem)

confint(regre_ejem)
##                 2.5 %   97.5 %
## (Intercept) -9.063393 8.266526
## Costo        0.862639 1.920410

Ahora, si se desea estimar las ventas promedio para farmacias que reportan un costo de \(25\), se obtiene mediante la siguiente instrucción:

predict(regre_ejem, newdata=data.frame(Costo=25),interval='confidence',level=0.95)
##        fit      lwr      upr
## 1 34.38968 29.16512 39.61424

Supóngase que se desea realizar un intervalo de predicción para los costos de 30 y 35, lo cual se obtiene con la siguiente instrucción:

predict(regre_ejem, newdata=data.frame(Costo=c(30,35)),interval='prediction',level=0.95)
##        fit      lwr      upr
## 1 41.34731 30.84478 51.84983
## 2 48.30493 35.78735 60.82251

2.1 Análisis de residuales

El siguiente paso a seguir corresponde a la validación de los supuestos del modelo mediante el análisis de los residuales. El primer supuesto a probar es el relacionado a la distribución de los residuales. Dichos residuales se analizarán en su versión estandarizada. Este supuesto se probará mediante el gráfico QQ Normal y mediante la prueba Shapiro-Wilk. El gráfico se obtiene mediante las siguientes instrucciones:

residuales_stand<-rstandard(regre_ejem)
qqnorm(residuales_stand,pch=19)
qqline(residuales_stand)

La prueba de Shapiro-Wilk se obtiene al ejecutar las siguientes instrucciones:

shapiro.test(residuales_stand)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuales_stand
## W = 0.92236, p-value = 0.3061

Al observar el p valor de la prueba de Shapiro-Wilk y el gráfico QQ Normal, podemos concluir que los residuales sí siguen una distribución Normal.

En cuanto al supuesto de varianza constante, con las siguientes instrucciones se realizará el gráfico necesario para dicho supuesto:

plot(regre_ejem$fitted.values,residuales_stand,xlab = "y_ajustados",ylab ="res_estand")

Se observa en el gráfico anterior que la varianza es constante a lo largo de los valores ajustados.

Finalmente, se investigará si existen outliers entre los residuales, para lo cual se generan estadísticas de resumen de estos mediante la siguiente instrucción:

summary(residuales_stand)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -1.23982 -0.82820 -0.27699  0.01926  0.69246  1.92061

Se observa de lo anterior que no existen outliers mayores a 3. En resumen, se cumplieron los supuestos del modelo y no existen outliers, el modelo mostró un buen ajuste y explica un buen porcentaje de la varianza.