Tema 5. Pruebas de Hipotésis T de Student

Utilizar Tabla “Valores Críticos para Distribuciones T”

Tabla Gosset (siglo XX) en Cervecería Guiness en Irlanda

Se usa siempre que Tamaño muestra <= 30 y la Desviación Estándar POBLACIONAL sea desconocida

En esta se asume que la Distribución de la población es normal (no está sesgada)

Pasos

Paso 1: Plantear Hipotésis

Caso 1

H0: μ = x- H1: μ =/ x-

Caso 2

H0: μ = x- H1: μ > x-

Caso 3

H0: μ = x- H1: μ < x-

Paso 2: Nivel de Significancia y Grados de Libertad

α(Alfa): Nivel deSignificancia = 1 - Nivel de Confiabilidad. Este valor se busca en la tabla para obtener el valor de Z.

Grados de Libertad: n-1

Paso 3: Zona de Aceptación y Rechazo

Opción 1: > - α / 2 & < α/2

Opcion 2: < α

Opción 3: > -α

Paso 4: Fórmula

t = (x- - μ) / (s/sqrt(n))

Paso 5: Conclusión

Se rechaza H0

Se acepta H0

Ejercicios

Ejercicio 1

Focos duran promedio 500 hrs, Se verficia con 25 focos, con una confianza del 90%, el promedio de los 25 focos fue 505.36 hrs y la Desv Est Muestral 12.07 hrs

# Paso 1
# H0: μ = x- 
#H1:  μ =/ x-

#Paso 2
#alfa = 0.10
# Grado Libertad 25-1 = 24

# Paso 3 
# > - α / 2 & < α/2

# Paso 4
t1= (505.36 - 500) / (12.07/ sqrt(25))
t1
## [1] 2.220381
if (t1 < -1.711||t1 > 1.711)  {
  Respuesta1 <- "En el ejercicio 1, Se rechaza la hipótesis nula"
} else {
  Respuesta1 <- "En el ejercicio 1, se acepta la hipótesis nula"
}
Respuesta1
## [1] "En el ejercicio 1, Se rechaza la hipótesis nula"

Ejercicio 2

Datos2 <- c(107, 92, 97, 95, 105, 101, 91, 99, 95, 104)
PromPago <- 100
#Nivel Confianza 90%
Varianza2 <- var(Datos2)
Desv2 <- sqrt(Varianza2)

PromMuestra <- mean(Datos2)

# Paso 1
# H0: μ = x- 
#H1:  μ =/ x-

#Paso 2
#alfa = 0.10
# Grado Libertad 10-1 = 9

# Paso 3 
# > - α / 2 & < α/2
# α = 0.05

#Paso 4:
t2 <- (PromMuestra - PromPago)/(Desv2/sqrt(10))
t2
## [1] -0.7988776
#Paso 5:
if (t2 < -1.833||t2 > 1.833)  {
  Respuesta2 <- "En el ejercicio 2, Se rechaza la hipótesis nula"
} else {
  Respuesta2 <- "En el ejercicio 2, se acepta la hipótesis nula"
}
Respuesta2
## [1] "En el ejercicio 2, se acepta la hipótesis nula"
t.test(Datos2,y= NULL,alternative="two.sided",mu=100,paired=FALSE,var.equal?FALSE,conf.level=0.90)
## 
##  One Sample t-test
## 
## data:  Datos2
## t = -0.79888, df = 9, p-value = 0.4449
## alternative hypothesis: true mean is not equal to 100
## 90 percent confidence interval:
##   95.38755 101.81245
## sample estimates:
## mean of x 
##      98.6
#Si es de una cola, alternative puede ser: "less" o "greater"

#Si p value es mayor a 0.10 se acepta H0

#Conclusión Se acepta H0
#Intervalo de Confianza: Entre 95 y 101 dólares.

Ejercicio 8-70

Drive-a-Lemon, renta automóviles en buenas condiciones mecánicas, pero más antiguos que aquellos que rentan las grandes cadenas nacionales de renta de coches. Como resultado, anuncia que sus tarifas son considerablemente más bajas que las de sus grandes competidores. Una encuesta en la industria estableció que el cargo total promedio por renta en una de las mayores compañías es de $77.38 dólares. Una muestra aleatoria de 18 transacciones realizadas por Drive-a- Lemon mostró un cargo total promedio de $87.61, con una desviación estándar de la muestra de $19.48. Verifique que, con un nivel de significancia de 0.025, el cargo total promedio de Drive-a- Lemon es más alto que el de las grandes compañías. ¿Indica este resultado que las tarifas de Drive- a-Lemon, no son más bajas que las de las grandes cadenas nacionales? Justifique su respuesta.

Respuesta:

Paso 1: Plantear Hipotésis

H0: μ = x-

H1: μ > x-

Paso 2: Nivel de Significancia

Alfa: 0.025

Grados de Libertad 18-1= 17

Paso 3: Zona de Aceptación/Rechazo

< α

α = 0.025

Paso 4:

t8_70<- (87.61 - 77.38)/(19.48/sqrt(18))
t8_70
## [1] 2.22804
#Paso 5
if (t8_70 < 2.110)  {
  Respuesta8_70 <- "En el ejercicio 8_70, Se rechaza la hipótesis nula"
} else {
  Respuesta8_70 <- "En el ejercicio 8_70, se acepta la hipótesis nula"
}
Respuesta8_70
## [1] "En el ejercicio 8_70, se acepta la hipótesis nula"

Tema 6. Análisis de Varianza (ANOVA) Unifactorial

Se utiliza para determinar si existen diferencias estadísticamente significativas entre las medias de 3 o más grupos.

Factor: Característica que siderencia las poblaciones/tratamientos

Niveles: Distintas poblaciones/tratamientos

Observaciones: Partes en cada población/tratamiento

Pasos

Paso 1: Plantear Hipotésis

H0: μ1=μ2=μ3=μ4=μN

H1: Por lo menos dos de las μ son diferentes

Paso 2: Nivel de Significancia

“α =”

#Niveles (I) #### Observaciones (J) #### Grados de Libertad Tratamientos (GLTr) = I - 1 #### Grado de Libertad del Error (GLE) = I(J-1)

Paso 3: Zona de Aceptación/Rechazo

Valor de Tabla F

Paso 4: Fórmula

Suma de Cuadrados Total (SCT)

Suma de Cuadrados de los Tratamientos (SCTr)

Suma de Cuadrados del Error (SCE)

Cuadrados Medios de Tratamientos (CMTr) = SCTr/GLTr

Cuadrados Medios del Error (CME) = SCE/GLE

Paso 5: Conclusión

Se rechaza H0

Se acepta H0

Paso 6: Presentar Resultados Tabla ANOVA

Fuente de Variación Grados de Libertad Suma de Cuadrados Cuadrados Medios F
Tratamientos GLTr SCTr CMTr FTr
Error GLE SCE CME
Total GLT SCT

Ejercicios

Ejercicio 1 Una empresa comparó diferentes tipos de cajas con respecto ala resistencia a la compresión en ligas(lb)

C1 <- c(655.5, 788.3, 734.3, 721.4, 788.3, 679.1, 699.4)
C2 <- c(789.2, 772.5, 786.9, 686.1, 732.1, 774.8)
C3 <- c(737.1, 639, 696.3, 671.7, 717.2, 727.1)
C4 <- c(535.1, 628.7, 542.4, 559, 586.9, 520)

#Paso 2
#Alfa = 0.05
#Niveles (I)= 4
# Observaciones (J) = 6
#Grados de Libertad Tratamientos = I - 1 = 4-1 = 3
#Grado de Libertad del Error = I(J-1) = 4(6-1) = 20

#Paso 3
ZonaAcep<- 3.10

#Paso 4
SCT<- 161213.73
SCTr<- 127374.76
SCE <- SCT - SCTr
SCE
## [1] 33838.97
CMTr<- SCTr/3
CMTr
## [1] 42458.25
CME<- SCE/20
CME
## [1] 1691.949
f<- CMTr/CME
f
## [1] 25.09429
#Paso 5
# Se rechaza H0

#Solución en R
# resistencia <- read.csv("Cajas.csv")
# resistencia$Mezcla<-as.factor(resistencia$Caja)

# qf(.95,df1=3,df=20)
# anova1 <- aov(Resistencias ~ Caja, data=resistencia)
# summary(anova1)

Ejercicio 2

mezcla1 <- c(0.56, 1.12, 0.9, 1.07, 0.94)
mezcla2 <- c(0.72, 0.69, 0.87, 0.78, 0.91)
mezcla3 <- c(0.62, 1.08, 1.07, 0.99, 0.93)

#Paso 2
#Alfa = 0.01
#I= 3
#J = 5
#GLTr = 2
#GLE =  12

# Paso 3
ZonaAcep<- 6.93

# Paso 4
#Paso 4
SCT<- 0.4309
SCTr<- 0.0608 
SCE <- SCT - SCTr
SCE
## [1] 0.3701
CMTr<- SCTr/2
CMTr
## [1] 0.0304
CME<- SCE/12
CME
## [1] 0.03084167
f<- CMTr/CME
f
## [1] 0.9856795
#Paso 6
# Se acepta H0

#Versión en R

# DFMezclas <- read.csv("Mezclas.csv")
# qf(.99,df1=2,df2=12)
# DFMezclas$Mezcla <- as.factor(DFMezclas$Mezcla)
# anova2 <- aov(Valor ~ Mezcla, data = DFMezclas)
# summary(anova2)

Tema 7. Regresión Lineal Simple

y = Bo + B1X

B1^ (^: Estimada) = Sumatoria (Xi - X-)(yi-y-) / Sumatoria (Xi-X-)^2

= Sxy / Sxx =

= ( (Sumatoria(xiyi) - (Sumatoria xi)(Sumatoria yi)/n ) / Sumatoria Xi^2 - (Sumatoria Xi) ^2 / n

B0^= (Sumatoria y - B1^ * Sumatoria xi) / n

= y- - B1^ * x-

SCE = Sumatoria yi^2 - B0^ * Sumatoria Yi - B1^ * Sumatoria xiyi

STC = Sumatoria(yi- y-)^2 = Syy= Sumatoria Yi^2 - (Sumatoria yi)^2 / n

r^2 = 1- (SCE/STC)

x y xy x^2 y^2
0.1 8 1.6 0.04 64
0.5 10 5 0.25 100
1 18 18 1 324
2 35 70 4 1225
3 60 180 9 600
6.7 131 274.6 14.29 5313
1.34 26.2

B1^= (274.6 - (6.7)(131)/5) / (14.29-((6.7)^2)/5) = 18.65

B0^= (26.2 - 18.65(1.34)) = 1.21

y= 1.21 + 18.65x

SCE = 5313 - 1.21(131)-18.65(274.6) = 33.50

STC = 5313 - (131^2) / 5 = 1880.80

r^2 = 1- (33.50/1880.80) = 0.98

Función en R

#Ejercicio 1
x <- c(0.2,0.5,1,2,3)
y <- c(8,10,18,35,60) 
regresion <- lm(y ~ x)
summary(regresion)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##       1       2       3       4       5 
##  3.0591 -0.5354 -1.8596 -3.5079  2.8437 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)    1.211      2.451   0.494  0.65510   
## x             18.648      1.450  12.863  0.00101 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.341 on 3 degrees of freedom
## Multiple R-squared:  0.9822, Adjusted R-squared:  0.9763 
## F-statistic: 165.5 on 1 and 3 DF,  p-value: 0.001014
plot(regresion)

#Ejercicio 2
x2 <- c(-6, -3, 0,  3,  6, 9,   12, 15, 20, 25)
y2 <- c(2,  2.8,    3.9,    4.2,    5.8,    6.2,    7.5,    8.2,    9.3,    10.9)
Regresion2 <- lm(y2 ~ x2)
summary(Regresion2)
## 
## Call:
## lm(formula = y2 ~ x2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.41088 -0.12507 -0.03329  0.14807  0.32493 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 3.746694   0.101162   37.04 3.10e-10 ***
## x2          0.288062   0.008087   35.62 4.22e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2438 on 8 degrees of freedom
## Multiple R-squared:  0.9937, Adjusted R-squared:  0.993 
## F-statistic:  1269 on 1 and 8 DF,  p-value: 4.223e-10
plot(Regresion2)

Ejercicio 11-26

Un estudio compara el número de horas de alivio que proporcionan cinco marcas de antiácidos administrados a 25 personas diferentes, cada una con acidez estomacal considerada fuerte. Los resultados son los siguientes:

Marca A B C D E
- 4.4 5.8 4.8 2.9 4.6
- 4.6 5.2 5.9 2.7 4.3
- 4.5 4.9 4.9 2.9 3.8
- 4.1 4.7 4.6 3.9 5.2
- 3.8 4.6 4.3 4.3 4.4
a) Calcule el cociente F. Para un nivel de significancia de 0.05, ¿las marcas producen cantidades significativamente diferentes de alivio a las personas con acidez estomacal fuerte?
antiacidos <- read.csv("G:\\Mi unidad\\LIT\\Diagnostico para lineas de accion\\Archivos en R\\Semana 2\\antiacidos.csv")
antiacidos$marca <- as.factor(antiacidos$marca)
qf(0.95,df1=4,df2=12)
## [1] 3.259167
anova3 <- aov(horas ~ marca, data=antiacidos)
summary(anova3)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## marca        4  9.006  2.2514   7.653 0.000655 ***
## Residuals   20  5.884  0.2942                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#### F = 7.65, Fu = 2.87, de forma que rechazamos H0. Las marcas producen una cantidad de alivio significativamente diferente. 
#### Las marcas producen una cantidad de alivio significativamente diferente

Ejercicio 11-38

En la ciudad de Bigville, una cadena de comida rápida está adquiriendo una mala reputación debido a que tardan mucho en servir a los clientes. Como la cadena tiene cuatro restaurantes en esa ciudad, quiere saber si los cuatro restaurantes tienen el mismo tiempo promedio de servicio. Uno de los dueños de la cadena ha decidido visitar cada local y registrar el tiempo de servicio para 5 clientes escogidos al azar. En sus cuatro visitas al medio día registró los siguientes tiempos de servicio en minutos:
Restaurante 1 Restaurante 2 Restaurante 3 Restaurante 4
3 3 2 3
4 3.5 3.5 4
5.5 4.5 5 5.5
3.5 4. 6.5 2.5
4 5.5 6 3
a) Utilice un nivel de significancia de 0.05, ¿todos los restaurantes tienen el mismo tiempo medio de servicio?
b) Según sus resultados, ¿deberá el dueño hacer algunas recomendaciones a cualquiera de los administradores de los restaurantes?
restaurante <- read.csv("G:\\Mi unidad\\LIT\\Diagnostico para lineas de accion\\Archivos en R\\Semana 2\\restaurante.csv")
qf(0.95,df1=3,df2=16)
## [1] 3.238872
anova4 <- aov(tiempo ~ restaurante, data=restaurante)
summary(anova4)
##             Df Sum Sq Mean Sq F value Pr(>F)
## restaurante  1  0.123  0.1225   0.076  0.786
## Residuals   18 29.015  1.6119
#### No se rechaza H0
#### Los tiempos medios de servicio no son significativamente diferentes
#### Debido a que ningún restaurante es peor que los otros, cualquier recomendación tendría que hacerse a todos los administradores

Ejercicio 12-64

Un arrendador está interesado en ver si las rentas de sus departamentos son las comunes. Para esto tomó una muestra aleatoria de 11 rentas y tamaños de departamentos en complejos de departamentos similares.
Los datos son los siguientes:
Renta Nùmero de recamaras
230 2
190 1
450 3
310 2
218 2
185 2
340 2
245 1
125 1
350 2
280 2
a) Desarrolle la ecuación de estimación que mejor describa estos datos.
b) Calcule el coeficiente de determinación.
c) Pronostique la renta para un departamento de dos recámaras.
## a)
rentas <- c(230, 190, 450, 310, 218, 185, 340, 245, 125, 350, 280)
recamaras <- c(2, 1, 3, 2, 2, 2, 2, 1, 1, 2, 2)

regresion3 <- lm(rentas ~ recamaras)
summary(regresion3)
## 
## Call:
## lm(formula = rentas ~ recamaras)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -101.80  -51.35   19.10   50.25   74.10 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)    55.00      63.19   0.870  0.40667   
## recamaras     115.90      33.13   3.498  0.00675 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 63.19 on 9 degrees of freedom
## Multiple R-squared:  0.5762, Adjusted R-squared:  0.5291 
## F-statistic: 12.23 on 1 and 9 DF,  p-value: 0.006746
## a) RENTA = 55.0018 + 115.8991*RECÁMARAS

## b)
## r2 = 0.5762.

## c)
recamaras1 <- 2
renta1 <- 55-115.90*recamaras1
renta1
## [1] -176.8
