Tema 4. T de students

valores <- c(107,92,97,95,105,101,91,99,95,104)
t.test(valores, y=NULL, alternativa="two.sided",mu=100, paired = FALSE, var.equal = FALSE, conf.level = 0.9)
## 
##  One Sample t-test
## 
## data:  valores
## t = -0.79888, df = 9, p-value = 0.4449
## alternative hypothesis: true mean is not equal to 100
## 90 percent confidence interval:
##   95.38755 101.81245
## sample estimates:
## mean of x 
##      98.6
# si es de una cola, alternativa puede ser: "less" or "greater". 


#8-70
#Drive-a-Lemon, renta automóviles en buenas condiciones mecánicas, pero más antiguos que aquellos que rentan las grandes cadenas 
#nacionales de renta de coches. Como resultado, anuncia que sus tarifas son considerablemente más bajas que las de sus grandes 
#competidores. Una encuesta en la industria estableció que el cargo total promedio por renta en una de las mayores compañías es de $77.38 dólares. 
#Una muestra aleatoria de 18 transacciones realizadas por Drive-a-
#Lemon mostró un cargo total promedio de $87.61, con una desviación estándar de la muestra de
#$19.48. Verifique que, con un nivel de significancia de 0.025, el cargo total promedio de Drive-a-
#Lemon es más alto que el de las grandes compañías. ¿Indica este resultado que las tarifas de Drive-
#a-Lemon, no son más bajas que las de las grandes cadenas nacionales? Justifique su respuesta.

# Respuesta: 

# Paso 1. Plantear Hipótesis
# H0: µ = x bar
# H1: µ < x bar

# Paso 2. Nivel de Significancia y Grados de Libertad
# σ= 0.025
# GL = 17

# Paso 3. Zona de Aceptación / Rechazo
# t de tablas = 2.110

# Paso 4. Función
t = (87.61-77.38) / (19.84/sqrt(18))
t
## [1] 2.187612
#Paso 5. Conclusión
# Se rechaza H0

# t = 2.229 (xbar = 87.61), tU= 2.11 (xbarU = 87.07), de modo que se rechaza la hipotesis nula. Sin embargo,
# si Drice-a-Lemon no tiene la misma presencia a nivel nacional que las principales cadenas del país,
# entonces una comparación de sus tasas promedio con el promedio nacional de las grandes cadenas puede 
# conducir a una conclusión errónea

Tema 5. Anova

#### Análisis de Varianza (ANOVA) * Se utiliza para determinar si existen diferencias estadísticamente sifnificativas entre las medias de 3 o más grupos. * Factores: Característica que diferencia las poblaciones / tratamientos * niveles: Distintas poblaciones / tratamientos * Observaciones Partes en cada población/tratamientos

Ejercicios

  • Ejercicio 1: Una empresa comparo diferentes tipos de cajas con respecto a la resistencia a la compresión (lb).

  • A continuación se incluye una lista de valores de resistencia a la compresión (lb) para cada tipo de cajas

caja_tipo_1 <- c(655.5,788.3,734.3,721.4,679.1,699.4)
caja_tipo_2 <- c(789.2,772.5,786.9,686.1,732.1,774.8)
caja_tipo_3 <- c(737.1,639.0,696.3,671.7,717.2,727.1)
caja_tipo_4 <- c(535.1,628.7,542.4,559.0,586.9,520.0)
Análisis:
  • En este ejemplo el factor sería “tipo de caja”. Dado que solo existe un factor este tipo de análisis se llama unifactorial.
  • En este ejemplo la cantidad de niveles sería 4.
  • En este ejemplo existen 6 observaciones.

Pasos para llevar a cabo un análisis de varianza (ANOVA)

  • Paso 1: Plantear hipótesis:
    • H0: µ1 = µ2 = µ3 = µ4
    • H1: Por lo menos dos de las µi son diferentes.
  • Paso 2: Determinar el valor para los siguientes campos.
    • nivel de significancia = 0.05
    • niveles = I = 4
    • número de observaciones = J = 6
    • Grado de libertad de los tratamientos = GLTR = I-1 = 4-1 = 3
    • Grado de libertad del error = GLE = I(J-2) = 4(6-1) = 20
  • Paso 3. Zona Aceptación / Rechazo
    • Para obtener la zona de aceptación de una base F se necesita esta tabla: http://dcb.fi-c.unam.mx/profesores/irene/Notas/tablas/Fisher.pdf
    • El grado de libertad es la parte izquierda.
    • El grado de libertad de los tratamietnos es la parte superior.
    • El nivel se significancia es lo que se necestiará en el lado superior izquierdo.
  • Paso 4. Formula:
    • Suma de cuadros total = SCT
suma1 <- sum(caja_tipo_1*caja_tipo_1)
suma2 <- sum(caja_tipo_2*caja_tipo_2)
suma3 <- sum(caja_tipo_3*caja_tipo_3)
suma4 <- sum(caja_tipo_4*caja_tipo_4)
suma_total <-  suma1+suma2+suma3+suma4
suma_total
## [1] 11340700
conteo1 <- sum(caja_tipo_1)
conteo2 <- sum(caja_tipo_2)
conteo3 <- sum(caja_tipo_3)
conteo4 <- sum(caja_tipo_4)
conteo_total <-  conteo1+conteo2+conteo3+conteo4
conteo_total
## [1] 16380.1
factor_de_correcion <- ((conteo_total*conteo_total)) /24
factor_de_correcion
## [1] 11179487
SCT <- suma_total - factor_de_correcion
SCT
## [1] 161213.7
  • Suma de cuadros de los tratamietnos = SCTR
conteo1_cuadrado <- (conteo1*conteo1)
conteo2_cuadrado <- (conteo2*conteo2)
conteo3_cuadrado <- (conteo3*conteo3)
conteo4_cuadrado <- (conteo4*conteo4)
conteo_tota_cuadrado <- conteo1_cuadrado+conteo2_cuadrado+conteo3_cuadrado+conteo4_cuadrado
conteo_tota_cuadrado
## [1] 67841168
SCTr <- ((1/6)*(conteo_tota_cuadrado))-factor_de_correcion
SCTr
## [1] 127374.8
  • Suma de cuadrados del error = SCe
    • SCT = SCTr + SCE
    • SCE = SCT - SCTR
SCE <- SCT - SCTr
SCE
## [1] 33838.98
  • Cuadrados medios de los tratamientos = CMTr = (SCTr/GLTr)
CMTr <- SCTr/3
CMTr
## [1] 42458.25
  • Cuadrados medios del error = CMe = (SCE/GLe)
CMe <- SCE /20
CMe
## [1] 1691.949
  • F = CMTr / CMe
valor_f <-  CMTr / CMe
valor_f
## [1] 25.09429
  • Paso 5. Conclusión
    • se rechaza H0:
    • La resistencia promedio si es diferente con respecto al tipo de caja, con una confiabilidad del 95%
  • Paso 6. Presentar resultados TABLA de ANOVA
    • Foto al pizaaron

Ejercicio 2

  • Paso 1: Plantear hipótesis:

    • H0: µ1 = µ2 = µ3 = µ4
    • H1: Por lo menos dos de las µi son diferentes.
  • Paso 2: Determinar el valor para los siguientes campos.

  • En este ejemplo el factor sería “mezcla”. Dado que solo existe un factor este tipo de análisis se llama unifactorial.

  • Niveles = 3.

  • Observaciones = 5

  • Grados de libertad de tratamietnos = 2

  • Grados de error = 8

  • Zona de aceptación = 8.65

  • Paso 3. Zona Aceptación / Rechazo

    • Para obtener la zona de aceptación de una base F se necesita esta tabla: http://dcb.fi-c.unam.mx/profesores/irene/Notas/tablas/Fisher.pdf
    • El grado de libertad es la parte izquierda.
    • El grado de libertad de los tratamietnos es la parte superior.
    • El nivel se significancia es lo que se necestiará en el lado superior izquierdo.
  • Paso 4. Formula:

mezcla_1 <- c(0.56,1.12,0.90,1.07,0.94)
mezcla_2 <- c(0.72,0.69,0.87,0.78,0.91)
mezcla_3 <- c(0.62,1.08,1.07,0.99,0.93)
  • Suma de cuadros total = SCT
suma1_mezcla <- sum(mezcla_1*mezcla_1)
suma2_mezcla <- sum(mezcla_2*mezcla_2)
suma3_mezcla <- sum(mezcla_3*mezcla_3)
suma_total_mezcla <-  suma1_mezcla+suma2_mezcla+suma3_mezcla
suma_total_mezcla
## [1] 12.1351
conteo1_mezcla <- sum(mezcla_1)
conteo2_mezcla <- sum(mezcla_2)
conteo3_mezcla <- sum(mezcla_3)
conteo_total_mezcla <-conteo1_mezcla+conteo2_mezcla+conteo3_mezcla
conteo_total_mezcla
## [1] 13.25
factor_de_correcion_mezcla <- ((conteo_total_mezcla*conteo_total_mezcla)) /15
factor_de_correcion_mezcla
## [1] 11.70417
SCT_mezcla <- suma_total_mezcla - factor_de_correcion_mezcla
SCT_mezcla
## [1] 0.4309333
  • Suma de cuadros de los tratamietnos = SCTR
conteo1_cuadrado_mezcla <- (conteo1_mezcla*conteo1_mezcla)
conteo2_cuadrado_mezcla <- (conteo2_mezcla*conteo2_mezcla)
conteo3_cuadrado_mezcla <- (conteo3_mezcla*conteo3_mezcla)
conteo_tota_cuadrado_mezcla <- conteo1_cuadrado_mezcla+conteo2_cuadrado_mezcla+conteo3_cuadrado_mezcla
conteo_tota_cuadrado_mezcla
## [1] 58.8251
SCTr_mezcla <- ((1/5)*(conteo_tota_cuadrado_mezcla))-factor_de_correcion_mezcla
SCTr_mezcla
## [1] 0.06085333
  • Suma de cuadrados del error = SCe
    • SCT = SCTr + SCE
    • SCE = SCT - SCTR
SCE_mezcla <- SCT_mezcla - SCTr_mezcla
SCE_mezcla
## [1] 0.37008
  • Cuadrados medios de los tratamientos = CMTr = (SCTr/GLTr)
CMTr_mezcla <- SCTr_mezcla/2
CMTr_mezcla
## [1] 0.03042667
  • Cuadrados medios del error = CMe = (SCE/GLe)
CMe_mezcla <- SCE_mezcla /8
CMe_mezcla
## [1] 0.04626
  • F = CMTr / CMe
valor_f_mezcla <-  CMTr_mezcla / CMe_mezcla
valor_f_mezcla
## [1] 0.6577317
  • Paso 5. Conclusión
    • se acepta H0:
    • La mezcla promedio es igual a la que menciona la empresa con una confiabilidad del 90%.
  • Paso 6. Presentar resultados TABLA de ANOVA
    • Foto al pizarron

```r
# install.packages("stats")
#library(stats)

# Ejercicio 1
#resistencia <- read.csv("/Users/pedrovillanueva/Desktop/Lineas de Tendecnia/ANOVA Mezclas.csv")
#resistencia$Mezcla <- as.factor(resistencia$Mezcla)
#qf(.95,dfl=3,df=20)
#annova1 <- aov(valor me, data= resistencia)
#summary(annova1)
# <span style="color:green;"> Tema 6. Regresion Lineal Simple </span>
![](/Users/pedrovillanueva/Desktop/Lineas de Tendecnia/regresionlineal.gif)

```r
# Ejercicio 1
x<-c(0.2,0.5,1,2,3)
y<-c(8,10,18,35,60)
regresion<-lm(y~x)
summary(regresion)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##       1       2       3       4       5 
##  3.0591 -0.5354 -1.8596 -3.5079  2.8437 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)    1.211      2.451   0.494  0.65510   
## x             18.648      1.450  12.863  0.00101 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.341 on 3 degrees of freedom
## Multiple R-squared:  0.9822, Adjusted R-squared:  0.9763 
## F-statistic: 165.5 on 1 and 3 DF,  p-value: 0.001014
plot(regresion)

# Ejercicio 2
a<-c(-6,-3,0,3,6,9,12,15,20,25)
b<-c(2,2.8,3.9,4.2,5.8,6.2,7.5,8.2,9.3,10.9)
regresion2<-lm(y~x)
summary(regresion2)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##       1       2       3       4       5 
##  3.0591 -0.5354 -1.8596 -3.5079  2.8437 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)    1.211      2.451   0.494  0.65510   
## x             18.648      1.450  12.863  0.00101 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.341 on 3 degrees of freedom
## Multiple R-squared:  0.9822, Adjusted R-squared:  0.9763 
## F-statistic: 165.5 on 1 and 3 DF,  p-value: 0.001014
plot(regresion2)

Ejercicios del mundo real

11.26: Un estudio compara el número de horas de alivio que proporcionan cinco marcas de antiácidos administrados a 25 persnas diferentes, cada una con acidez estomacal considera fuerte. Los resutlados son los siguientes:

A B C D E
4.4 5.8 4.8 2.9 4.6
4.6 5.2 5.9 2.7 4.3
4.5 4.9 4.9 2.9 3.8
4.1 4.7 4.6 3.9 5.2
3.8 4.6 4.3 4.3 4.4
# A) Calcule el coeficiente f. Para un nivel de significancia de 0.05, ¿Las marcas producen cantidades significativamente diferentes de alivio a las personas con acidez estomacal fuerte?


```r
antiacidos <- read.csv("/Users/pedrovillanueva/Desktop/Lineas de Tendecnia/antiacidos.csv")
antiacidos$marca <- as.factor(antiacidos$marca)
qf(.95,df1=4,df2=20)
## [1] 2.866081
anova3 <- aov(horas ~ marca, data=antiacidos)
summary(anova3)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## marca        4  9.006  2.2514   7.653 0.000655 ***
## Residuals   20  5.884  0.2942                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

F 7.65, Fu 2.87, de forma que rechazamos H0.

Las marcas producen una cantidad de alivio significativamente diferente.


# **11-38**

En la ciudad de Bigville, una cadena de comida rápida está adquiriendo una mala reputación debido a que
tardan mucho en servir a los clientes. Como la cadena tiene cuatro restaurantes en esa ciudad, quiere saber si los cuatro restaurantes tienen el mismo tiempo promedio de servicio. Uno de los dueños de la cadena ha decidido visitar cada local y registrar el tiempo de servicio para 5 clientes escogidos al azar. En
sus cuatro visitas al medio día registró los siguientes tiempos de servicio en minutos:

Restaurante 1 | Restaurante 2 | Restaurante 3 | Restaurante 4 
:-------------: | :-------------: | :-------------: | :-------------: 
1 | 2 | 3 | 4 
2 | 3 | 2 | 3 
4 | 3.5 | 3.5 | 4 
5.5 | 4.5 | 5 | 5.5
3.5 | 4 | 6.5 | 2.5
4 | 5.5 | 6 | 3


a) Utilice un nivel de significancia de 0.05, ¿todos los restaurantes tienen el mismo tiempo medio de servicio?
b) Según sus resultados, ¿deberá el dueño hacer algunas recomendaciones a cualquiera de los administradores de los restaurantes?


```r
restaurante <- read.csv("/Users/pedrovillanueva/Desktop/Lineas de Tendecnia/restaurante.csv")
restaurante$restaurante <- as.factor(restaurante$restaurante)
qf(.95,df1=3, df2=16)
## [1] 3.238872
anova4 <- aov(tiempo ~ restaurante, data=restaurante)
summary(anova4)
##             Df Sum Sq Mean Sq F value Pr(>F)
## restaurante  3  2.538  0.8458   0.509  0.682
## Residuals   16 26.600  1.6625
# No rechazamos H0
# Los tiempos medios de servicio no son significativamente diferentes

## b)
# Debido a que ningun restaurante es peor que los otros, cualquier recomendacion tendria que hacerse a todos los administradores.

12-64

Un arrendador está interesado en ver si las rentas de sus departamentos son las comunes. Para esto tomó una muestra aleatoria de 11 rentas y tamaños de departamentos en complejos de departamentos similares.

Los datos son los siguientes:

Renta Número de recámaras
230 2
190 1
450 3
310 2
218 2
185 2
340 2
245 1
125 1
350 2
280 2
  1. Desarrolle la ecuación de estimación que mejor describa estos datos.
  2. Calcule el coeficiente de determinación.
  3. Pronostique la renta para un departamento de dos recámaras.
renta <- c(230,190,450,310,218,185,340,245,125,350,280)
recamaras <- c(2,1,3,2,2,2,2,1,1,2,2)
regresion3 <- lm(renta ~ recamaras)
summary(regresion3)
## 
## Call:
## lm(formula = renta ~ recamaras)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -101.80  -51.35   19.10   50.25   74.10 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)    55.00      63.19   0.870  0.40667   
## recamaras     115.90      33.13   3.498  0.00675 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 63.19 on 9 degrees of freedom
## Multiple R-squared:  0.5762, Adjusted R-squared:  0.5291 
## F-statistic: 12.23 on 1 and 9 DF,  p-value: 0.006746
# a)
# Renta = 55.00 + 115.90*Recamaras

# b) 
# r2 = 0.5762

# c) 
recamaras1 <- 2
renta1 <- 55+115.9*recamaras1
renta1
## [1] 286.8
# 286.80
