valores <- c(107,92,97,95,105,101,91,99,95,104)
t.test(valores, y=NULL, alternativa="two.sided",mu=100, paired = FALSE, var.equal = FALSE, conf.level = 0.9)##
## One Sample t-test
##
## data: valores
## t = -0.79888, df = 9, p-value = 0.4449
## alternative hypothesis: true mean is not equal to 100
## 90 percent confidence interval:
## 95.38755 101.81245
## sample estimates:
## mean of x
## 98.6
# si es de una cola, alternativa puede ser: "less" or "greater".
#8-70
#Drive-a-Lemon, renta automóviles en buenas condiciones mecánicas, pero más antiguos que aquellos que rentan las grandes cadenas
#nacionales de renta de coches. Como resultado, anuncia que sus tarifas son considerablemente más bajas que las de sus grandes
#competidores. Una encuesta en la industria estableció que el cargo total promedio por renta en una de las mayores compañías es de $77.38 dólares.
#Una muestra aleatoria de 18 transacciones realizadas por Drive-a-
#Lemon mostró un cargo total promedio de $87.61, con una desviación estándar de la muestra de
#$19.48. Verifique que, con un nivel de significancia de 0.025, el cargo total promedio de Drive-a-
#Lemon es más alto que el de las grandes compañías. ¿Indica este resultado que las tarifas de Drive-
#a-Lemon, no son más bajas que las de las grandes cadenas nacionales? Justifique su respuesta.
# Respuesta:
# Paso 1. Plantear Hipótesis
# H0: µ = x bar
# H1: µ < x bar
# Paso 2. Nivel de Significancia y Grados de Libertad
# σ= 0.025
# GL = 17
# Paso 3. Zona de Aceptación / Rechazo
# t de tablas = 2.110
# Paso 4. Función
t = (87.61-77.38) / (19.84/sqrt(18))
t## [1] 2.187612
#Paso 5. Conclusión
# Se rechaza H0
# t = 2.229 (xbar = 87.61), tU= 2.11 (xbarU = 87.07), de modo que se rechaza la hipotesis nula. Sin embargo,
# si Drice-a-Lemon no tiene la misma presencia a nivel nacional que las principales cadenas del país,
# entonces una comparación de sus tasas promedio con el promedio nacional de las grandes cadenas puede
# conducir a una conclusión errónea
#### Análisis de Varianza (ANOVA) * Se utiliza para determinar si
existen diferencias estadísticamente sifnificativas entre las medias de
3 o más grupos. * Factores: Característica que
diferencia las poblaciones / tratamientos * niveles:
Distintas poblaciones / tratamientos * Observaciones
Partes en cada población/tratamientos
Ejercicio 1: Una empresa comparo diferentes tipos de cajas con respecto a la resistencia a la compresión (lb).
A continuación se incluye una lista de valores de resistencia a la compresión (lb) para cada tipo de cajas
caja_tipo_1 <- c(655.5,788.3,734.3,721.4,679.1,699.4)
caja_tipo_2 <- c(789.2,772.5,786.9,686.1,732.1,774.8)
caja_tipo_3 <- c(737.1,639.0,696.3,671.7,717.2,727.1)
caja_tipo_4 <- c(535.1,628.7,542.4,559.0,586.9,520.0)suma1 <- sum(caja_tipo_1*caja_tipo_1)
suma2 <- sum(caja_tipo_2*caja_tipo_2)
suma3 <- sum(caja_tipo_3*caja_tipo_3)
suma4 <- sum(caja_tipo_4*caja_tipo_4)
suma_total <- suma1+suma2+suma3+suma4
suma_total## [1] 11340700
conteo1 <- sum(caja_tipo_1)
conteo2 <- sum(caja_tipo_2)
conteo3 <- sum(caja_tipo_3)
conteo4 <- sum(caja_tipo_4)
conteo_total <- conteo1+conteo2+conteo3+conteo4
conteo_total## [1] 16380.1
factor_de_correcion <- ((conteo_total*conteo_total)) /24
factor_de_correcion## [1] 11179487
SCT <- suma_total - factor_de_correcion
SCT## [1] 161213.7
conteo1_cuadrado <- (conteo1*conteo1)
conteo2_cuadrado <- (conteo2*conteo2)
conteo3_cuadrado <- (conteo3*conteo3)
conteo4_cuadrado <- (conteo4*conteo4)
conteo_tota_cuadrado <- conteo1_cuadrado+conteo2_cuadrado+conteo3_cuadrado+conteo4_cuadrado
conteo_tota_cuadrado## [1] 67841168
SCTr <- ((1/6)*(conteo_tota_cuadrado))-factor_de_correcion
SCTr## [1] 127374.8
SCE <- SCT - SCTr
SCE## [1] 33838.98
CMTr <- SCTr/3
CMTr## [1] 42458.25
CMe <- SCE /20
CMe## [1] 1691.949
valor_f <- CMTr / CMe
valor_f## [1] 25.09429
Paso 1: Plantear hipótesis:
Paso 2: Determinar el valor para los siguientes campos.
En este ejemplo el factor sería “mezcla”. Dado que solo existe un factor este tipo de análisis se llama unifactorial.
Niveles = 3.
Observaciones = 5
Grados de libertad de tratamietnos = 2
Grados de error = 8
Zona de aceptación = 8.65
Paso 3. Zona Aceptación / Rechazo
Paso 4. Formula:
mezcla_1 <- c(0.56,1.12,0.90,1.07,0.94)
mezcla_2 <- c(0.72,0.69,0.87,0.78,0.91)
mezcla_3 <- c(0.62,1.08,1.07,0.99,0.93)suma1_mezcla <- sum(mezcla_1*mezcla_1)
suma2_mezcla <- sum(mezcla_2*mezcla_2)
suma3_mezcla <- sum(mezcla_3*mezcla_3)
suma_total_mezcla <- suma1_mezcla+suma2_mezcla+suma3_mezcla
suma_total_mezcla## [1] 12.1351
conteo1_mezcla <- sum(mezcla_1)
conteo2_mezcla <- sum(mezcla_2)
conteo3_mezcla <- sum(mezcla_3)
conteo_total_mezcla <-conteo1_mezcla+conteo2_mezcla+conteo3_mezcla
conteo_total_mezcla## [1] 13.25
factor_de_correcion_mezcla <- ((conteo_total_mezcla*conteo_total_mezcla)) /15
factor_de_correcion_mezcla## [1] 11.70417
SCT_mezcla <- suma_total_mezcla - factor_de_correcion_mezcla
SCT_mezcla## [1] 0.4309333
conteo1_cuadrado_mezcla <- (conteo1_mezcla*conteo1_mezcla)
conteo2_cuadrado_mezcla <- (conteo2_mezcla*conteo2_mezcla)
conteo3_cuadrado_mezcla <- (conteo3_mezcla*conteo3_mezcla)
conteo_tota_cuadrado_mezcla <- conteo1_cuadrado_mezcla+conteo2_cuadrado_mezcla+conteo3_cuadrado_mezcla
conteo_tota_cuadrado_mezcla## [1] 58.8251
SCTr_mezcla <- ((1/5)*(conteo_tota_cuadrado_mezcla))-factor_de_correcion_mezcla
SCTr_mezcla## [1] 0.06085333
SCE_mezcla <- SCT_mezcla - SCTr_mezcla
SCE_mezcla## [1] 0.37008
CMTr_mezcla <- SCTr_mezcla/2
CMTr_mezcla## [1] 0.03042667
CMe_mezcla <- SCE_mezcla /8
CMe_mezcla## [1] 0.04626
valor_f_mezcla <- CMTr_mezcla / CMe_mezcla
valor_f_mezcla## [1] 0.6577317
```r
# install.packages("stats")
#library(stats)
# Ejercicio 1
#resistencia <- read.csv("/Users/pedrovillanueva/Desktop/Lineas de Tendecnia/ANOVA Mezclas.csv")
#resistencia$Mezcla <- as.factor(resistencia$Mezcla)
#qf(.95,dfl=3,df=20)
#annova1 <- aov(valor me, data= resistencia)
#summary(annova1)
# <span style="color:green;"> Tema 6. Regresion Lineal Simple </span>

```r
# Ejercicio 1
x<-c(0.2,0.5,1,2,3)
y<-c(8,10,18,35,60)
regresion<-lm(y~x)
summary(regresion)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## 1 2 3 4 5
## 3.0591 -0.5354 -1.8596 -3.5079 2.8437
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.211 2.451 0.494 0.65510
## x 18.648 1.450 12.863 0.00101 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.341 on 3 degrees of freedom
## Multiple R-squared: 0.9822, Adjusted R-squared: 0.9763
## F-statistic: 165.5 on 1 and 3 DF, p-value: 0.001014
plot(regresion)# Ejercicio 2
a<-c(-6,-3,0,3,6,9,12,15,20,25)
b<-c(2,2.8,3.9,4.2,5.8,6.2,7.5,8.2,9.3,10.9)
regresion2<-lm(y~x)
summary(regresion2)##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## 1 2 3 4 5
## 3.0591 -0.5354 -1.8596 -3.5079 2.8437
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.211 2.451 0.494 0.65510
## x 18.648 1.450 12.863 0.00101 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.341 on 3 degrees of freedom
## Multiple R-squared: 0.9822, Adjusted R-squared: 0.9763
## F-statistic: 165.5 on 1 and 3 DF, p-value: 0.001014
plot(regresion2)11.26: Un estudio compara el número de horas de alivio que proporcionan cinco marcas de antiácidos administrados a 25 persnas diferentes, cada una con acidez estomacal considera fuerte. Los resutlados son los siguientes:
| A | B | C | D | E |
|---|---|---|---|---|
| 4.4 | 5.8 | 4.8 | 2.9 | 4.6 |
| 4.6 | 5.2 | 5.9 | 2.7 | 4.3 |
| 4.5 | 4.9 | 4.9 | 2.9 | 3.8 |
| 4.1 | 4.7 | 4.6 | 3.9 | 5.2 |
| 3.8 | 4.6 | 4.3 | 4.3 | 4.4 |
# A) Calcule el coeficiente f. Para un nivel de significancia de 0.05, ¿Las marcas producen cantidades significativamente diferentes de alivio a las personas con acidez estomacal fuerte?
```r
antiacidos <- read.csv("/Users/pedrovillanueva/Desktop/Lineas de Tendecnia/antiacidos.csv")
antiacidos$marca <- as.factor(antiacidos$marca)
qf(.95,df1=4,df2=20)
## [1] 2.866081
anova3 <- aov(horas ~ marca, data=antiacidos)
summary(anova3)## Df Sum Sq Mean Sq F value Pr(>F)
## marca 4 9.006 2.2514 7.653 0.000655 ***
## Residuals 20 5.884 0.2942
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# **11-38**
En la ciudad de Bigville, una cadena de comida rápida está adquiriendo una mala reputación debido a que
tardan mucho en servir a los clientes. Como la cadena tiene cuatro restaurantes en esa ciudad, quiere saber si los cuatro restaurantes tienen el mismo tiempo promedio de servicio. Uno de los dueños de la cadena ha decidido visitar cada local y registrar el tiempo de servicio para 5 clientes escogidos al azar. En
sus cuatro visitas al medio día registró los siguientes tiempos de servicio en minutos:
Restaurante 1 | Restaurante 2 | Restaurante 3 | Restaurante 4
:-------------: | :-------------: | :-------------: | :-------------:
1 | 2 | 3 | 4
2 | 3 | 2 | 3
4 | 3.5 | 3.5 | 4
5.5 | 4.5 | 5 | 5.5
3.5 | 4 | 6.5 | 2.5
4 | 5.5 | 6 | 3
a) Utilice un nivel de significancia de 0.05, ¿todos los restaurantes tienen el mismo tiempo medio de servicio?
b) Según sus resultados, ¿deberá el dueño hacer algunas recomendaciones a cualquiera de los administradores de los restaurantes?
```r
restaurante <- read.csv("/Users/pedrovillanueva/Desktop/Lineas de Tendecnia/restaurante.csv")
restaurante$restaurante <- as.factor(restaurante$restaurante)
qf(.95,df1=3, df2=16)
## [1] 3.238872
anova4 <- aov(tiempo ~ restaurante, data=restaurante)
summary(anova4)## Df Sum Sq Mean Sq F value Pr(>F)
## restaurante 3 2.538 0.8458 0.509 0.682
## Residuals 16 26.600 1.6625
# No rechazamos H0
# Los tiempos medios de servicio no son significativamente diferentes
## b)
# Debido a que ningun restaurante es peor que los otros, cualquier recomendacion tendria que hacerse a todos los administradores.Un arrendador está interesado en ver si las rentas de sus departamentos son las comunes. Para esto tomó una muestra aleatoria de 11 rentas y tamaños de departamentos en complejos de departamentos similares.
Los datos son los siguientes:
| Renta | Número de recámaras |
|---|---|
| 230 | 2 |
| 190 | 1 |
| 450 | 3 |
| 310 | 2 |
| 218 | 2 |
| 185 | 2 |
| 340 | 2 |
| 245 | 1 |
| 125 | 1 |
| 350 | 2 |
| 280 | 2 |
renta <- c(230,190,450,310,218,185,340,245,125,350,280)
recamaras <- c(2,1,3,2,2,2,2,1,1,2,2)
regresion3 <- lm(renta ~ recamaras)
summary(regresion3)##
## Call:
## lm(formula = renta ~ recamaras)
##
## Residuals:
## Min 1Q Median 3Q Max
## -101.80 -51.35 19.10 50.25 74.10
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 55.00 63.19 0.870 0.40667
## recamaras 115.90 33.13 3.498 0.00675 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 63.19 on 9 degrees of freedom
## Multiple R-squared: 0.5762, Adjusted R-squared: 0.5291
## F-statistic: 12.23 on 1 and 9 DF, p-value: 0.006746
# a)
# Renta = 55.00 + 115.90*Recamaras
# b)
# r2 = 0.5762
# c)
recamaras1 <- 2
renta1 <- 55+115.9*recamaras1
renta1## [1] 286.8
# 286.80