library(nortest)
library(stests)
library(stats)
library(ggplot2)
library(flextable)
library(dplyr)
library(datos)## [1] "precio" "quilate" "corte" "color" "claridad"
## [6] "profundidad" "tabla" "x" "y" "z"
Pregunta 1
Seleccione una submuestra que contenga únicamente diamantes de color G (use la función filter). Valide el supuesto de normalidad para la variable quilate. Con α = 0,05, realice una prueba de hipótesis para verificar si la varianza de los quilates de color G es diferente de 0.22:
\[ \small H_0: \sigma^2 = 0,22 \\ \small H_1: \sigma^2 \neq 0,22 \\ \]
## [1] 0.2144091
##
## X-squared test for variance
##
## data: datos_g$quilate
## X-squared = 19.602, df = 24, p-value = 0.5616
## alternative hypothesis: true variance is not equal to 0.22
## 95 percent confidence interval:
## 0.1095500 0.3477368
## sample estimates:
## variance of x
## 0.1796807
Ya que la prueba de normalidad de lillietest es de \(\scriptsize p=0.2144\) y es mayor a \(\scriptsize \alpha = 0.05\) no se rechaza la hipostesis nula, lo que significa que el supuesto de normalidad de la variable quilate es valido.
En terminos de la varianzs es de \(\scriptsize p=0.5616\) y es mayor a \(\scriptsize \alpha = 0.05\), por lo tanto no hay evidencia estadística para comprobar que la varianza de los quilates de los diamantes de color G es diferente de \(\scriptsize 0.22\)
Pregunta 2
Se quiere probar que el precio de los diamantes por las categorías Bajo, Medio y Alto son independientes del color. Realice una prueba de independencia chi-cuadrado al nivel de significancia α = 0,05. La tabla se presenta a continuación:
tabla <- data.frame("Color"= c("D", "E", "F", "G", "H", "otros"),
"Bajo"= c(4,7,6,8,5,3),
"Medio" = c(6,5,4,7,6,2),
"Alto" = c(5,6,5,6,4,3)
)
flextable(tabla)Color | Bajo | Medio | Alto |
|---|---|---|---|
D | 4 | 6 | 5 |
E | 7 | 5 | 6 |
F | 6 | 4 | 5 |
G | 8 | 7 | 6 |
H | 5 | 6 | 4 |
otros | 3 | 2 | 3 |
- Plantee las hipótesis adecuadas
\[ \small H_0: \text{El color del diamante es independiente del nivel de precio.} \\ \small H_1: \text{El color del diamante no es independiente del nivel de precio.} \\ \]
- Con la tabla obtenida, realice una prueba de independencia chi-cuadrado al nivel de significancia \(\scriptsize \alpha = 0,05\)
matriz <- matrix(c(4,6,5,
7,5,6,
6,4,5,
8,7,6,
5,6,4,
3,2,3),
nrow=6,
byrow=TRUE)
rownames(matriz) <- c("D", "E", "F", "G", "H", "OTROS")
colnames(matriz) <- c("Bajo", "Medio", "Alto")
matriz ## Bajo Medio Alto
## D 4 6 5
## E 7 5 6
## F 6 4 5
## G 8 7 6
## H 5 6 4
## OTROS 3 2 3
##
## Pearson's Chi-squared test
##
## data: matriz
## X-squared = 1.7832, df = 10, p-value = 0.9977
- Encuentre el valor-p de la prueba
## El valor-p de la prueba es 0.997748
- Interprete el resultado en el contexto del problema: ¿existe evidencia estadística de que el color del diamante esté asociado al nivel de precio?
El valor-p obtenido en la prueba chi-cuadrado es mayor que el nivel de significancia \(\scriptsize \alpha = 0.05\) .Por lo tanto, no se encuentra evidencia estadística que indique que el color del diamante esté asociado al nivel de precio (Bajo, Medio o Alto).
- Exprese su decisión
Debido a que el valor p es mayor a 0.05, no se rechaza la hipotesis nula y por lo tanto se puede decir que el color y el nivel de precio son independientes.
Pregunta 3
Con la muestra datos_d, realice un ANOVA de una vía para contrastar si el precio medio difiere según el corte del diamante. Las hipótesis son:
\[ \small H_0: \mu_D = \mu_E =\mu_F =\mu_G =\mu_H =\mu_I =\mu_J\\ \small H_1: \text{Al menos dos de las medias no son iguales.} \\ \] - Encuentre el valor-p de la prueba
## Df Sum Sq Mean Sq F value Pr(>F)
## datos_g$corte 3 41078861 13692954 1.13 0.36
## Residuals 21 254527757 12120369
el valor p de la prueba anova es de 0.36
- Exprese su decisión
debido a que el pvalue es de 0.36 y esto es mayor a \(\scriptsize\alpha = 0.05\), no contamos con la evidencia estadística suficiente para afirmar que el precio promedio es diferente entre los cortes del diamante. Es por esto que no se rechaza la hipotesis nula.
Pregunta 4
Ajuste un modelo de regresión lineal simple con precio como variable dependiente y quilate como variable independiente.
- Elabore un gráfico de dispersión
ggplot(datos_g, aes(x = datos_g$quilate, y = datos_g$precio)) +
geom_point(color = "deepskyblue3") +
geom_smooth(method = "lm", se = FALSE, color = "navy") +
labs(title = "Gráfico de dispersión: Precio vs Quilate",
x = "Quilate",
y = "Precio") +
theme_bw()- Encuentre la recta que mejor se ajuste al conjunto de datos
##
## Call:
## lm(formula = datos_g$precio ~ datos_g$quilate, data = datos_g)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4007.5 -786.8 103.2 718.2 5220.8
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2149.1 757.1 -2.839 0.0093 **
## datos_g$quilate 7258.7 830.4 8.741 9.08e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1724 on 23 degrees of freedom
## Multiple R-squared: 0.7686, Adjusted R-squared: 0.7586
## F-statistic: 76.41 on 1 and 23 DF, p-value: 9.076e-09
Con los datos de la función, la recta seria \(\scriptsize y=7258.7x - 2149.1\)
- Encuentre un intervalo de confianza del 95 % para la pendiente β1
int.conf <- confint(recta,level = 0.95)
cat("el intervalo de confianza del 95 % para la pendiente β1 es de", int.conf)## el intervalo de confianza del 95 % para la pendiente β1 es de -3715.223 5540.906 -582.9739 8976.538
especficamente \(\scriptsize \beta_1\) es entre \(\scriptsize -851.5728\) y \(\scriptsize 8681.923\)