Examen Final

Juliana Chaparro - Sarah González

2025-11-26

library(nortest)
library(stests)
library(stats)
library(ggplot2)
library(flextable)
library(dplyr)
library(datos)
set.seed(2)
datos_d <- sample_n(diamantes, size=120)
names(datos_d)
##  [1] "precio"      "quilate"     "corte"       "color"       "claridad"   
##  [6] "profundidad" "tabla"       "x"           "y"           "z"

Pregunta 1

Seleccione una submuestra que contenga únicamente diamantes de color G (use la función filter). Valide el supuesto de normalidad para la variable quilate. Con α = 0,05, realice una prueba de hipótesis para verificar si la varianza de los quilates de color G es diferente de 0.22:

\[ \small H_0: \sigma^2 = 0,22 \\ \small H_1: \sigma^2 \neq 0,22 \\ \]

datos_g <- datos_d |> filter(color == "G")
lillie.test(datos_g$quilate)$p.value
## [1] 0.2144091
stests::var.test(x=datos_g$quilate, alternative='two.sided',
                 null.value=0.22, conf.level=0.95)
## 
##  X-squared test for variance
## 
## data:  datos_g$quilate
## X-squared = 19.602, df = 24, p-value = 0.5616
## alternative hypothesis: true variance is not equal to 0.22
## 95 percent confidence interval:
##  0.1095500 0.3477368
## sample estimates:
## variance of x 
##     0.1796807

Ya que la prueba de normalidad de lillietest es de \(\scriptsize p=0.2144\) y es mayor a \(\scriptsize \alpha = 0.05\) no se rechaza la hipostesis nula, lo que significa que el supuesto de normalidad de la variable quilate es valido.

En terminos de la varianzs es de \(\scriptsize p=0.5616\) y es mayor a \(\scriptsize \alpha = 0.05\), por lo tanto no hay evidencia estadística para comprobar que la varianza de los quilates de los diamantes de color G es diferente de \(\scriptsize 0.22\)

Pregunta 2

Se quiere probar que el precio de los diamantes por las categorías Bajo, Medio y Alto son independientes del color. Realice una prueba de independencia chi-cuadrado al nivel de significancia α = 0,05. La tabla se presenta a continuación:

tabla <- data.frame("Color"= c("D", "E", "F", "G", "H", "otros"), 
               "Bajo"= c(4,7,6,8,5,3), 
               "Medio" = c(6,5,4,7,6,2),
               "Alto" = c(5,6,5,6,4,3)
               )
flextable(tabla)

Color

Bajo

Medio

Alto

D

4

6

5

E

7

5

6

F

6

4

5

G

8

7

6

H

5

6

4

otros

3

2

3

  • Plantee las hipótesis adecuadas

\[ \small H_0: \text{El color del diamante es independiente del nivel de precio.} \\ \small H_1: \text{El color del diamante no es independiente del nivel de precio.} \\ \]

  • Con la tabla obtenida, realice una prueba de independencia chi-cuadrado al nivel de significancia \(\scriptsize \alpha = 0,05\)
matriz <- matrix(c(4,6,5,
                   7,5,6,
                   6,4,5,
                   8,7,6,
                   5,6,4,
                   3,2,3),
                 nrow=6, 
                 byrow=TRUE) 
rownames(matriz) <- c("D", "E", "F", "G", "H", "OTROS")
colnames(matriz) <- c("Bajo", "Medio", "Alto")
matriz 
##       Bajo Medio Alto
## D        4     6    5
## E        7     5    6
## F        6     4    5
## G        8     7    6
## H        5     6    4
## OTROS    3     2    3
resp <- chisq.test(matriz, correct=FALSE)
resp
## 
##  Pearson's Chi-squared test
## 
## data:  matriz
## X-squared = 1.7832, df = 10, p-value = 0.9977
  • Encuentre el valor-p de la prueba
resp <- chisq.test(matriz, correct=FALSE)$p.value
cat("El valor-p de la prueba es", resp)
## El valor-p de la prueba es 0.997748
  • Interprete el resultado en el contexto del problema: ¿existe evidencia estadística de que el color del diamante esté asociado al nivel de precio?

El valor-p obtenido en la prueba chi-cuadrado es mayor que el nivel de significancia \(\scriptsize \alpha = 0.05\) .Por lo tanto, no se encuentra evidencia estadística que indique que el color del diamante esté asociado al nivel de precio (Bajo, Medio o Alto).

  • Exprese su decisión

Debido a que el valor p es mayor a 0.05, no se rechaza la hipotesis nula y por lo tanto se puede decir que el color y el nivel de precio son independientes.

Pregunta 3

Con la muestra datos_d, realice un ANOVA de una vía para contrastar si el precio medio difiere según el corte del diamante. Las hipótesis son:

\[ \small H_0: \mu_D = \mu_E =\mu_F =\mu_G =\mu_H =\mu_I =\mu_J\\ \small H_1: \text{Al menos dos de las medias no son iguales.} \\ \] - Encuentre el valor-p de la prueba

anova <- aov(datos_g$precio ~ datos_g$corte, data = datos_g)
summary(anova)
##               Df    Sum Sq  Mean Sq F value Pr(>F)
## datos_g$corte  3  41078861 13692954    1.13   0.36
## Residuals     21 254527757 12120369

el valor p de la prueba anova es de 0.36

  • Exprese su decisión

debido a que el pvalue es de 0.36 y esto es mayor a \(\scriptsize\alpha = 0.05\), no contamos con la evidencia estadística suficiente para afirmar que el precio promedio es diferente entre los cortes del diamante. Es por esto que no se rechaza la hipotesis nula.

Pregunta 4

Ajuste un modelo de regresión lineal simple con precio como variable dependiente y quilate como variable independiente.

  • Elabore un gráfico de dispersión
ggplot(datos_g, aes(x = datos_g$quilate, y = datos_g$precio)) +
  geom_point(color = "deepskyblue3") +
  geom_smooth(method = "lm", se = FALSE, color = "navy") +
  labs(title = "Gráfico de dispersión: Precio vs Quilate",
       x = "Quilate",
       y = "Precio") +
  theme_bw()

  • Encuentre la recta que mejor se ajuste al conjunto de datos
recta <- lm(datos_g$precio ~ datos_g$quilate, data = datos_g)
summary(recta)
## 
## Call:
## lm(formula = datos_g$precio ~ datos_g$quilate, data = datos_g)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4007.5  -786.8   103.2   718.2  5220.8 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      -2149.1      757.1  -2.839   0.0093 ** 
## datos_g$quilate   7258.7      830.4   8.741 9.08e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1724 on 23 degrees of freedom
## Multiple R-squared:  0.7686, Adjusted R-squared:  0.7586 
## F-statistic: 76.41 on 1 and 23 DF,  p-value: 9.076e-09

Con los datos de la función, la recta seria \(\scriptsize y=7258.7x - 2149.1\)

  • Encuentre un intervalo de confianza del 95 % para la pendiente β1
int.conf <- confint(recta,level = 0.95)
cat("el intervalo de confianza del 95 % para la pendiente β1 es de", int.conf)
## el intervalo de confianza del 95 % para la pendiente β1 es de -3715.223 5540.906 -582.9739 8976.538

especficamente \(\scriptsize \beta_1\) es entre \(\scriptsize -851.5728\) y \(\scriptsize 8681.923\)