library(datos)
library(MASS)
## Warning: package 'MASS' was built under R version 4.5.2
library(dplyr)
## 
## Adjuntando el paquete: 'dplyr'
## The following object is masked from 'package:MASS':
## 
##     select
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(nortest)
## Warning: package 'nortest' was built under R version 4.5.2
library(flextable)

Del paquete datos se selecciona una muestra de 120 registros de la base de datos diaman tes con la semilla 2. Se llamará datos_d. Este código deberá usarlo para responder cada pregunta:

  1. [15 puntos] Seleccione una submuestra que contenga únicamente diamantes de color G (use la función filter). Valide el supuesto de normalidad para la variable quilate. Con α = 0,05, realice una prueba de hipótesis para verificar si la varianza de los quilates de color G es diferente de 0.22
set.seed(2)
 datos_d <- sample_n(diamantes, 120)
 diamantes.g<-filter(datos_d,color=="G")
 
lillie.test(diamantes.g$quilate) 
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  diamantes.g$quilate
## D = 0.14221, p-value = 0.2144
cat("se distribuye de forma normal")
## se distribuye de forma normal

[10 puntos] Se quiere probar que el precio de los diamantes por las categorías Bajo, Medio y Alto sonindependientesdelcolor. Realice una prueba de independencia chi-cuadrado al nivel de significancia α = 0,05. La tabla se presenta a continuación: Con la tabla obtenida, realice una prueba de independencia chi-cuadrado al nivel de significancia α = 0,05. - Encuentre el valor-p de la prueba - Interprete el resultado en el contexto del problema: ¿existe evidencia estadística de que el color del diamante esté asociado al nivel de precio? - Exprese su decisión

cat("ho=los precios no dependen del color
    h1=el precio de los diamantes depen del del color")
## ho=los precios no dependen del color
##     h1=el precio de los diamantes depen del del color
set.seed(2)
 datos_d <- sample_n(diamantes, 120)

 tabla <- matrix(c(4,6,5,7,5,6,6,4,5,8,7,6,5,6,4,3,2,3), nrow = 6, byrow = TRUE)
rownames(tabla) <- c("d","e","f","g","h","otros")
colnames(tabla) <- c( "Bajo", "Medio","alto")
tabla
##       Bajo Medio alto
## d        4     6    5
## e        7     5    6
## f        6     4    5
## g        8     7    6
## h        5     6    4
## otros    3     2    3
chisq.test(tabla,simulate.p.value = 0.95)
## 
##  Pearson's Chi-squared test with simulated p-value (based on 2000
##  replicates)
## 
## data:  tabla
## X-squared = 1.7832, df = NA, p-value = 0.9965
cat("se encontro uno dependencia entre el color y el precio ya que el valor de p-value es de 0.9965")
## se encontro uno dependencia entre el color y el precio ya que el valor de p-value es de 0.9965

10 puntos] Con la muestra datos_d, realice un ANOVA de una vía para contrastar si el precio medio difiere según el corte del diamante. Las hipótesis son: H0 :µD = µE =µF =µG =µH =µI =µJ H1 :Al menos dos de las medias no son iguales. - Encuentre el valor-p de la prueba - Exprese su decisión

set.seed(2)
 datos_d <- sample_n(diamantes, 120)

modelo.1<- data.frame(datos_d$precio,datos_d$corte)
modelo<-lm(datos_d.precio~datos_d.corte, data = modelo.1)
anova<- aov(modelo)
summary(anova)
##                Df   Sum Sq  Mean Sq F value Pr(>F)
## datos_d.corte   4 4.75e+07 11874950   0.803  0.525
## Residuals     115 1.70e+09 14780565
cat("se acpepta la hipotesis nula las medias son iguales ya que el valor p supera el o.o5 siendo 0.803")
## se acpepta la hipotesis nula las medias son iguales ya que el valor p supera el o.o5 siendo 0.803

Ajuste un modelo de regresión lineal simple con precio como variable de pendiente y quilate como variable independiente. - Elabore un gráfico de dispersión - Encuentre la recta que mejor se ajuste al conjunto de datos - Encuentre un intervalo de confianza del 95% para la pendiente β

set.seed(2)
 datos_d <- sample_n(diamantes, 120)
y<-datos_d$precio
x<-datos_d$quilate
modelo <- lm(y ~ x)
summary(modelo)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4328.3  -904.2  -130.3   576.0  6544.5 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -2245.5      316.1  -7.104 9.87e-11 ***
## x             7600.7      321.2  23.665  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1605 on 118 degrees of freedom
## Multiple R-squared:  0.826,  Adjusted R-squared:  0.8245 
## F-statistic:   560 on 1 and 118 DF,  p-value: < 2.2e-16
qqplot(x,y,conf.level=0.95)

?qqplot
## starting httpd help server ... done
resp.1 <- t.test(x=datos_d$quilate, y=datos_d$precio, conf.level = 0.95)$conf.int

resp.1
## [1] -5073.443 -3688.180
## attr(,"conf.level")
## [1] 0.95
cat("intervalo de confianza esta entre -5073.443 -3688.180")
## intervalo de confianza esta entre -5073.443 -3688.180