library(datos)
library(MASS)
## Warning: package 'MASS' was built under R version 4.5.2
library(dplyr)
##
## Adjuntando el paquete: 'dplyr'
## The following object is masked from 'package:MASS':
##
## select
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(nortest)
## Warning: package 'nortest' was built under R version 4.5.2
library(flextable)
Del paquete datos se selecciona una muestra de 120 registros de la base de datos diaman tes con la semilla 2. Se llamará datos_d. Este código deberá usarlo para responder cada pregunta:
set.seed(2)
datos_d <- sample_n(diamantes, 120)
diamantes.g<-filter(datos_d,color=="G")
lillie.test(diamantes.g$quilate)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: diamantes.g$quilate
## D = 0.14221, p-value = 0.2144
cat("se distribuye de forma normal")
## se distribuye de forma normal
[10 puntos] Se quiere probar que el precio de los diamantes por las categorías Bajo, Medio y Alto sonindependientesdelcolor. Realice una prueba de independencia chi-cuadrado al nivel de significancia α = 0,05. La tabla se presenta a continuación: Con la tabla obtenida, realice una prueba de independencia chi-cuadrado al nivel de significancia α = 0,05. - Encuentre el valor-p de la prueba - Interprete el resultado en el contexto del problema: ¿existe evidencia estadística de que el color del diamante esté asociado al nivel de precio? - Exprese su decisión
cat("ho=los precios no dependen del color
h1=el precio de los diamantes depen del del color")
## ho=los precios no dependen del color
## h1=el precio de los diamantes depen del del color
set.seed(2)
datos_d <- sample_n(diamantes, 120)
tabla <- matrix(c(4,6,5,7,5,6,6,4,5,8,7,6,5,6,4,3,2,3), nrow = 6, byrow = TRUE)
rownames(tabla) <- c("d","e","f","g","h","otros")
colnames(tabla) <- c( "Bajo", "Medio","alto")
tabla
## Bajo Medio alto
## d 4 6 5
## e 7 5 6
## f 6 4 5
## g 8 7 6
## h 5 6 4
## otros 3 2 3
chisq.test(tabla,simulate.p.value = 0.95)
##
## Pearson's Chi-squared test with simulated p-value (based on 2000
## replicates)
##
## data: tabla
## X-squared = 1.7832, df = NA, p-value = 0.9965
cat("se encontro uno dependencia entre el color y el precio ya que el valor de p-value es de 0.9965")
## se encontro uno dependencia entre el color y el precio ya que el valor de p-value es de 0.9965
10 puntos] Con la muestra datos_d, realice un ANOVA de una vía para contrastar si el precio medio difiere según el corte del diamante. Las hipótesis son: H0 :µD = µE =µF =µG =µH =µI =µJ H1 :Al menos dos de las medias no son iguales. - Encuentre el valor-p de la prueba - Exprese su decisión
set.seed(2)
datos_d <- sample_n(diamantes, 120)
modelo.1<- data.frame(datos_d$precio,datos_d$corte)
modelo<-lm(datos_d.precio~datos_d.corte, data = modelo.1)
anova<- aov(modelo)
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## datos_d.corte 4 4.75e+07 11874950 0.803 0.525
## Residuals 115 1.70e+09 14780565
cat("se acpepta la hipotesis nula las medias son iguales ya que el valor p supera el o.o5 siendo 0.803")
## se acpepta la hipotesis nula las medias son iguales ya que el valor p supera el o.o5 siendo 0.803
Ajuste un modelo de regresión lineal simple con precio como variable de pendiente y quilate como variable independiente. - Elabore un gráfico de dispersión - Encuentre la recta que mejor se ajuste al conjunto de datos - Encuentre un intervalo de confianza del 95% para la pendiente β
set.seed(2)
datos_d <- sample_n(diamantes, 120)
y<-datos_d$precio
x<-datos_d$quilate
modelo <- lm(y ~ x)
summary(modelo)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4328.3 -904.2 -130.3 576.0 6544.5
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2245.5 316.1 -7.104 9.87e-11 ***
## x 7600.7 321.2 23.665 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1605 on 118 degrees of freedom
## Multiple R-squared: 0.826, Adjusted R-squared: 0.8245
## F-statistic: 560 on 1 and 118 DF, p-value: < 2.2e-16
qqplot(x,y,conf.level=0.95)
?qqplot
## starting httpd help server ... done
resp.1 <- t.test(x=datos_d$quilate, y=datos_d$precio, conf.level = 0.95)$conf.int
resp.1
## [1] -5073.443 -3688.180
## attr(,"conf.level")
## [1] 0.95
cat("intervalo de confianza esta entre -5073.443 -3688.180")
## intervalo de confianza esta entre -5073.443 -3688.180