## Warning: package 'e1071' was built under R version 4.2.2

## Warning: package 'tseries' was built under R version 4.2.2

## Warning: package 'BSDA' was built under R version 4.2.2

## Warning: package 'xlsx' was built under R version 4.2.2

Introducción

Para la ejecución de esta práctica usaremos la base de datos denominada “diamonds” que se incluye por defecto en R. Diamonds es un conjunto de datos que contiene los precios y otros atributos de casi 54.000 diamantes.

De esta base de datos se tomó una muestra que contiene 385 datos, la cual usamos con la intención de descubrir y reconocer patrones y tendencias implicitos mediante el analisís de variables e implementación de graficas.

a) Tamaño de la muestra

## el tamaño de la muestra con una confianza del 95%,con sigma conocida de 4000 y un error de 400 es    385

Variable precio

De la variable Precio, determine el valor de la media y la desviación estándar poblacionales y muestrales (tienen la población y una muestra). Explique brevemente quién es el estimador de quién allí. Además, calcule la probabilidad de que la variable media muestral sea mayor o igual que el valor de la poblacional.

Media poblacional

## [1] 3932.8

Desviación estandar poblacional

## [1] 3989.44

Media muestral

## [1] 4047.519

Desviación estandar muestral

## [1] 4102.853

Logramos identificar que el estimador va de parte de la muestra en este caso tenemos a la muestra obtenida a partir de la población, en donde la muestra actua como representante de la población y además nos sirve para saber si el valor del parámetro del objeto de estudio es totalmente lógico para posteriormente realizar una estimación.

Probabilidad de que la variable media muestral sea mayor o igual que el valor de la poblacional.

## [1] 0.5

logramos comprobar que el valor de la media muestral es ligeramente mayor que el valor de la media poblacional

Histograma de la variable precio con cálculo del sesgo y la curtosis

Sesgo

## La asimetría de los datos del precio es 1.5478487. Indica que la distribución de los precios está sesgada hacia la hacia la derecha 1.504508

Curtosis

## [1] 1.664793

Recordemos que la curtosis mide como de achatada o apuntada es la curva. Si este coeficiente es nulo, la distribución se dice normal (similar a la distribución normal de Gauss) y recibe el nombre de mesocúrtica. Si el coeficiente es positivo, la distribución se llama leptocúrtica, hay una mayor concentración de los datos en torno a la media. Si el coeficiente es negativo, la distribución se llama platicurtica y hay una menor concentración de datos en torno a la media. Para nuestro caso es leptocúrtica, ya que es positivo, es decir que los datos presentan una normalidad leve o que pueden ser representados por una distribución normal.

Actividad 2

a)

Construya un intervalo de confianza al noventa por ciento para el promedio de la variable Precio. Escriba la interpretación en el contexto del caso. Compruebe si la media poblacional cae en dicho intervalo. Justifique su respuesta

mediap <- mean(muestra1$precio)

desvi <- sd(muestra1$precio)
z <- 1.645
n <- length(muestra1$precio)
error <- z*(desvi/sqrt(n))
lim_inf <- mediap-error
lim_inf

## [1] 3703.549

lim_sup <- mediap+error
lim_sup

## [1] 4391.49

cat("Como la media poblacional, tiene un valor de",mdp, "y el intervalo de confianza para la media de la categoria precio, de la muestra 1, contiene los valores entre", lim_inf, "y", lim_sup, "Entonces se afirma que la media poblacional se encuentra en el intervalo de confianza descrito")

## Como la media poblacional, tiene un valor de 3932.8 y el intervalo de confianza para la media de la categoria precio, de la muestra 1, contiene los valores entre 3703.549 y 4391.49 Entonces se afirma que la media poblacional se encuentra en el intervalo de confianza descrito

b)

Construya un intervalo de confianza al noventa y cinco por ciento para la proporción de los Muy bueno de la variable corte. Escriba la interpretación en el contexto del caso. Compruebe si la proporción poblacional está en este intervalo.

muestra2 <- muestra1
muestra2 <- muestra2 %>% 
  filter(corte == "Muy bueno")
##mb <- length(muestra2$corte)
mb <-80
z <- 1.96
n <- length(muestra1$corte)


p <- mb/n
se <- sqrt((p*(1-p))/n)

error <- z*se  

lim_inf <- p-error 
lim_inf

## [1] 0.1672638

lim_sup <- p+error
lim_sup

## [1] 0.2483206

##Comprobación
muestrag <- diamantes
muestrag <- muestrag %>% 
  filter(corte == "Muy bueno")
mb <- length(muestrag$corte)

n <- length(diamantes$corte)

cp<-mb/n



cat("Como la proporcion poblacional, tiene un valor de",cp, "y el intervalo de confianza para los Muy bueno de la categoria corte de la muestra 1, contiene los valores entre", lim_inf, "y", lim_sup, "Entonces se afirma que la proporcion poblacional se encuentra en el intervalo de confianza descrito")

## Como la proporcion poblacional, tiene un valor de 0.2239896 y el intervalo de confianza para los Muy bueno de la categoria corte de la muestra 1, contiene los valores entre 0.1672638 y 0.2483206 Entonces se afirma que la proporcion poblacional se encuentra en el intervalo de confianza descrito

c)

Construya un intervalo de confianza al noventa por ciento para la diferencia de medias de x y de z. Escriba la interpretación en el contexto del caso.

Media de X

## [1] 5.739922

Desviación estandar de X

## [1] 1.124736

Media de Z

## [1] 3.545688

Desviación estandar de Z

## [1] 0.6939355

Intervalo de confianza para la diferencia de medias

## [1] 2.083446 2.305021
## attr(,"conf.level")
## [1] 0.9

La interpretación que podemos otorgar es que el rango del intervalo se encuentra como tal el 90% de los datos de X y Z correctamente los cuales son profundidad y largo

Actividad 3

a)

Construya una prueba de hipótesis con un nivel de significancia de 0,05 para el precio promedio, usando como hipótesis alternativa: “µ es mayor a el valor real encontrado en la población (Actividad 1 ítem c.)”. Justifique cada parte del proceso, al final dé su conclusión en el contexto del problema.

## [1] 0.7137014

Para resolver la prueba de hipotesis se deben seguir los siguientes pasos: 1) Identificar hipotesis nula (h0) 2) Formular hipotesis alternativa (h1) 3) Definir estadistico de prueba para resolver la prueba. 4) Establecer el nivel de significancia y /o valor p 5) Sacar conclusiones.

Por lo tanto del enunciado obtenemos que:

>h0: u es igual o menor al valor real encontrado en la población.
>h1: u es mayor a el valor real encontrado en la población.
>nivel de significancia: 5%

También se sabe que debido al tamaño de la muestra la >distribución es normal.Por lo tanto se aplica la fórmula.

b)

Construya una prueba de hipótesis con un nivel de significancia de 0,05 para concluir si hay diferencia entre las variables x y la variable z. Justifique cada parte del proceso, al final dé su conclusión en el contexto del problema.

## [1] 1.26503

## [1] 0.4815465

## 
##  Welch Two Sample t-test
## 
## data:  muestra1$x and muestra1$z
## t = 32.578, df = 639.35, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  2.061972 2.326496
## sample estimates:
## mean of x mean of y 
##  5.739922  3.545688

De la prueba se obtiene un valor-P pequeño de 2.2e-16, por lo tanto, podemos concluir que si hay una pequeña diferencia entre la variable x y z, es decir los diamantes en promedio su largo y profundidad son diferentes.

c)

Construya una prueba de hipótesis con un nivel de significancia de 0,05 para la varianza del precio usando como hipótesis alternativa: “σ^2” es mayor a el valor real encontrado en la población.

## 
##  F test to compare two variances
## 
## data:  muestra1$precio and diamantes$precio
## F = 1.0577, num df = 384, denom df = 53939, p-value = 0.2104
## alternative hypothesis: true ratio of variances is greater than 1
## 95 percent confidence interval:
##  0.9425769       Inf
## sample estimates:
## ratio of variances 
##           1.057665

Como el valor-P 21% es mayor que el nivel de significancia 5%, no se rechaza la hipótesis nula, es decir, las evidencias no son suficientes para afirmar que la varianza de de la muestra es mayor que la de la población y en efecto tiene lógica respecto a las varianzas muestrales y poblacionales calculadas anteriormente.

Conclusiones

La base de datos contiene información suficiente para realizar un analisis estadistico con aplicación de conceptos vistos en clase correctamente.

ÚLTIMO PARCIAL ANALISÍS ESTADISTICO CON BASE A DIAMANTES.

Breiner-lopez, Javier Carrillo, Marianela Lozano, Juan Ospina

2022-12-05

Introducción

a) Tamaño de la muestra

Variable precio

Media poblacional

Desviación estandar poblacional

Media muestral

Desviación estandar muestral

Probabilidad de que la variable media muestral sea mayor o igual que el valor de la poblacional.

Histograma de la variable precio con cálculo del sesgo y la curtosis

Sesgo

Curtosis

Actividad 2

a)

b)

c)

Media de X

Desviación estandar de X

Media de Z

Desviación estandar de Z

Intervalo de confianza para la diferencia de medias

Actividad 3

a)

b)

c)

Conclusiones