Introducción

En el presente informe se desarrollaron las 3 actividades propuestas, se generaron 120 datos aleatorios de la base de datos BLACKFRIDAY, a partir de la muestra se determinó mediante metodos como diagramas, histogramas (qqplot) y pruebas de normalidad si la muestra aleatoria de la variable pruchase se distribuia normal. Tambien se analizó la variable Gender y se determinó que también se distribuía normal, por lo que rapidamente se pudo concluir que las muestras provienen de una poblacion que se distribuye normal. También se trabajaron pruebas de hipotesis que no permitieron identificar la veracidad de hipótesis siempre trabajando con intervalos del 95% donde se concluyó que las medias y varianzas respectivas de compras de hombres y mujeres son diferentes.

ACTIVIDAD 1

A)GENERAR MUESTRA ALEATORIA

Haciendo uso del paquete de readxl, se obtuvo la muestra aleatoria de 120 datos para cada una de las variables de la base de datos BLACKFRIDAY

library(readxl)

datos <- read_excel("C:/Users/jquin/Downloads/Blackfriday (1).xlsx")
set.seed(53433)
m <- data.frame(datos)

muestra_datos <- m[sample(nrow(m), 120), 0:13]

View(muestra_datos)

Exportando base de datos a EXCEL

B) ANALISIS DESCRIPTIVO VARIABLES “GENDER”, “CITY CATEGORY”

Las siguientes variables son cualitativas, cabe destacar que dentro de las actividades a desarrollar se solicita hacer el análisis descriptivo de la variable “INCOME”, la cual refiere a una variable cuantitativa, sin embargo al abrir el documento de excel de la base de datos, no se encuentra esta variable, por lo cual solo se analizaran las variables “GENDER” y “CATEGORY” que corresponden a variables cuantitativas

GENDER

gender <- as.data.frame(table(muestra_datos$Gender));gender
##   Var1 Freq
## 1    F   32
## 2    M   88

DIAGRAMA DE BARAS GENDER

DIAGRAMA DE TORTA ESTADO

gender$Percent <- paste(round((gender$Freq/sum(gender$Freq))*100, 1),"%");gender$Percent
## [1] "26.7 %" "73.3 %"

### DIAGRAMA DE TORTA 3D ESTADO

## CITY CATEGORY

city_category <- as.data.frame(table(muestra_datos$City_Category));city_category
##   Var1 Freq
## 1    A   38
## 2    B   55
## 3    C   27

DIAGRAMA DE BARAS CITY CATEGORY

DIAGRAMA DE TORTA CITY CATEGORY

city_category$Percent <- paste(round((city_category$Freq/sum(city_category$Freq))*100, 1),"%");city_category$Percent
## [1] "31.7 %" "45.8 %" "22.5 %"

DIAGRAMA DE TORTA 3D CITY_CATEGORY

ANALISIS VARIABLES CUANTITATIVAS

Para las variables cualitativas no se puede decir que una categoría es “mayor” o “menor” que otra en un sentido numérico. Por lo tanto, no tiene sentido calcular la mediana, que implica la ordenación de valores, por esto, la moda es la unica medida que nos podría proporcionar una información util al momento de tratar con variables de tipo cualitativo, y así poder obtener el valor más recurrente, en cambio la mediana y la media no tienen un significado claro debido a la naturaleza discreta y no numérica de las categorías, la falta de orden y la interpretación limitada en términos estadísticos. Para este tipo de variables, es más útil utilizar herramientas de análisis de frecuencia, como tablas de frecuencia y gráficos de barras, para comprender mejor la distribución de las categorías. Por esto en los casos de las variables cualitativas utilizamos los graficos de barras y los diagramas de tortas, ya que este tipo de variables, su información relevante es su cantidad en numero de frecuencias.

Comparaciones generales

En el caso de las variables cualitativas, se puede hacer uso de los diagramas de barras para comprar las recurrencias de 2 ó más variables en un mismo tipo de muestra, por lo que acontinuación demostramos comparaciones entre este mismo tipo de variables:

Comparando los resultados de las variables cualitativas

GENDER VS CITY CATEGORY

C)CALCULO DE MEDIA Y DESVAICION ESTANDAR DE LA VARIABLE PURCHASE

Para este caso, no se nos proporciona la desviacion estandar o varianza poblacional (sigma) ni la media (mu)

n <- length(muestra_datos$Purchase);n
## [1] 120
media_muestral <- mean(muestra_datos$Purchase);media_muestral
## [1] 10024.02
desviacion_muestral <- sd(muestra_datos$Purchase);desviacion_muestral
## [1] 5236.967

ANALISIS DESVIACION ESTANDAR

La desviacion estandar de nuestra muestra es de 5439.6, la cual es muy alta, esto indica que los valores son muy dispersos y hay una gama significativa de valores en la variable purchase tomada, tambien se puede interpretar la existencia de valores atípicos en la muestra.

D) HISTOGRAMA PARA LA VARIABLE PURCHASE

# ANALISIS DEL HISTOGRAMA

Debido a que la forma del Histograma para la variable PURCHARSE tiene una forma de manera casi simétrica, esta distribución se podría tratar de una distribución de la forma normal, sin embargo se deben ralizar otro número de pruebas más especificas para llegar a concluir que se trata de este tipo de distribución

###Calculo del sesgo y la curtosis para la variable PURCHASE

Ahora calculamos el sesgo y curtosis para la distribución de la variable Purchase, para determinar si se trata de una distribución normal.

## 
## Attaching package: 'e1071'
## The following object is masked from 'package:modeest':
## 
##     skewness
## Sesgo: -0.147332
## Curtosis: -0.439076

Debido a que el sesgo es cercano a cero (entre -0.5 y 0.5), la distribución se considera aproximadamente simétrica. Esto es consistente con la simetría de la distribución normal.

Como la curtosis es cercana a cero se puede indicar que la distribución tiene una forma de campana similar a la distribución normal.

Gráfico cuantil cuantil para la variable PURCHASE

Acontinuación realizamos la grafica de cuantil cuantil para estudiar la normalidad de los datos de la muestra de la variable PURCHARSE, en este caso realizamos el grá fico con la función qqnorm para evaluar la normalidad de los datos, además de utiliazar qqline para agregar una linea de referencia que nos permite interpretar el gráfico qqplot.

## Warning: package 'car' was built under R version 4.3.2
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.3.2
## 
## Attaching package: 'carData'
## The following objects are masked from 'package:BSDA':
## 
##     Vocab, Wool
## 
## Attaching package: 'car'
## The following object is masked from 'package:purrr':
## 
##     some
## The following object is masked from 'package:dplyr':
## 
##     recode

En el gráfico anterior podemos observar que en unos casos los puntos no se alinean de forma perfecta, apesar de esto, eso NO significa en la práctica que los datos NO provengan de una población normal, por el contrario, entre más se centralizan estos datos se puede observar una mejor alineación lineal lo que nos acerca cada vez más a la conclusión de que la distribución de la variable PURCHARSE se trate de una distribución normal.

Ahora para poder llegar a una conclusión final, realizamos diferentes pruebas de normalidad como la de Anderson-Darling, Kolmogorov-Smirnov y Shapiro-Francia, para finalmente determinar si la variable PURCHARSE se trata de una normal o no.

## 
##  Anderson-Darling normality test
## 
## data:  muestra_datos$Purchase
## A = 0.46072, p-value = 0.2559
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  muestra_datos$Purchase
## D = 0.06183, p-value = 0.3146
## 
##  Shapiro-Francia normality test
## 
## data:  muestra_datos$Purchase
## W = 0.99086, p-value = 0.5263

Conclusiones finales acerca de la distribución de la variable PURCHARSE

Para determinar si una distribución es normal, generalmente se considera un valor p mayor que un umbral específico, como 0.05 o 0.10 (nivel de significancia del 5% 0 10%) según se a el caso. Para el caso de la variable PURCHARSE cada una de estas pruebas el valor de p es bastante mas grande al 0.10 (10%) lo que finalmente y gracias a las demás pruebas gráficas y demás, podemos concluir que la muestra tomada para la variable PURCHARSE se distribuyen de manera normal.

ACTIVIDAD 2

A) 1. intervalo de confianza al noventa por ciento para el promedio de la variable PURCHASE.

Ya hemos chequeado el supuesto de normalidad con las respectivas pruebas de normalidad, como se destacó anteriormente, los valores de p-value son mayores al 10% y se asume que la muestra aleatoria proviene de una poblacion normal, es por esto que se usará la funcion t.test para revisar y asegurar con certeza el intervalo donde se encuentra la media de la muestra y con que porcentaje d e confianza:

## 
## Attaching package: 'stests'
## The following object is masked from 'package:BSDA':
## 
##     z.test
## The following object is masked from 'package:stats':
## 
##     var.test
## [1] 120
## [1] 10024.02
## [1] 5236.967
## [1]  9231.504 10816.546
## attr(,"conf.level")
## [1] 0.9
## Con un intervalo de confianza del 90%, se puede afirmar que el promedio de la variable purchase se encuentra entre 9231.504 10816.55
## [1]  9231.504 10816.546
## attr(,"conf.level")
## [1] 0.9

Deacuerdo con el calculo anterior del intervalo de confianza para el promedio de la variable PURCHASE, obtuvimos un rango posible para el valor de la media de los datos de la forma: (9231.5 < x_barra < 10816.5), posteriormente, calculamos la media de los datos para comprobar si se encuentra en este intervalo, así obtuvimo que la media (x_barra) es igual a 10024.02

Aseguramos con un intervalo de confianza del 90% que la media recae entre estos dos intervalos, por lo tanto, se estimó de manera correcta la media

A) 2. Con una confianza del 99% estimamos que las compras hechas están estre Us$8668 y Us$9534.

## [1]  8772.551 11275.499
## attr(,"conf.level")
## [1] 0.99
## [1] 10024.02

De acuerdo con lo anterior, podemos demostrar que la estImación del intervalo de confianza al 99%, no coinide con el intervalo de confianza calculado al 99% por medio de la función t.test, en dado caso, realizar esta estimación y acertar es un poco complicado, por lo tanto era bastante probable que la estimación del intervalo sea erronea. por otro lado, al asumir este intervalo de confianza estimado como valido, se puede observar, que la media poblacional se encuentra desfada con dicha estimación. IC Estimado = (8668 < xbarra < 9534), ya que la media poblacional para la Variable PURCHASE (xbarra) es mayor al valor de la derecha del intervalo, este intervalo esta desfazado, ya que el valor de la media es mayor que el máximo valor de la estimación. (10024.02 > 9534).

B) intervalo de confianza al noventa y cinco por ciento para la proporción de ventas superiores al US$5.000.

A continuación presentamos la construcción del intervalo de confianza al 95% para una nueva población construida apartir de los casos en los que el valor de la compra sea superior a US$5.000.

## [1] 13
## [1] 11011.59 12583.96
## attr(,"conf.level")
## [1] 0.95
## [1] 11797.78

De acuerdo con lo anterior, la población inicial se redujo de una muestra de 120 a una nueva muestra de 103, según el parametro de ventas superiores a US$5.000, con lo obtenido anteriormente para esta nueva muestra, obtuvimos que el intervalo de confianza al 95% es (11011.59 < xbarra < 12583.96), realizando el calculo de la media para esta nueva muestra obtuvimos que (xbarra = 11797.78), lo que nos permite concluir que este intervalo de confianza es correcto y acertado ya que si se cumple la condición antes mencionada de (11011.59 < xbarra < 12583.96), que para este caso sería (11011.59 < 11797.78 < 12583.96), por lo tanto esta porción poblacional se encuentra en este intervalo.

###c. Construya un intervalo de confianza al noventa por ciento para la diferencia de medias de las compras hechas por hombres y por mujeres. Escriba la interpretación en el contexto del caso.

LAS MUESTRAS SON INDEPENDIENTES

Para este caso se nos pide analizar la diferencia de medias entre las compras hechas por hombres y mujeres de la base de datos, para esto, es necesario saber si las muestras se distribuyend e manera normal, para esto, repetimos el proceso de la ACTIVIDAD 1, haciendo histogramas y pruebas de normalidad. Esto se puede hacer contando las veces que una mujer y un hpombre hizo una compra

## [1] 41  5
## [1] 9 8

Se generaron los respectivos histogramas y qqplots para verificar si las muestras tomadas de hombres y mujeres se distribuyen normla, podemos observar que para ambas variables, se muestra un patrón de distribución normal, especificamente el qqplot, los datos no estan dispersos y siguen una distribucion normal en los histogramas.

Sabemos que esto no es necesario y se procede a realizar las pruebas de normalidad

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  hombres
## D = 0.080979, p-value = 0.1659
## 
##  Shapiro-Francia normality test
## 
## data:  hombres
## W = 0.98056, p-value = 0.1806

Utilizando shapiro y lillie tes se obtuvo un p-value mayor al 10% para el grupo de hombres, se confirma que se cumple el supuesto de normalidad.

Ahora para mujeres

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  mujeres
## D = 0.11297, p-value = 0.3754
## 
##  Shapiro-Francia normality test
## 
## data:  mujeres
## W = 0.95603, p-value = 0.1853

Utilizando shapiro y lillie tes se obtuvo un p-value mayor al 10% para el grupo de mujeres, se confirma que se cumple el supuesto de normalidad para ambos grupos.

Se quiere saber si existe diferencia estadísticamente significativa entre la media de compras de los hombres y las mujeres. Para responder esto se va a construir un intervalo de confianza del 90% para la diferencia de las compras promedio de los hombres y de las mujeres.

## [1] -1444.973  2153.109
## attr(,"conf.level")
## [1] 0.9

A partir del intervalo de confianza anterior, se puede concluir con un nivel de confianza del 90% que no hay una diferencia significativa entre los promedios de compras de hombres y mujeres, esto se debe a que nuestro intervalo incluye valores negativos (desde -1444.973) y valores positivos (2153.109), por lo que INCLUYE EL CERO, por lo tanto la diferencia de medias puede ser cero y con esto podemos decir que pueden ser iguales las medias.Esta psoible igualdad de promedios indica patrones de gasto similares entre compradores hombres y mujeres para el blackfriday.

###d. Construya un intervalo de confianza para la varianza de las compras de las mujeres.

Como no nos proporcionan un intervalo de confianza se asume un nivel de confianza 95%

Se usa la funcion va.test de STATS ya que solo vamos a analizar 1 muestra y no dos, en el caso de que fueran dos muestras se usaría stests

## [1] 15561673 42794920
## attr(,"conf.level")
## [1] 0.95

La varianza de las compras de las mujeres se encuentra entre 15561673 y 42794920 con un intervalo de confianza del 95%

#ACTIVIDAD 3 ###Construya una prueba de hipótesis con un nivel de significancia de 0,05 para las ventas promedio, usando como hipótesis alternativa: “μ es mayor a el valor real encontrado en la población (Actividad 1 ítem c.)”.Justifique cada parte del proceso, al final dé su conclusión en el contexto del problema.

Ya hemos concluido que la muestra proviene de una población normal, ahora, se realizará una prueba de hipótesis para μ con muestras grandes (ya que es de 120 datos)

Se porpone que la hipotesis alternativa “μ es mayor al valor real encontrado en la población (Actividad 1, item c).

por lo tanto, la hipotesis nula es que μ es igual al valor real encontrado en la población.

esto con un nivel de significancia del 5%

recordemos que la media de la muestra es: 10024.02

## La media muestal es de: 10024.02

H0: μ = 10024.02, H1: μ > 10024.02

## 
##  One Sample t-test
## 
## data:  muestra_datos$Purchase
## t = 0, df = 119, p-value = 0.5
## alternative hypothesis: true mean is greater than 10024.02
## 95 percent confidence interval:
##  9231.504      Inf
## sample estimates:
## mean of x 
##  10024.02

Los resultados de la prueba de hipótesis son los siguientes:

-One Sample t-test: Indica que se realizó una prueba t de una muestra.

data: muestra_datos$Purchase: Especifica la columna de datos sobre la cual se realizó la prueba en este caso la columna Purchase.

t = 0: El valor de la estadística de prueba t es 0.

df = 119: Los grados de libertad son 119, que corresponden al tamaño de la muestra menos 1.

p-value = 0.5: Este es el valor p de la prueba. En este caso, es 0.5, lo cual indica que no hay suficiente evidencia para rechazar la hipótesis nula a un nivel de significancia del 5% (nivel de confianza típico). Un valor p mayor que el nivel de significancia (0.05 en este caso) sugiere que no hay suficiente evidencia para rechazar la hipótesis nula.

alternative hypothesis: true mean is greater than 9082.975: La hipótesis alternativa indica que la media verdadera es mayor que 10024.02 que es la media muestral.

95 percent confidence interval: 8054.834 Inf: El intervalo de confianza del 95% para la media verdadera se extiende desde 8054.834 hasta infinito. Esto se debe a que el valor p es alto y no se puede precisar un límite superior al intervalo.

sample estimates: mean of x : La media muestral es 10024.02 que es la media de la muestra de datos.

En resumen, con un valor p de 0.5, no hay suficiente evidencia para rechazar la hipótesis nula de que la media poblacional es igual a la media muestral de 10024.02 Además, el intervalo de confianza para la media verdadera es bastante amplio y no tiene un límite superior preciso debido al alto valor p.

###B Construya una prueba de hipótesis con un nivel de significancia de 0,05 para concluir si hay diferencia entre las compras promedio de hombres y mujeres. Justifique cada parte del proceso, al final dé su conclusión en el contexto del problema.

Anteriormente se demostró que los grupos de hoombres y mujeres se distribuian normal, ahora, sabemos que sus varianzas son diferentes, es por esto que se realizará una prueba de hipótesis para diferencias de medias con varianzas diferentes, μ1−μ2

Es necesario construir un boxplot con el objetivo de comparar las frecuencias de compras de hombres y mujeres

Se puede observar en el boxplot como las cajas tienden a traslaparse, esto puede indicar una media similar para ambos generos, sin embargo esto no es un determinante final y es por esto que se procede a realizar el análisis con pruebas de hipótesis (Recordemos que la muestra proviene de una población normal y no haremos pruebas, se pasa al rechazo o no rechazo de hipotesis nula)

De nuevo, no se nos proporciona un intervalo de confianza y se asume como predeterminado el 95%

H0: μ1-μ2 = 0, H1: μ1-μ2 ≠ 0

## 
##  Welch Two Sample t-test
## 
## data:  hombres and mujeres
## t = 0.34, df = 59.694, p-value = 0.7351
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1729.239  2437.376
## sample estimates:
## mean of x mean of y 
## 10118.443  9764.375

p.value es mayor al 10%, esto nos indica que debe rechazar la hipotesis nula, por lo tanto se afirma que las medias no son iguales con un nivel nivel de confianza del 95%.

###c. Construya un intervalo de confianza para el cociente de varianzas de las compras entre hombres y mujeres.

## [1] 1.191663
## [1] 0.634941 2.059240

Cuando el valor observado (1.191663 en este caso) está dentro del intervalo de confianza que se ha construido para un parámetro, indica que este valor es plausible y concuerda con la estimación del parámetro con un cierto nivel de confianza. En este contexto, el valor del cociente de varianzas que se calcula está dentro del intervalo de confianza del 95%, lo que significa que es coherente con nuestra estimación de la variabilidad relativa entre las varianzas de las compras entre hombres y mujeres con un nivel de confianza del 95%.

###d. Elabore una prueba de hipótesis con alfa = 5% para la igualdad de las varianzas de las compras entre hombres y mujeres.

La muestra tomada proviene de una normal, sin embargo, se hace uso de un qqplot para demostrarlo

## [1] 41  5
## [1] 9 8

Se generaron los respectivos histogramas y qqplots para verificar si las muestras tomadas de hombres y mujeres se distribuyen normla, podemos observar que para ambas variables, se muestra un patrón de distribución normal, especificamente el qqplot, los datos no estan dispersos y siguen una distribucion normal en los histogramas.

Sabemos que esto no es necesario y se procede a realizar las pruebas de normalidad

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  hombres
## D = 0.080979, p-value = 0.1659
## 
##  Shapiro-Francia normality test
## 
## data:  hombres
## W = 0.98056, p-value = 0.1806

Utilizando shapiro y lillie tes se obtuvo un p-value mayor al 10% para el grupo de hombres, se confirma que se cumple el supuesto de normalidad.

Ahora para mujeres

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  mujeres
## D = 0.11297, p-value = 0.3754
## 
##  Shapiro-Francia normality test
## 
## data:  mujeres
## W = 0.95603, p-value = 0.1853

Utilizando shapiro y lillie tes se obtuvo un p-value mayor al 10% para el grupo de mujeres, se confirma que se cumple el supuesto de normalidad para ambos grupos.

Se quiere saber si existe diferencia estadísticamente significativa entre la media de compras de los hombres y las mujeres. Para responder esto se va a construir un intervalo de confianza del 90% para la diferencia de las compras promedio de los hombres y de las mujeres.

Enotnces, al haber determinado que las muestras provienen de una normal, se procede a estudiar la prueba de hipótesis

##H0: σ12/σ22 = 1

##H1: σ12/σ22 ≠ 1

## 
##  F test to compare two variances
## 
## data:  hombres  and  mujeres
## F = 1.1917, num df = 87, denom df = 31, p-value = 0.5929
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.634941 2.059240
## sample estimates:
## ratio of variances 
##           1.191663

Dado que el valor p es mayor a alfa 5%, se establece que NO SE RECHAZA LA HIPOTESIS NULA, ya que es mayor al nivel de significancia, se concluye que las varianzas son similares.