Integrantes :
                Maria Camila Bello Contreras 1014856040
                Laura Natalia Lopéz Ruíz  1012316184
                Juan Camilo Soto Cortés 1000851880 
                Valentina Giraldo Jaimes 1011320884

Introducción

Se realiza un estudio estadistico, descriptivo e inferencial que permite obtener informacion de la muestra, pero aún más importante, de la población, mediante lo cual se puede obtener información relevante sobre fenomenos, en este caso particular, se estudia un día muy especial para las personas en el siglo XXI se llama Black friday que según National Geographic tiene diferentes historias de proveniencia, la primera y no aceptada ni refutada, ya que no hya datos para tal menester, es que hace referencia a un momento de la historia dónde los terratenientes disminuian el precio de los esclavos para el comercio. Una segunda alternativa se presenta en 1869, cuando dos personas intentaron monopolizar todo el oro en la bolsa de Wall Street, sobornando a entidades y personas influyentes, sin embargo e valor de este metal cayó, dejando en quiebra a muchos inversionistas, dando el nombre a este día.

black friday
black friday

Esta expresión no tomó fama sino hasta que los medios de difusión de noticias de los años 50s lo difundieron gracias a que en Filadelfia se llevó a cabo un partido de football americano entre el ejercito y la marian , lo que desbocó en una gran afluencia de personas, por lo tanto los oficiales de policia de la ciudad no pudieron descansar ya que esto se dió una semana despues del día de acción de gracias. Finalmente el auge de este termino se dió despues del 19 de noviembre de 1975, por un mal entendido, en el cual The New York Times se refería los problemas de trafico gracias a las rebajas encontradas tras el día de acción de gracias, tras esto, el termino y esta ‘festividad’ tomaron la fuerza que conocemos hoy en día, migrando a otras partes del mundo como por ejemplo a españa en 2008.1

Marco Teórico:

Para este estudio es crítico utilizar las herramientas de probabilidad y estadistica aprendidas a lo largo del semestre, por lo tante se adjunta un leve marco teórico que ayuda no solo a numerar las herramientas sino a tener un registro del conocimiento y apropiación de cada uno de los conceptos:

Estadistica descriptiva

En este aprtado se usará, por ejemplo, las llamadas medidas de tendencia central, lo cual hace parte del analisis cuantitativo, en este caso se verán involucradas:

  • La media2 : La media es simplemente el promedio númerico de los datos con los que se está trabajando.

\[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \]

  • La mediana: la mediana tiene como propósito reflejar la tendencia central de la muestra de manera tal que no se vea influenciada por los valores más extremos. Tiene dos casos diferentes:

\[ \tilde{x} = \begin{cases} x_{\left(\frac{n+1}{2}\right)} & \text{si } n \text{ es impar} \\ \frac{1}{2} \left( x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2} + 1\right)} \right) & \text{si } n \text{ es par} \end{cases} \]

Ambas son medidas de localización, las cuales estan diseñadas para brindar valores cuantitativos de la ubicación central o de otro tipo de los datos de una muestra. Así mismo, se usan medidas de variabilidad, en este caso se verán involucradas:

  • La varianza 3: Indica que tan dispersos están los datos respecto a su media y se representa con la siguiente expresión.

\[ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 \quad \text{(poblacional)} \]

  • La desviación estandar4: Tiene como fin indicar cuánto se alejan los datos de su valor medio o su media.

\[ \sigma = \sqrt{\sigma^2} \] Aunque suena a que son lo mismo, la varianza proporciona una medida absoluta de la dispersión, en cambio, la desviación estandar nos da una medida relativa que es más fácil de interpretar y esto es debido a la forma en la que se realiza su calculo5.

Se utilizarán también las medidas con respecto a la posición en la que esten los datos, en este caso solo se utilizarán los cuartiles.

  • Los cuartiles: 6: son una medida de posición central, los cuales son tres valores que dividen a el conjunto de datos ordenados en cuatro partes iguales, cada uno toma un valor, el primero es 25%, el segundo de 50% y el tercero de 75%. En teoria nos dice en el caso del primer cuartil, que el 25% de los datos tienen un valor menor o igual al del primer cuartil y asi con cada uno.

Por último, se utilizará el sesgo y la curtosis :

  • El sesgo7:El sesgo estadístico es la diferencia que existe entre el valor promedio que un estimador produce y el verdadero valor del parámetro que se está tratando de estimar. En otras palabras, mide cuánto se desvía, en promedio, el estimador de la realidad que intenta representar.

  • La curtosis8: La curtosis, o apuntamiento, mide qué tan “afilada” o “plana” es una distribución en comparación con una distribución normal. Indica si los datos están más concentrados alrededor de lamedia (distribución con picos altos) o más dispersos (distribución más plana).

También se hará uso de las distribuciones de probabilidad, particularmente, se utilizará la distribución normal, la cual nos sirve para conocer la probabilidad de encontrar un valor de la variable que sea menor o igual a cierto valor, conociendo la media y la desviación estándar. Adás es la distribución más importante, presente en la mayoría de teoremas o justificaciones para el uso de cierto estadistico en la parte de inferencia, por lo mismo se presenta tambien un set de pruebas de normalidad de library(nortest).

Inferencia

En la segunda parte del trabajo, se usará estadistica inferencial, la cual nos permite cuantificar la incertidumbre. Dentro de esta , hay dos estrategias:

  • Intervalos de confianza: 9: El intervalo de confianza es un rango que aproxima los valores dentro de los cuales probablemente se encuentra el valor real de un parámetro poblacional, con un nivel de confianza específico, como el 95%, 90% o el 99%.

  • Prueba de hipotesis10:Prueba de hipotesis:es una regla que indicará si se puede aceptar o rechazar una afirmación sobre una población, dependienod de la información proporcionada en la muestra de los datos.La prueba de hipotesis usualmente examina dos hipótesis opuestas sobre una población, la nula (Ho) y la alternativa, siendo la hipotesis nula el enunciado que se prueba.

Desarrollo

Este ejercicio se divide en tres actividades, cada cual tiene, no solo una descripción detallada sino que un analisis aplicado ya que se asume el conocmiento basico ya mostrado en el marco teórico, es decir, se exige un nivel de aprendizaje mayor.

Prerrequisitos (librerias)

Acá se presetnan tosas la librerias a usar, ademas se generalizan los aprametros de los chunks, para ahorrar trabajo.

knitr::opts_chunk$set(echo = FALSE, message = FALSE, warning = FALSE)

library(readxl)
library(writexl)
library(nortest)
library(ggplot2)
library(moments)

Actividad 1.

Se propone estudiar la variable purchase de una base de datos, para lo cual se requiere una muestra aleatoria con un tamaño de 120, para tal menester la semilla, set.seed(0404), el procedimiento es el siguiente. No olvide corregir el ‘path’ de la poblacion. Se añade igualmente el proceso de como se obtuvo el excel de la muestra (se usa ayuda de IA).

Una vez se tienen los datos para trabajar se propone un analisis descriptivo con las variables “Gender”, “City_Category” e “Income“, para lo cual se usa la funcion summary() obtenida gracias al manual de R. Es importante notar que como se tienen variables que en lugar de ser numericas, son categoricas, lo siguiente es volverlas factores porque R los puede tomar como caracteres para eso usaremos la función as.factor().

Para el lugar de recidencia del comprador se tiene:

##     A     B     C 
## 12913 20209 14612

Para el genero:

##     F     M 
## 11790 35944

y para el ingreso mensual se tiene :

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -10842   11333   13017   13012   14689   26411

Estos datos presentados serán de utilidad en un fuuro, sin embargo es momento de redireccionar la atención a la variable de purchase o valor de compra en dolares, tomando la media y desviación muestral y poblacional, con el fin de compararlas:

## La media poblacional es: 9508.259 La desviación poblacional es: 5001.657

Por otro lado, para la muestra se tiene:

## La media muestra es: 8419.55 La desviación muestral es:  5472.783
  • Interpretacion de estimadores:

Teniendo en cuenta que generalmente no se pueden observar los datos de una población completa, porque no podemos recolectar los datos de todos los individuos, se toman muestras y con estas se hacen estimaciones con respecto a la población.En este caso, tendriamos que la media muestral es el promedio de los datosde la muestra y se usa usualmente como la estimacion de la media poblacional.

Por lo tanto, podemos concluir que la media muestral es el estimador de la media poblacional.

Para comparar la muestra y la población, se pide calcular la probabilidad de que la media muestral sea mayor o igual que la media poblacional, para este menester se usa la función pnorm() que dice practicamente la probabilidad de que un valor aleatorio en una distribución normal sea menor o igual a un valor como en este caso, se necesita que sea mayor o igual, usamos 1-pnorm.

## La probabilidad de que la media muestral sea mayor o igual que la media poblacional es: 0.9914477

Continuando con el analisis de la variable de compras mensuales en dolares, purchase, es necesario ver graficamente su comportamiento y poder caracterizarlo como normal o no, se usa library(ggplot2) para hacer unn histograma, el cual se mejoró con ayuda de una IA.

Sin embargo, para poder afirmar que la variable se distribuye como una normal es necesario algo más que una gráfica, en esta ocación se hace uso de la curtosis y el sesgo. Se usa kurtosis() del paquete moments, para el sesgo se usa skewness() del paquete moments como se muestra a continuación:

## La curtosis de la variable Purchase es: 2.805956 El sesgo de la variable Purchase es: -0.05130523
  • Interpretacion de los datos

Con respecto a el valor de cutosis se puede decir que; como el valor de la curtosis es cercano a 3 la distribución tiene colas similares a una distribución normal. Como se puede ver, la curtosis es ligeramente menor a 3, esto sugiere que la distribución es ligeramente platicúrtica, es decir, la distribución es un poco más achatadas que la distribución normal, sin embargo al obtener un valor tan cercano a 3 se puede tomar como una distribución que es casi mesocúrtica, es decir, está muy cerca de tener una forma similar a una distribución normal.” “Con respecto al valor se sesgo se puede decir que este valor es muy cercano a 0, lo que indica que la distribución es prácticamente simétrica. Un valor tan bajo de sesgo sugiere que no hay una inclinación significativa hacia la derecha o izquierda.

Actividad 2

Se utiliza la muestra muestra.aleatoria.p4 para seguir estudiando la variable purchase con respecto a la población construyendo un intervalo de confianza de 90%, sin embargo es necesario coprobar que se puede tomar la muestra como una normal usando pruebas de normalidad. Se toma que

## El valor p de la prueba de normalidad es 0.5051655 .Como p es mayor que 0.05, no se rechaza la hipótesis nula, sugiriendo que los datos provienen de una normal.

Ahora para construir el intervalo de confianza se utiliza t.test()

## El intervalo de confianza con 90 % es 7591.343 9247.757

A partir del resultado obtenido con test.t, se puede concluir, con un nivel de confianza del 90%, que el promedio de compras realizadas por los clientes durante el Black Friday se encuentra entre 7591.34 y 9247.76 dólares. Es interesante ahora responder a la pregunta de si la media poblacional se encuentra en este intervalo, se hace con un if statement:

## La proporción poblacional no se encuentra dentro del intervalo.

Debido a que la media poblacional no cae dentro de el intervalo de confianza,se puede sugerir que es posible que la muestra no represente adecuadamente a la población en general. Es importante recordar que con una confianza del 99% estimamos que las compras hechas en uno de los Blackfridays que se realizan en Estados Unidos está entre us$ 8668 y Us$9534.

Ahora se hace un procedimiento similar, sin embargo es con la proporcion y con un \(\alpha = 0.05\). Primeramente se debe calcular la cantidad de ventas superiores a US$5.000.

Ahora se calculan los intervalos de confianza para la proporción

## El intervalo de confianza para la proporcion de ventas superiores
## a US$5.000 es  0.6611472 0.8225263

Se calcula la proporcion poblacional

## La proporcion poblacional  de ventas superiores
## a US$5.000 es 0.815247

Con lo anterior se puede estimar si la proporcion poblacional se encuentra en el intervalo.

## La proporción poblacional se encuentra dentro del intervalo.

Dado que la proporción poblacional se encuentra dentro del intervalo de confianza, podemos concluir que la estimación de la muestra es representativa de la población.

Ahora se ve necesario hacer un intervalo de confianza al noventa por ciento para la diferencia de medias de las compras hechas por hombres y por mujeres, se omite la prueba de normalidad ya que fue hecha al inicio de la actividad. A continuación se filtra la muestra por hombres y mujeres y a cada una de estas se le hace la rpueba de normalidad, sin embargo cabe destacar que es redundante ya que estos vienen de una muestra que es normal.

## Prueba de normalidad para compras de mujeres:
##  0.9465209 Prueba de normalidad para compras de hombres:
##  0.7901145

Según lo anterior se comprueba quee ambaas muestras son o vienen de normales y se puede ahora hacer el intervalo de confianza para la diferencia de medias de compras de hombres versus mujeres, utilizando t.test().

## 
## El intervalo de confianza es :
##  -3913.14 1317.405

No hay una diferencia significativa en las compras promedio entre hombres y mujeres, pues el intervalo incluye el cero

El paso sigueinte consiste en obtener el intervalo de confianza para la varianza de la compra de las mujeres, lo cual se hace con la función var.test() del paquete stests, para abrirlo se uso la ayuda de una IA.

## Con una confianza del 95% se estima que la varianza de las compras de las mujeres está entre: 16383693 58371113

Lo anterior indica que hay un rango de variabilidad alta en el comportamiento de compra de las mujeres, lo cual puede hacer de esto un fenómeno muy complicado de estudiar.

Actividad 3

Utilizando las estrategias de inferencia, se propone hacer una prueba de hipotesis con un nivel de significancia de 0,05 para las ventas promedio, usando como hipótesis alternativa: “μ es mayor a el valor real encontrado en la población $H_a,, _o,>,$, de la misma forma \(H_o\, \rightarrow\,\mu_o\,=\, \mu\), el argumento de alternative (en t.test()) es greater gracias a lo que estipula la hipotesis alternativa.

## Como p es igual a 0.9843559 , es decir mayor a el nível de significancia 5%, no se rechaza
## la hipótesis nula

Es decir que las evidencias no son suficientes para afirmar que el μ es mayor a el valor real encontrado en la población del punto c de la actividad A.

Se quiere concluir si hay diferencia entre las compras promedio de hombres y mujeres, para lo cual se hace un prueba de hipotesis con \(\alpha\,=\,0.05\). la hipotesis nula es la sigueinte:

\(H_o\,\rightarrow\, \mu_h\,=\,\mu_m\)

La hipotesis alternativa se presenta como:

\(H_a\,\rightarrow\,\mu_h\,\neq\,\mu_m\)

Las muestras, como ya se mostró, provienen de una normal. Para la prueba de hipotesis se usa t.test() y se asume que las variaznas son diferentes.

## ya que el valor p es: 0.3188979 lo cual es mayor que alpha, no se rechaza la hipotesis nula. El intervalo de confianza -3913.14 1317.405 contiene al cero

Lo anterior permite afirmar que las medias de hombres y de mujeres no distan en valor entre ellas de una forma considerable ya que, en primera instancia H_o no se puede refutar, y el intervalo de confianza contiene al cero lo cual indica que su resta puede dar este valor. Esto quiere decir que los factores que influyen en la compra, no discriminan considerablemente el sexo, esto nos permite afirmar que al tener en valor medias similares, un hombre no compra mucho más que la mujer o viceversa, lo cual puede llevar a proponer revisar que la compra sea inherente al sexo.

Para continuar con este racionamiento sirve valerse de un intervalo de confianza para el cociente de varianzas de las compras entre hombres y mujeres, se utiliza var.test() del paquete stests, notese que al no especificar el alpha, se muestran tres posibilidades.

## El intervalo de confianza con un 90% es: 0.5685073 1.820619 
##  El intervalo de confianza con un 95% es:  0.4994436 2.008095 
##  El intervalo de confianza con un 99% es:  0.3831225 2.420619

Es evidente que todos los intervalos contienen al número uno, lo cual permite afirmar que las varianzas no distan considerablemene en valor, por lo mismo su cociente, según lo visto en el intervalo, contiene al uno, esto quiere decir que la distribución del comportamiento en ambos casos es similar.

Para complementar el paso anterior, vale la pena hacer una prueba de hipotesis par a la igualdad de varianzas con un \(\alpha\,=\,5\%\). Con lo anteriror la hipotesis nula sería: \(H_o\,\rightarrow \sigma^{2}_{h}\,=\,\sigma^{2}_{m}\), por consiguiente la hipotesis alternativa es: \(H_a\,\rightarrow\,\sigma^{2}_{h}\,\neq\,\sigma^{2}_{m}\). Para este paso se utiliza var.test().

## Dado que el valor p es mayor que alpha, no se rechaza la hipotesis nula

Lo anterior permite afirmar que no hay información suficiente para rechazar la hipotesis nula, lo cual reafirma lo expuesto en el punto anterior, donde las varianzas son cercanas.

Conclusion

Según Peña et al. 11 la media de compras hechas por hombres y mujeres, con respecto a la media corresponndiente a lo largo del trabajo, evidencia que no existe una variación relevante, observe el apartado b de la actividad 2 esta indica que a partir de el intervalo de confianza, al incluir el cero, la media de compras de hombres y mujeres, no representa una variación relevante. Sin embargo, de ese mismo apartado se observa que los hombres presentan un mayor porcentaje de compras por medios electrónicos, además de la tendencia de estos a valorar la funcionalidad de comprar por este medio, como por ejemplo beneficios del producto, precio, disponibilidad, entre otros. Mientras que las mujeres presentan mayor susceptibilidad a elementos de tipo hedónico o simbólico, factor que es difícil de apreciar en las compras online, pues estás inhiben la percepción sensorial de los productos. Otro factor relevante a tener en cuenta para explicar que las mujeres tengan menor media de compras es la capacidad de riesgo, ya que mientras las mujeres tienen más aversión a este, los hombres presentan un menor rechazo a el mismo. Sin duda alguna, la pequeña diferencia en media de compras se debe a varios factores que no se mencionan en este texto, que pueden ser de tipo socioeconómicos, generacionales, etc.

Consumismo, no comunismo
Consumismo, no comunismo

  1. “El origen histórico del Black Friday”. historia.nationalgeographic.com.es. Accedido el 28 de septiembre de 2024. [En línea]. Disponible: https://historia.nationalgeographic.com.es/a/origen-historico-black-friday_14984↩︎

  2. Walpole, R., Myers, R., Myers, S., & Ye, K. (2012). Probabilidad y estadística para Ingeniería y Ciencias (9th ed.). Pearson. https://bibliotecavirtualaserena.files.wordpress.com/2017/05/libro_probabilidad-y-estadistica-para-ingenerc3ada-y-ciencias-ronald-e-walpole-mayers.pdf↩︎

  3. Jimenez, S. (2023, agosto 21). Diferencia entre Varianza y Desviación Estándar en Estadística. utopixe.com. https://utopixe.com/diferencia-entre-varianza-y-desviacion-estandar-en-estadistica/↩︎

  4. Medidas de dispersión: Varianza y desviación estándar. (2023, julio 3). Educación Activa. https://educacionactiva.org/medidas-de-dispersion-varianza-y-desviacion-estandar/↩︎

  5. Jimenez, S. (2023, agosto 21). Diferencia entre Varianza y Desviación Estándar en Estadística. utopixe.com. https://utopixe.com/diferencia-entre-varianza-y-desviacion-estandar-en-estadistica/↩︎

  6. Estadística, P. y. (2021, noviembre 25). Cuartiles. Probabilidad y Estadística. https://www.probabilidadyestadistica.net/cuartiles/↩︎

  7. # Estadística, P. Y. (2023b, diciembre 18). Sesgo estadístico. Probabilidad y Estadística. https://www.probabilidadyestadistica.net/sesgo-estadistico/#ejemplos-de-sesgos-estadísticos↩︎

  8. Estadística, P. Y. (2022, 3 junio). Asimetría y curtosis. Probabilidad y Estadística. https://www.probabilidadyestadistica.net/asimetria-y-curtosis/#%c2%bfque-son-la-asimetría-y-la-curtosis↩︎

  9. Estadística, P. Y. (2023a, enero 12). Intervalo de confianza. Probabilidad y Estadística. https://www.probabilidadyestadistica.net/intervalo-de-confianza/↩︎

  10. # ¿Qué es una prueba de hipótesis? (s/f). Recuperado el 30 de septiembre de 2024, de https://support.minitab.com/es-mx/minitab/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/what-is-a-hypothesis-test/↩︎

  11. http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0121-50512018000300117↩︎