U1A4

Prueba de hipótesis para un experimento

Nuestro conocimiento solo puede ser finito, mientras que nuestra ignorancia debe ser necesariamente infinita. -Karl Popper

Karl Popper

¿Cuál es la relación entre la Navidad y los juguetes?

Se analizaron datos obtenidos de Google Trends respecto a la correlación que tienen los juguetes y la Navidad basados en los últimos 5 años.

Navidad

Juguetes

Hipótesis

Según la hipotesis planteada se basa en que la correlación presentada será mayor al 50 %, ya que en las fechas de Noviembre-Diciembre, incluso Enero en algunos lugares de México, como es tradición que en Navidad dar regalos, hay una mayor busqueda de nuevos juguetes para ese día.

Datos obtenidos

En dichos datos pudimos observar los siguiente:

Gráfica

Importar

  • Importar datos
datos <- read_csv("datos.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   Navidad = col_double(),
##   Juguete = col_double()
## )

Visualizar

Tabla

Tabla de datos interactiva

datatable(datos)

Gráficas

  • Exploramos la relación que existe entre las variables por medio de una matriz de diagramas de dispersión
pairs(datos, col = "red")

  • Gráfico de caja y bigote
boxplot(datos$Navidad ~ datos$Juguete, col="deeppink4" )

Modelar

Coeficiente de correlación de Pearson

¿Existe alguna relación?

  • Matriz de coeficientes de correlación
cor(datos)
##           Navidad   Juguete
## Navidad 1.0000000 0.7450653
## Juguete 0.7450653 1.0000000

Con un índice de correlación de Pearson de 0.745 determinamos que existe una correlación, mas no necesariamente una casualidad.

Cálculos y representación de la recta de minímos cuadrados

regresion = lm(Juguete ~ Navidad, data = datos)
summary(regresion)
## 
## Call:
## lm(formula = Juguete ~ Navidad, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.6617 -0.3097 -0.1282 -0.1282  9.4182 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 3.037515   0.100058   30.36   <2e-16 ***
## Navidad     0.090712   0.005046   17.98   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.467 on 259 degrees of freedom
## Multiple R-squared:  0.5551, Adjusted R-squared:  0.5534 
## F-statistic: 323.2 on 1 and 259 DF,  p-value: < 2.2e-16

Ecuación de la recta de mínimos cuadrados \(y\)

\[ y = 3.037515 + 0.090712x \]

Con esta ecuación podemos modelas y predecir valores.

Predicción de valores utilizando la ecuación de la recta de mínimos cuadrados

plot(datos$Navidad, datos$Juguete, xlab = "Busquedas de Navidad", ylab = "Busquedas de juguete", col = "aquamarine2")
abline(regresion, col = "darkblue")

El coeficiente de determinación es Multiple R-squared: 0.5551, Adjusted R-squared: 0.5534

Estimación de predicciones

#Ajuste del modelo
nuevos.juguetes <- data.frame(Juguete=seq(0,50), Navidad=seq(0,50)) #Esto genera un vector de secuencia de valores de 1 en 1, hasta el 50 desde el 0.
predict(regresion, nuevos.juguetes)
##        1        2        3        4        5        6        7        8 
## 3.037515 3.128227 3.218940 3.309652 3.400364 3.491077 3.581789 3.672501 
##        9       10       11       12       13       14       15       16 
## 3.763214 3.853926 3.944638 4.035351 4.126063 4.216775 4.307487 4.398200 
##       17       18       19       20       21       22       23       24 
## 4.488912 4.579624 4.670337 4.761049 4.851761 4.942474 5.033186 5.123898 
##       25       26       27       28       29       30       31       32 
## 5.214611 5.305323 5.396035 5.486748 5.577460 5.668172 5.758885 5.849597 
##       33       34       35       36       37       38       39       40 
## 5.940309 6.031022 6.121734 6.212446 6.303158 6.393871 6.484583 6.575295 
##       41       42       43       44       45       46       47       48 
## 6.666008 6.756720 6.847432 6.938145 7.028857 7.119569 7.210282 7.300994 
##       49       50       51 
## 7.391706 7.482419 7.573131

Intervalo de confianza en el modelo de regresión simple

confint(regresion)
##                  2.5 %    97.5 %
## (Intercept) 2.84048473 3.2345453
## Navidad     0.08077602 0.1006486

El hecho de que existe una correlación pearson alta, probablemente significa que exista una causalidad.

Intervalo de confianza para el 90% de los datos

confint(regresion, level = 0.90)
##                    5 %       95 %
## (Intercept) 2.87234386 3.20268619
## Navidad     0.08238269 0.09904195

Conclusión

Si bien el coeficiente de correlación de Pearson puede tomarse como un índice que sirve para medir el grado de relación de dos variables; obtuvimos una correlación de 0.745 es decir de un 74.5 %, por lo que podemos decir que refleja que se da una correlación positiva. Una vez analizados los intervalos de confianza, podemos conlcuir que el hecho de que existe una correlación pearson alta, probablemente significa que exista una causalidad, debido a que los números son positivos. Sin embargo, al analizar los datos un generar el gráfico de correlación pudimos observar que la busqueda de \(juguetes\) no genera la \(Navidad\), pero la \(Navidad\) si genera la busqueda de \(juguetes\). Por lo que fue necesario hacer un ajuste en la manera en que se graficaron los datos para así obtener una linea de tendencia más real. Este modelo indica la posibilidad de una influencia causal directa, es posible que los resultados de juguete sea independiente del factor causal oculto o, en realidad, que sea independiente de si es Navidad o no.