U1A4
Prueba de hipótesis para un experimento
Nuestro conocimiento solo puede ser finito, mientras que nuestra ignorancia debe ser necesariamente infinita. -Karl Popper
Karl Popper
Importar
- Importar datos
datos <- read_csv("datos.csv")##
## -- Column specification --------------------------------------------------------
## cols(
## Navidad = col_double(),
## Juguete = col_double()
## )
Visualizar
Tabla
Tabla de datos interactiva
datatable(datos)Gráficas
- Exploramos la relación que existe entre las variables por medio de una matriz de diagramas de dispersión
pairs(datos, col = "red")- Gráfico de caja y bigote
boxplot(datos$Navidad ~ datos$Juguete, col="deeppink4" )Modelar
Coeficiente de correlación de Pearson
¿Existe alguna relación?
- Matriz de coeficientes de correlación
cor(datos)## Navidad Juguete
## Navidad 1.0000000 0.7450653
## Juguete 0.7450653 1.0000000
Con un índice de correlación de Pearson de 0.745 determinamos que existe una correlación, mas no necesariamente una casualidad.
Cálculos y representación de la recta de minímos cuadrados
regresion = lm(Juguete ~ Navidad, data = datos)
summary(regresion)##
## Call:
## lm(formula = Juguete ~ Navidad, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.6617 -0.3097 -0.1282 -0.1282 9.4182
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.037515 0.100058 30.36 <2e-16 ***
## Navidad 0.090712 0.005046 17.98 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.467 on 259 degrees of freedom
## Multiple R-squared: 0.5551, Adjusted R-squared: 0.5534
## F-statistic: 323.2 on 1 and 259 DF, p-value: < 2.2e-16
Ecuación de la recta de mínimos cuadrados \(y\)
\[ y = 3.037515 + 0.090712x \]
Con esta ecuación podemos modelas y predecir valores.
Predicción de valores utilizando la ecuación de la recta de mínimos cuadrados
plot(datos$Navidad, datos$Juguete, xlab = "Busquedas de Navidad", ylab = "Busquedas de juguete", col = "aquamarine2")
abline(regresion, col = "darkblue")El coeficiente de determinación es Multiple R-squared: 0.5551, Adjusted R-squared: 0.5534
Estimación de predicciones
#Ajuste del modelo
nuevos.juguetes <- data.frame(Juguete=seq(0,50), Navidad=seq(0,50)) #Esto genera un vector de secuencia de valores de 1 en 1, hasta el 50 desde el 0.
predict(regresion, nuevos.juguetes)## 1 2 3 4 5 6 7 8
## 3.037515 3.128227 3.218940 3.309652 3.400364 3.491077 3.581789 3.672501
## 9 10 11 12 13 14 15 16
## 3.763214 3.853926 3.944638 4.035351 4.126063 4.216775 4.307487 4.398200
## 17 18 19 20 21 22 23 24
## 4.488912 4.579624 4.670337 4.761049 4.851761 4.942474 5.033186 5.123898
## 25 26 27 28 29 30 31 32
## 5.214611 5.305323 5.396035 5.486748 5.577460 5.668172 5.758885 5.849597
## 33 34 35 36 37 38 39 40
## 5.940309 6.031022 6.121734 6.212446 6.303158 6.393871 6.484583 6.575295
## 41 42 43 44 45 46 47 48
## 6.666008 6.756720 6.847432 6.938145 7.028857 7.119569 7.210282 7.300994
## 49 50 51
## 7.391706 7.482419 7.573131
Intervalo de confianza en el modelo de regresión simple
confint(regresion)## 2.5 % 97.5 %
## (Intercept) 2.84048473 3.2345453
## Navidad 0.08077602 0.1006486
El hecho de que existe una correlación pearson alta, probablemente significa que exista una causalidad.
Intervalo de confianza para el 90% de los datos
confint(regresion, level = 0.90)## 5 % 95 %
## (Intercept) 2.87234386 3.20268619
## Navidad 0.08238269 0.09904195
Conclusión
Si bien el coeficiente de correlación de Pearson puede tomarse como un índice que sirve para medir el grado de relación de dos variables; obtuvimos una correlación de 0.745 es decir de un 74.5 %, por lo que podemos decir que refleja que se da una correlación positiva. Una vez analizados los intervalos de confianza, podemos conlcuir que el hecho de que existe una correlación pearson alta, probablemente significa que exista una causalidad, debido a que los números son positivos. Sin embargo, al analizar los datos un generar el gráfico de correlación pudimos observar que la busqueda de \(juguetes\) no genera la \(Navidad\), pero la \(Navidad\) si genera la busqueda de \(juguetes\). Por lo que fue necesario hacer un ajuste en la manera en que se graficaron los datos para así obtener una linea de tendencia más real. Este modelo indica la posibilidad de una influencia causal directa, es posible que los resultados de juguete sea independiente del factor causal oculto o, en realidad, que sea independiente de si es Navidad o no.