Prueba de hipotesis para un experimento
Se utilizarán datos de google trends para analizar si existe una relación entre las búsquedas de fuegos artificiales con la independencia de estados unidos.
library(readr) #Leer datos
library(DT) #Tablas interactivas
library(prettydoc) #Formato bien bonito
setwd("~/Escuela/ITSON/4to Semestre/Estadistica") #Working Directory
datos <- read_csv("datos_tabla.csv") #Importacion de datos##
## -- Column specification --------------------------------------------------------
## cols(
## Pirotecnia = col_double(),
## Independencia_USA = col_double()
## )
datatable(datos) #Mostrar datosGráficas
- Exploraremos la relación que existe entre las variables por medio de una matriz de diagramas de dispersión
pairs(datos)¿Existe alguna relación?
- Matriz de coeficientes de correlación:
cor(datos)## Pirotecnia Independencia_USA
## Pirotecnia 1.0000000 0.9733865
## Independencia_USA 0.9733865 1.0000000
Con un índice de correlación Pearson de 0.97 determinamos que existe una correlación, mas no necesariamente una causalidad.
Calculo y representación de la recta de minimos cuadrados
regresion = lm(Pirotecnia ~ Independencia_USA, data = datos)
summary(regresion)##
## Call:
## lm(formula = Pirotecnia ~ Independencia_USA, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.4829 -1.3626 -0.5432 -0.3626 12.4568
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.54316 0.39443 3.912 0.000276 ***
## Independencia_USA 0.81940 0.02728 30.034 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.768 on 50 degrees of freedom
## Multiple R-squared: 0.9475, Adjusted R-squared: 0.9464
## F-statistic: 902 on 1 and 50 DF, p-value: < 2.2e-16
Ecuación de la recta de minimos cuadrados
\[y = 1.54316 + 0.81940x\] Con la anterior ecuación podemos llegar a predecir y modelar los valores que hay entre las busquedas de google en cuanto a los temas “Pirotecnia” y Indepencia USA.
Predicción de valores utilizando la ecuación de la recta de minimos cuadrados
plot(datos$Pirotecnia, datos$Independencia_USA, xlab = "Busquedas de Pirotecnia", ylab = "Búsquedas de Dia de Independencia")
abline(regresion)Como se puede apreciar la linea es positiva dando significado a que las busquedas de pirotecnia es proporcional a las busquedas de el dia de la independencia de Estados Unidos.
Estimación de predicciones
nuevos.Pirotecnia <- data.frame(Pirotecnia = seq(0,20), Independencia_USA=seq(0,20))
predict(regresion, nuevos.Pirotecnia)## 1 2 3 4 5 6 7 8
## 1.543158 2.362555 3.181953 4.001351 4.820748 5.640146 6.459544 7.278942
## 9 10 11 12 13 14 15 16
## 8.098339 8.917737 9.737135 10.556532 11.375930 12.195328 13.014726 13.834123
## 17 18 19 20 21
## 14.653521 15.472919 16.292316 17.111714 17.931112
Intervalo de confianza en el modelo de regresión simple
Se utilizara el intervalo de confianza para darnos a conocer la variabilidad entre la medida obtenida en un estudio y la medida real de la población.
confint(regresion)## 2.5 % 97.5 %
## (Intercept) 0.7509130 2.3354023
## Independencia_USA 0.7645995 0.8741959
El hecho de que exista una correlación Pearson alta, no significa que exista una causalidad
Intervalo de confianza para el 90% de los datos
confint(regresion, level=0.90)## 5 % 95 %
## (Intercept) 0.8821232 2.2041921
## Independencia_USA 0.7736751 0.8651203