Prueba de hipótesis para un experimento relación playa-verano
Se utilizarán datos de google trends para analizar si existe una relación entre las búsquedas de verano y playas en un periodo de 5 años.
Importar
Bibliotecas y datos
library(readr) #para leer datos
library(DT) # tablas interactivas
library(prettydoc) #documentos con mejor formato
setwd("~/EAMJ1130") # folder de trabajo
datos <- read_csv("datos.csv") #importar datos##
## -- Column specification --------------------------------------------------------
## cols(
## verano = col_double(),
## playa = col_double()
## )
Visualizar
Tabla
Tabla interactiva con todos los datos
datatable(datos)Gráficas
- Exploraremos la relación que existe ente las variables por medio de una matriz de diagramas de dispersión
pairs(datos)dado que los datos se agrupan en una tendencia lineal desde la parte inferior izquierda HACIA la parte superior derecha, podemos inferir que se trata de una relación DIRECTAMENTE proporcional (Si la X sube, la Y sube de forma proporcional)
Modelar
Coeficiente de correlación de pearson
¿Existe alguna relación?
- Matriz de coeficientes de correlación
cor(datos)## verano playa
## verano 1.0000000 0.8782494
## playa 0.8782494 1.0000000
Con un índice de correlación Pearson de 0.87 se puede determinar que existe una correlación alta en cuanto a las busquedas en los ultimos 5 años, lo cual nos dice que no necesariamente es una causalidad.
Calculo y representación de la recta de minimos cadrados
Regrecion= lm (playa ~ verano, data=datos)
summary(Regrecion)##
## Call:
## lm(formula = playa ~ verano, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -42.996 -5.790 -1.111 3.191 49.229
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10.01694 1.14871 8.72 3.42e-16 ***
## verano 1.69808 0.05745 29.56 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11.79 on 259 degrees of freedom
## Multiple R-squared: 0.7713, Adjusted R-squared: 0.7704
## F-statistic: 873.6 on 1 and 259 DF, p-value: < 2.2e-16
ecuacion de la recta de minimos cuadrados \(y\)
\[y=10.01694 + 1.69808x\]
con esta ecuacion podemos predecir y modelar valores, en esta situacion en especifico, sobre la relación que hay entre las busquedas en google trens a lo largo de 5 años.