u1a3

Alexa Sanchez

07/02/2021

Prueba de hipótesis para un experimento relación playa-verano

Se utilizarán datos de google trends para analizar si existe una relación entre las búsquedas de verano y playas en un periodo de 5 años.

Importar

Bibliotecas y datos

library(readr) #para leer datos
library(DT) # tablas interactivas
library(prettydoc) #documentos con mejor formato
setwd("~/EAMJ1130") # folder de trabajo
datos <- read_csv("datos.csv") #importar datos
## 
## -- Column specification --------------------------------------------------------
## cols(
##   verano = col_double(),
##   playa = col_double()
## )

Visualizar

Tabla

Tabla interactiva con todos los datos

datatable(datos)

Gráficas

  • Exploraremos la relación que existe ente las variables por medio de una matriz de diagramas de dispersión
pairs(datos)

dado que los datos se agrupan en una tendencia lineal desde la parte inferior izquierda HACIA la parte superior derecha, podemos inferir que se trata de una relación DIRECTAMENTE proporcional (Si la X sube, la Y sube de forma proporcional)

Modelar

Coeficiente de correlación de pearson

¿Existe alguna relación?

  • Matriz de coeficientes de correlación
cor(datos)
##           verano     playa
## verano 1.0000000 0.8782494
## playa  0.8782494 1.0000000

Con un índice de correlación Pearson de 0.87 se puede determinar que existe una correlación alta en cuanto a las busquedas en los ultimos 5 años, lo cual nos dice que no necesariamente es una causalidad.

Calculo y representación de la recta de minimos cadrados

Regrecion= lm (playa ~ verano, data=datos)
summary(Regrecion)
## 
## Call:
## lm(formula = playa ~ verano, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -42.996  -5.790  -1.111   3.191  49.229 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 10.01694    1.14871    8.72 3.42e-16 ***
## verano       1.69808    0.05745   29.56  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11.79 on 259 degrees of freedom
## Multiple R-squared:  0.7713, Adjusted R-squared:  0.7704 
## F-statistic: 873.6 on 1 and 259 DF,  p-value: < 2.2e-16

ecuacion de la recta de minimos cuadrados \(y\)

\[y=10.01694 + 1.69808x\]

con esta ecuacion podemos predecir y modelar valores, en esta situacion en especifico, sobre la relación que hay entre las busquedas en google trens a lo largo de 5 años.