Análisis de correlación por medio de una regresión lineal y su análisis de confiabilidad

Se utilizarán datos de google trends para analizar si existe una relación entre las búsquedas de verano y playas en un periodo de 5 años.

Importar

Bibliotecas y datos

library(readr) #para leer datos
library(DT) # tablas interactivas
library(prettydoc) #documentos con mejor formato
setwd("~/EAMJ1130") # folder de trabajo
datos <- read_csv("datos.csv") #importar datos

## 
## -- Column specification --------------------------------------------------------
## cols(
##   verano = col_double(),
##   playa = col_double()
## )

Visualizar

Tabla

Tabla interactiva con todos los datos

datatable(datos)

Gráficas

La representación gráfica más útil para describir el comportamiento conjunto de dos variables es el diagrama de dispersión o nube de puntos, donde cada caso aparece representado como un punto en el plano definido por las variables X y Y

Exploraremos la relación que existe ente las variables verano y playa por medio de una matriz de diagramas de dispersión

Diagrama de dispersión Matricial: ofrece una matriz de diagramas de dispersión simples de todos los pares y todas las ordenaciones posibles que se pueden formar con las variables seleccionadas.

pairs(datos)

dado que los datos se agrupan en una tendencia lineal desde la parte inferior izquierda HACIA la parte superior derecha, podemos inferir que se trata de una relación DIRECTAMENTE proporcional (Si la X sube, la Y sube de forma proporcional)

Modelar

El coeficiente de correlación de Pearson es una prueba que mide la relación estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el coeficiente no se encuentra representado adecuadamente.

El coeficiente de correlación puede tomar un rango de valores de +1 a -1. Un valor de 0 indica que no hay asociación entre las dos variables. Un valor mayor que 0 indica una asociación positiva. Es decir, a medida que aumenta el valor de una variable, también lo hace el valor de la otra. Un valor menor que 0 indica una asociación negativa; es decir, a medida que aumenta el valor de una variable, el valor de la otra disminuye.

Coeficiente de correlación de pearson

¿Existe alguna relación entre verano y playa?

Matriz de coeficientes de correlación

cor(datos)

##           verano     playa
## verano 1.0000000 0.8782494
## playa  0.8782494 1.0000000

Con un índice de correlación Pearson de 0.87 se puede determinar que existe una correlación alta en cuanto a las busquedas en los ultimos 5 años, lo cual nos dice que no necesariamente es una causalidad.

Calculo y representación de la recta de minimos cuadrados

Regresion= lm (playa ~ verano, data=datos)
summary(Regresion)

## 
## Call:
## lm(formula = playa ~ verano, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -42.996  -5.790  -1.111   3.191  49.229 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 10.01694    1.14871    8.72 3.42e-16 ***
## verano       1.69808    0.05745   29.56  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11.79 on 259 degrees of freedom
## Multiple R-squared:  0.7713, Adjusted R-squared:  0.7704 
## F-statistic: 873.6 on 1 and 259 DF,  p-value: < 2.2e-16

El método de los mínimos cuadrados se utiliza para calcular la recta de regresión lineal que minimiza los residuos, esto es, las diferencias entre los valores reales y los estimados por la recta.

ecuacion de la recta de minimos cuadrados \(y\)

\[y=10.01694 + 1.69808x\]

con esta ecuacion podemos predecir y modelar valores, en esta situacion en especifico, sobre la relación que hay entre las busquedas en google trens a lo largo de 5 años.

Regresión lineal

Expresándolo en forma simple, la regresión lineal es una técnica que permite cuantificar la relación que puede ser observada cuando se grafica un diagrama de puntos dispersos correspondientes a dos variables, cuya tendencia general es rectilínea; relación que cabe compendiar mediante una ecuación “del mejor ajuste” de la forma:

y = a + bx

En esta ecuación, “y” representa los valores de la coordenada a lo largo del eje vertical en el gráfico (ordenada); en tanto que “x” indica la magnitud de la coordenada sobre el eje horizontal (absisa). El valor de “a” (que puede ser negativo, positivo o igual a cero) es llamado el intercepto; en tanto que el valor de “b” (el cual puede ser negativo o positivo) se denomina la pendiente o coeficiente de regresión.

Predicción de valores utilizando la ecuación de la recta de mínimos cuadrados

plot(datos$verano,datos$playa,xlab = "busquedas de verano", ylab = "busquedas de playa")
abline(Regresion)

Estimación de predicciones

nuevo.playa <- 
  data.frame(playa=seq(0,100), verano=seq(0,100))

predict(Regresion, nuevo.playa)

##         1         2         3         4         5         6         7         8 
##  10.01694  11.71502  13.41310  15.11119  16.80927  18.50735  20.20544  21.90352 
##         9        10        11        12        13        14        15        16 
##  23.60161  25.29969  26.99777  28.69586  30.39394  32.09203  33.79011  35.48819 
##        17        18        19        20        21        22        23        24 
##  37.18628  38.88436  40.58244  42.28053  43.97861  45.67670  47.37478  49.07286 
##        25        26        27        28        29        30        31        32 
##  50.77095  52.46903  54.16712  55.86520  57.56328  59.26137  60.95945  62.65753 
##        33        34        35        36        37        38        39        40 
##  64.35562  66.05370  67.75179  69.44987  71.14795  72.84604  74.54412  76.24221 
##        41        42        43        44        45        46        47        48 
##  77.94029  79.63837  81.33646  83.03454  84.73262  86.43071  88.12879  89.82688 
##        49        50        51        52        53        54        55        56 
##  91.52496  93.22304  94.92113  96.61921  98.31730 100.01538 101.71346 103.41155 
##        57        58        59        60        61        62        63        64 
## 105.10963 106.80771 108.50580 110.20388 111.90197 113.60005 115.29813 116.99622 
##        65        66        67        68        69        70        71        72 
## 118.69430 120.39239 122.09047 123.78855 125.48664 127.18472 128.88280 130.58089 
##        73        74        75        76        77        78        79        80 
## 132.27897 133.97706 135.67514 137.37322 139.07131 140.76939 142.46748 144.16556 
##        81        82        83        84        85        86        87        88 
## 145.86364 147.56173 149.25981 150.95789 152.65598 154.35406 156.05215 157.75023 
##        89        90        91        92        93        94        95        96 
## 159.44831 161.14640 162.84448 164.54257 166.24065 167.93873 169.63682 171.33490 
##        97        98        99       100       101 
## 173.03298 174.73107 176.42915 178.12724 179.82532

Intervalo de confianza en el modelo de regresión simple

El intervalo de confianza describe la variabilidad entre la medida obtenida en un estudio y la medida real de la población (el valor real). Corresponde a un rango de valores, cuya distribución es normal y en el cual se encuentra, con alta probabilidad, el valor real de una determinada variable.

confint(Regresion)

##                2.5 %    97.5 %
## (Intercept) 7.754933 12.278938
## verano      1.584952  1.811216

Intervalo de confianza para el 90% de los datos

confint(Regresion, level=0.90)

##                  5 %      95 %
## (Intercept) 8.120691 11.913180
## verano      1.603245  1.792923

Conclusión

En este ejemplo se obtuvo una correlación de pearson de 0.87 por lo cual se puede determinar que existe una correlación alta en cuanto a las busquedas en los ultimos 5 años y una vez al momento de realizar y analizar un intervalo de confianza en el modelo de regresion simple y un intervalo de confianza para el 90% de los datos, nos dice probablemente haya causalidad debido a la obtención de datos numéricos positivos.

u1a4

Alexa Sanchez

10/02/2021