Análisis de correlación por medio de una regresión lineal y su análisis de confiabilidad
Se utilizarán datos de google trends para analizar si existe una relación entre las búsquedas de verano y playas en un periodo de 5 años.
Importar
Bibliotecas y datos
library(readr) #para leer datos
library(DT) # tablas interactivas
library(prettydoc) #documentos con mejor formato
setwd("~/EAMJ1130") # folder de trabajo
datos <- read_csv("datos.csv") #importar datos##
## -- Column specification --------------------------------------------------------
## cols(
## verano = col_double(),
## playa = col_double()
## )
Visualizar
Tabla
Tabla interactiva con todos los datos
datatable(datos)Gráficas
La representación gráfica más útil para describir el comportamiento conjunto de dos variables es el diagrama de dispersión o nube de puntos, donde cada caso aparece representado como un punto en el plano definido por las variables X y Y
- Exploraremos la relación que existe ente las variables verano y playa por medio de una matriz de diagramas de dispersión
Diagrama de dispersión Matricial: ofrece una matriz de diagramas de dispersión simples de todos los pares y todas las ordenaciones posibles que se pueden formar con las variables seleccionadas.
pairs(datos)dado que los datos se agrupan en una tendencia lineal desde la parte inferior izquierda HACIA la parte superior derecha, podemos inferir que se trata de una relación DIRECTAMENTE proporcional (Si la X sube, la Y sube de forma proporcional)
Modelar
El coeficiente de correlación de Pearson es una prueba que mide la relación estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el coeficiente no se encuentra representado adecuadamente.
El coeficiente de correlación puede tomar un rango de valores de +1 a -1. Un valor de 0 indica que no hay asociación entre las dos variables. Un valor mayor que 0 indica una asociación positiva. Es decir, a medida que aumenta el valor de una variable, también lo hace el valor de la otra. Un valor menor que 0 indica una asociación negativa; es decir, a medida que aumenta el valor de una variable, el valor de la otra disminuye.
Coeficiente de correlación de pearson
¿Existe alguna relación entre verano y playa?
- Matriz de coeficientes de correlación
cor(datos)## verano playa
## verano 1.0000000 0.8782494
## playa 0.8782494 1.0000000
Con un índice de correlación Pearson de 0.87 se puede determinar que existe una correlación alta en cuanto a las busquedas en los ultimos 5 años, lo cual nos dice que no necesariamente es una causalidad.
Calculo y representación de la recta de minimos cuadrados
Regresion= lm (playa ~ verano, data=datos)
summary(Regresion)##
## Call:
## lm(formula = playa ~ verano, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -42.996 -5.790 -1.111 3.191 49.229
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10.01694 1.14871 8.72 3.42e-16 ***
## verano 1.69808 0.05745 29.56 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11.79 on 259 degrees of freedom
## Multiple R-squared: 0.7713, Adjusted R-squared: 0.7704
## F-statistic: 873.6 on 1 and 259 DF, p-value: < 2.2e-16
El método de los mínimos cuadrados se utiliza para calcular la recta de regresión lineal que minimiza los residuos, esto es, las diferencias entre los valores reales y los estimados por la recta.
ecuacion de la recta de minimos cuadrados \(y\)
\[y=10.01694 + 1.69808x\]
con esta ecuacion podemos predecir y modelar valores, en esta situacion en especifico, sobre la relación que hay entre las busquedas en google trens a lo largo de 5 años.
Regresión lineal
Expresándolo en forma simple, la regresión lineal es una técnica que permite cuantificar la relación que puede ser observada cuando se grafica un diagrama de puntos dispersos correspondientes a dos variables, cuya tendencia general es rectilínea; relación que cabe compendiar mediante una ecuación “del mejor ajuste” de la forma:
y = a + bx
En esta ecuación, “y” representa los valores de la coordenada a lo largo del eje vertical en el gráfico (ordenada); en tanto que “x” indica la magnitud de la coordenada sobre el eje horizontal (absisa). El valor de “a” (que puede ser negativo, positivo o igual a cero) es llamado el intercepto; en tanto que el valor de “b” (el cual puede ser negativo o positivo) se denomina la pendiente o coeficiente de regresión.
Predicción de valores utilizando la ecuación de la recta de mínimos cuadrados
plot(datos$verano,datos$playa,xlab = "busquedas de verano", ylab = "busquedas de playa")
abline(Regresion)Estimación de predicciones
nuevo.playa <-
data.frame(playa=seq(0,100), verano=seq(0,100))
predict(Regresion, nuevo.playa)## 1 2 3 4 5 6 7 8
## 10.01694 11.71502 13.41310 15.11119 16.80927 18.50735 20.20544 21.90352
## 9 10 11 12 13 14 15 16
## 23.60161 25.29969 26.99777 28.69586 30.39394 32.09203 33.79011 35.48819
## 17 18 19 20 21 22 23 24
## 37.18628 38.88436 40.58244 42.28053 43.97861 45.67670 47.37478 49.07286
## 25 26 27 28 29 30 31 32
## 50.77095 52.46903 54.16712 55.86520 57.56328 59.26137 60.95945 62.65753
## 33 34 35 36 37 38 39 40
## 64.35562 66.05370 67.75179 69.44987 71.14795 72.84604 74.54412 76.24221
## 41 42 43 44 45 46 47 48
## 77.94029 79.63837 81.33646 83.03454 84.73262 86.43071 88.12879 89.82688
## 49 50 51 52 53 54 55 56
## 91.52496 93.22304 94.92113 96.61921 98.31730 100.01538 101.71346 103.41155
## 57 58 59 60 61 62 63 64
## 105.10963 106.80771 108.50580 110.20388 111.90197 113.60005 115.29813 116.99622
## 65 66 67 68 69 70 71 72
## 118.69430 120.39239 122.09047 123.78855 125.48664 127.18472 128.88280 130.58089
## 73 74 75 76 77 78 79 80
## 132.27897 133.97706 135.67514 137.37322 139.07131 140.76939 142.46748 144.16556
## 81 82 83 84 85 86 87 88
## 145.86364 147.56173 149.25981 150.95789 152.65598 154.35406 156.05215 157.75023
## 89 90 91 92 93 94 95 96
## 159.44831 161.14640 162.84448 164.54257 166.24065 167.93873 169.63682 171.33490
## 97 98 99 100 101
## 173.03298 174.73107 176.42915 178.12724 179.82532
Intervalo de confianza en el modelo de regresión simple
El intervalo de confianza describe la variabilidad entre la medida obtenida en un estudio y la medida real de la población (el valor real). Corresponde a un rango de valores, cuya distribución es normal y en el cual se encuentra, con alta probabilidad, el valor real de una determinada variable.
confint(Regresion)## 2.5 % 97.5 %
## (Intercept) 7.754933 12.278938
## verano 1.584952 1.811216
Intervalo de confianza para el 90% de los datos
confint(Regresion, level=0.90)## 5 % 95 %
## (Intercept) 8.120691 11.913180
## verano 1.603245 1.792923
Conclusión
En este ejemplo se obtuvo una correlación de pearson de 0.87 por lo cual se puede determinar que existe una correlación alta en cuanto a las busquedas en los ultimos 5 años y una vez al momento de realizar y analizar un intervalo de confianza en el modelo de regresion simple y un intervalo de confianza para el 90% de los datos, nos dice probablemente haya causalidad debido a la obtención de datos numéricos positivos.