Análisis de correlación por medio de una regresión lineal y su análisis de confiabilidad
En este pequeño experimento se utilizan datos de google trends para analizar si existe una relación entre las búsquedas de Día de muertos y calaveritas
Importar datos
Bibliotecas y datos
library(readr)
library(DT)
library(prettydoc)
setwd("~/ESTADISTICA APLICADA/U1A2")
datos <-read_csv("datos.csv")##
## -- Column specification --------------------------------------------------------
## cols(
## diademuertos = col_double(),
## calaveritas = col_double()
## )
Visualizar imagen
Grafica de Google trends
Al observar el gráfico se observa una correlación entre mediados de octubre y principios de noviembre
tabla
Tabla interactiva con todos los datos
datatable(datos)Gráficas
Con un diagrama de dispercion se observara la relación que existe entre los datos
pairs(datos)Inferencias
¿Existe una correlación entre día de muertos y las calaveritas?
cor(datos)## diademuertos calaveritas
## diademuertos 1.0000000 0.5393007
## calaveritas 0.5393007 1.0000000
Existe una correlacion de 0.53 Pearson, entre el dia de muertos y las calaveritas
Cálculo y representación de la recta de minimos cuadrados
regresion = lm (calaveritas ~ diademuertos, data=datos)
summary(regresion)##
## Call:
## lm(formula = calaveritas ~ diademuertos, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -22.862 -1.322 -1.083 -1.083 63.692
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.84427 1.39953 0.603 0.549
## diademuertos 0.23883 0.05274 4.528 3.7e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 9.672 on 50 degrees of freedom
## Multiple R-squared: 0.2908, Adjusted R-squared: 0.2767
## F-statistic: 20.51 on 1 and 50 DF, p-value: 3.703e-05
Ecuación de la recta de mínimos cuadrados \[ y = 0.84427 + 0.23883x \]
Con esta ecuación podemos modelar y predecir valores
predicción de valores utilizando la ecuación de la recta de mínimos cuadrados
Los siguientes comandos representan la nube de puntos (comando plot) y añade la representación gràfica de la recta de mìnimos cuadrados (comando abline aplicado al objeto generado po lm):
plot(datos$diademuertos, datos$calaveritas , xlab= "búsquedas de calaveritas", ylab="búsquedas de día de muertos")
abline(regresion)El coeficiente de detrminación (es decir, el coeficiente de correlación al cuadrado) mide la bondad del ajuste de la recta a los datos. A partir de la salida anterior, vemos que su valor en este caso es multiple R-squared: 0.2908
Estimación de predicciones
nuevos.calaveritas <- data.frame(calaveritas = seq(0,51),diademuertos = seq(0,51))
predict(regresion,nuevos.calaveritas)## 1 2 3 4 5 6 7
## 0.8442747 1.0831014 1.3219281 1.5607548 1.7995815 2.0384081 2.2772348
## 8 9 10 11 12 13 14
## 2.5160615 2.7548882 2.9937149 3.2325416 3.4713683 3.7101950 3.9490217
## 15 16 17 18 19 20 21
## 4.1878484 4.4266751 4.6655017 4.9043284 5.1431551 5.3819818 5.6208085
## 22 23 24 25 26 27 28
## 5.8596352 6.0984619 6.3372886 6.5761153 6.8149420 7.0537687 7.2925953
## 29 30 31 32 33 34 35
## 7.5314220 7.7702487 8.0090754 8.2479021 8.4867288 8.7255555 8.9643822
## 36 37 38 39 40 41 42
## 9.2032089 9.4420356 9.6808623 9.9196889 10.1585156 10.3973423 10.6361690
## 43 44 45 46 47 48 49
## 10.8749957 11.1138224 11.3526491 11.5914758 11.8303025 12.0691292 12.3079559
## 50 51 52
## 12.5467825 12.7856092 13.0244359
Intervalo de confianza en el modelo de regresión simple
La regresión lineal es una técnica que permite cuantificar la relación que puede ser observada cuando se grafica un diagrama de puntos dispersos correspondientes a dos variables, cuya tendencia general es rectilínea
confint(regresion)## 2.5 % 97.5 %
## (Intercept) -1.9667696 3.6553190
## diademuertos 0.1328959 0.3447574
El hecho de que exista una correlación de pearson alta, no significa que exista una causalidad El grado de asociación entre las variables indica que cuando es negativo una variable tiende a decrecer mientras la otra aumenta y por lo tanto puede que no exista una causalidad, sin embargo cuando es positivo significa que una variable se incrementa al hacerse mayor la otra por lo tanto puede que si exista una causalidad.
Intervalo de confianza para el 90% de los datos
Nos permiten aproximar, una vez calculado el valor de la variable en la muestra, entre qué rango de valores se encuentra el valor real inaccesible de la variable en la población
confint(regresion, level=0.90)## 5 % 95 %
## (Intercept) -1.501209 3.1897587
## diademuertos 0.150440 0.3272134
Con el intervalo de confianza del 90% se obtiene un intervalo más estrecho, y nos indica que dentro del rango se encuentra el valor real.