u1a4

Karolina Borbon

10/2/2021

Análisis de correlación por medio de una regresión lineal y su análisis de confiabilidad

En este pequeño experimento se utilizan datos de google trends para analizar si existe una relación entre las búsquedas de Día de muertos y calaveritas

Importar datos

Bibliotecas y datos

library(readr) 
library(DT) 
library(prettydoc) 
setwd("~/ESTADISTICA APLICADA/U1A2")
datos <-read_csv("datos.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   diademuertos = col_double(),
##   calaveritas = col_double()
## )

Visualizar imagen

tabla

Tabla interactiva con todos los datos

 datatable(datos)

Gráficas

Con un diagrama de dispercion se observara la relación que existe entre los datos

pairs(datos)

Inferencias

¿Existe una correlación entre día de muertos y las calaveritas?

cor(datos)
##              diademuertos calaveritas
## diademuertos    1.0000000   0.5393007
## calaveritas     0.5393007   1.0000000

Existe una correlacion de 0.53 Pearson, entre el dia de muertos y las calaveritas

Cálculo y representación de la recta de minimos cuadrados

regresion = lm (calaveritas ~ diademuertos, data=datos)
summary(regresion)
## 
## Call:
## lm(formula = calaveritas ~ diademuertos, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -22.862  -1.322  -1.083  -1.083  63.692 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   0.84427    1.39953   0.603    0.549    
## diademuertos  0.23883    0.05274   4.528  3.7e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9.672 on 50 degrees of freedom
## Multiple R-squared:  0.2908, Adjusted R-squared:  0.2767 
## F-statistic: 20.51 on 1 and 50 DF,  p-value: 3.703e-05

Ecuación de la recta de mínimos cuadrados \[ y = 0.84427 + 0.23883x \]

Con esta ecuación podemos modelar y predecir valores

predicción de valores utilizando la ecuación de la recta de mínimos cuadrados

Los siguientes comandos representan la nube de puntos (comando plot) y añade la representación gràfica de la recta de mìnimos cuadrados (comando abline aplicado al objeto generado po lm):

plot(datos$diademuertos, datos$calaveritas , xlab= "búsquedas de calaveritas", ylab="búsquedas de día de muertos")
abline(regresion)

El coeficiente de detrminación (es decir, el coeficiente de correlación al cuadrado) mide la bondad del ajuste de la recta a los datos. A partir de la salida anterior, vemos que su valor en este caso es multiple R-squared: 0.2908

Estimación de predicciones

nuevos.calaveritas <- data.frame(calaveritas = seq(0,51),diademuertos = seq(0,51))
predict(regresion,nuevos.calaveritas)
##          1          2          3          4          5          6          7 
##  0.8442747  1.0831014  1.3219281  1.5607548  1.7995815  2.0384081  2.2772348 
##          8          9         10         11         12         13         14 
##  2.5160615  2.7548882  2.9937149  3.2325416  3.4713683  3.7101950  3.9490217 
##         15         16         17         18         19         20         21 
##  4.1878484  4.4266751  4.6655017  4.9043284  5.1431551  5.3819818  5.6208085 
##         22         23         24         25         26         27         28 
##  5.8596352  6.0984619  6.3372886  6.5761153  6.8149420  7.0537687  7.2925953 
##         29         30         31         32         33         34         35 
##  7.5314220  7.7702487  8.0090754  8.2479021  8.4867288  8.7255555  8.9643822 
##         36         37         38         39         40         41         42 
##  9.2032089  9.4420356  9.6808623  9.9196889 10.1585156 10.3973423 10.6361690 
##         43         44         45         46         47         48         49 
## 10.8749957 11.1138224 11.3526491 11.5914758 11.8303025 12.0691292 12.3079559 
##         50         51         52 
## 12.5467825 12.7856092 13.0244359

Intervalo de confianza en el modelo de regresión simple

La regresión lineal es una técnica que permite cuantificar la relación que puede ser observada cuando se grafica un diagrama de puntos dispersos correspondientes a dos variables, cuya tendencia general es rectilínea

confint(regresion)
##                   2.5 %    97.5 %
## (Intercept)  -1.9667696 3.6553190
## diademuertos  0.1328959 0.3447574

El hecho de que exista una correlación de pearson alta, no significa que exista una causalidad El grado de asociación entre las variables indica que cuando es negativo una variable tiende a decrecer mientras la otra aumenta y por lo tanto puede que no exista una causalidad, sin embargo cuando es positivo significa que una variable se incrementa al hacerse mayor la otra por lo tanto puede que si exista una causalidad.

Intervalo de confianza para el 90% de los datos

Nos permiten aproximar, una vez calculado el valor de la variable en la muestra, entre qué rango de valores se encuentra el valor real inaccesible de la variable en la población

confint(regresion, level=0.90)
##                    5 %      95 %
## (Intercept)  -1.501209 3.1897587
## diademuertos  0.150440 0.3272134

Con el intervalo de confianza del 90% se obtiene un intervalo más estrecho, y nos indica que dentro del rango se encuentra el valor real.