U1A4

PALOMA DOMINGUEZ MUÑOZ

04/02/2021

Análisis de correlación por medio de una regresion lineal y su análisis de confiabilidad

Se utilizarán datos de google trends para analizar si existe una relación entre las búsquedas de el mes de Septiembre relacionados con las busquedas de la independencia.

Importar

Biblioteca y datos

Miguel Hidalgo y su grito de independencia

16 de septiembre día de la independencia

library(readr) #para leer datos
library(DT) # tablas interactivas
library(prettydoc) #documentos con mejor formato
setwd("~/Desktop/EAMJ1130") # folder de trabajo
datos <- read_csv("datos.csv") #importar datos
## 
## ── Column specification ────────────────────────────────────────────────────────
## cols(
##   Septiembre = col_double(),
##   Independencia = col_double()
## )
 #Visualizar datos en tablas

Visualizar

Gráficas

Exploraremos la relación que existe entre las variables del mes de septiembre con la independencia por medio de una matriz de diagrama de dispersión.

pairs(datos)

Modelar

Coeficiente de correlación de pearson

¿Existe alguna relación?

  • Matriz de coeficientes de correlación
cor(datos)
##               Septiembre Independencia
## Septiembre     1.0000000     0.1402383
## Independencia  0.1402383     1.0000000

Conclusión

Con un índice de correlación Pearson de 0.14 determinamos que existe una muy pequeña correlación, casi nula pero si existente entre las busquedas relacionadas con la independencia y con las busquedas de septiembre.

Cálculo y representación de la recta de mínimos cuadrados

regresion = lm(Independencia ~ Septiembre , data=datos)
summary(regresion)
## 
## Call:
## lm(formula = Independencia ~ Septiembre, data = datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -21.41  -9.71  -1.91   6.79  32.59 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  61.0096     4.8428  12.598   <2e-16 ***
## Septiembre    0.2000     0.1854   1.079    0.285    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 12.86 on 58 degrees of freedom
## Multiple R-squared:  0.01967,    Adjusted R-squared:  0.002764 
## F-statistic: 1.164 on 1 and 58 DF,  p-value: 0.2852

Ecuación de la recta de minimos cuadrados \[ y= 61.0096 + 0.2000x \] Con esta ecuación podemos modelar y predecir valores relacionados con las variables estudiadas en este caso, el mes de septiembre y la independencia.

Ilustres de la independencia de México

Predicción de valores utilizando la ecuación de la recta de mínimos cuadrados

plot(datos$Septiembre, datos$Independencia, xlab = "Busquedas de Septiembre" , ylab = "Busquedas de Independencia")
abline(regresion)

#Se tuvo que ajustar el orden de los nombres de las busquedas, para obtener un ajuste más real de la recta de los mínimos cuadrados, ya que las busquedas de Independencia no generan busquedas de Septiembre.

Estimación de predicciones

nuevos.Independencia <- data.frame(Independencia=seq(0,20), Septiembre=seq(0,20)) #esto genera un vector
predict(regresion,nuevos.Independencia)
##        1        2        3        4        5        6        7        8 
## 61.00959 61.20961 61.40963 61.60964 61.80966 62.00968 62.20969 62.40971 
##        9       10       11       12       13       14       15       16 
## 62.60973 62.80974 63.00976 63.20978 63.40979 63.60981 63.80982 64.00984 
##       17       18       19       20       21 
## 64.20986 64.40987 64.60989 64.80991 65.00992

Intervalo de confianza en el modelo de regresión simple

confint(regresion)
##                  2.5 %     97.5 %
## (Intercept) 51.3156812 70.7035032
## Septiembre  -0.1711552  0.5711884

El hecho de que exista una correlación pearson alta no significa que exista una causalidad. En mi caso como los datos nos dan positivo puede que se acerce a una casualidad, mas aun no tenemos pruebas para comprobarlo

Intervalo de confianza para el 90% de los datos

confint(regresion, level=0.90)
##                    5 %       95 %
## (Intercept) 52.9146018 69.1045826
## Septiembre  -0.1099339  0.5099671

Conclusión

El coeficiente de correlación de Pearson puede tomarse como un parámetro que se utiliza para medir el grado de relación de las variables; En este ejemplo se obtuvo una correlación de 0.1402, por lo que podemos decir que da una correlación realmente baja y positiva pero eso no necesariamente significa una casualidad, así que una vez analizados los intervalos de confianza, se puede concluir que el hecho de que existe una correlación pearson baja de 0.1402 pero con valores positivos, probablemente significa que exista una pequeña probabilidad de que sea causalidad, pero que las busquedas de independencia no generan Septiembre, por ello al generar el gráfico de correlación se tuvo que realizar el reajuste y organización de los datos, para obtener una línea de tendencia real, por lo tanto se puede concluir que las busquedas de Septiembre si generan busquedas de la independencia.